原始文章

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 PubMed DOI


站上相關主題文章列表

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育,例如腰椎間盤突出。研究發現,這些AI回答腰椎間盤突出的問題時,準確性和清晰度有差異,需要改進。未來應該專注於提升AI模型,以增進患者和醫師之間的溝通。 PubMed DOI

這項研究探討內視鏡顱底手術相關的線上病患教育材料的可讀性與品質,並評估ChatGPT在改善這些材料方面的潛力。雖然建議可讀性應在六年級以下,但許多現有文章仍難以理解。研究發現66篇文章中,10篇可讀性最低的經過ChatGPT修改後,Flesch可讀性指數顯著提升,從19.7增至56.9,顯示可讀性改善至10年級水平。總體而言,ChatGPT有效提升了病患教育材料的可讀性與品質,顯示其在創建和精煉內容上的潛力。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在創建神經外科文獻摘要的有效性。研究隨機選取150篇2023年發表的摘要,並比較其可讀性與準確性。結果顯示,兩個模型生成的摘要在可讀性上顯著優於原始摘要,GPT3.5的閱讀年級為7.80,GPT4為7.70。科學準確性方面,68.4%的GPT3.5摘要和84.2%的GPT4摘要被醫師評為中等準確性。研究指出,GPT4在改善病人教育上具有潛力,能讓神經外科文獻更易理解。 PubMed DOI

微創脊椎手術(MISS)近年來成為傳統手術的替代選擇,因其切口小、恢復快及併發症少等優勢。隨著患者在網上尋求MISS資訊,資訊的清晰度與準確性變得重要。研究發現,許多相關網頁內容的可讀性超過建議水平,讓患者難以理解。本研究評估ChatGPT對MISS常見問題的回答在臨床適宜性和可讀性方面的表現。結果顯示,雖然術前和術後問題的回答通常適宜,但手術中問題的回答有一半被認為不可靠。未來的AI工具應注重清晰溝通,並需醫療專業人員的監督。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科和重建外科的資訊質量與可讀性。研究人員針對過去15年最常搜尋的十個主題,設計了九個問題並輸入ChatGPT-4。結果顯示,使用DISCERN工具評估後,回應的資訊質量得分偏低,平均為34;可讀性指數也不佳,Flesch-Kincaid平均為33.6,Coleman-Liau為15.6。儘管如此,十二位整形外科醫師對回應的清晰度和準確性給予正面評價,平均得分分別為7.38和7.4。研究建議,AI語言模型如ChatGPT可作為健康資訊的起點,未來有潛力改善內容質量。 PubMed DOI

這項研究探討了可獲得的醫療資訊對患者的重要性,並評估了兩個AI工具,ChatGPT和Google Gemini,針對特定醫療狀況(如深靜脈血栓、壓瘡和痔瘡)的可理解性。結果顯示,ChatGPT的內容需要較高的教育水平才能理解,且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異,但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了AI工具,特別是ChatGPT 3.5和4.0,在提供低背痛患者教育的效果。結果顯示,ChatGPT 4.0在回應質量上明顯優於3.5,得分分別為1.03和2.07,且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳,顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果,針對常見的上肢和下肢骨科疾病進行分析。結果顯示,ChatGPT-3.5的可讀性僅有2%和4%達標,而ChatGPT-4.0則有54%達標,顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異,但兩者仍被視為不可靠,無法完全取代傳統病人教育方式,應作為醫療提供者的輔助工具。 PubMed DOI