原始文章

這項研究評估了AI工具,特別是ChatGPT 3.5和4.0,在提供低背痛患者教育的效果。結果顯示,ChatGPT 4.0在回應質量上明顯優於3.5,得分分別為1.03和2.07,且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳,顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI


站上相關主題文章列表

ChatGPT是一個運用人工智慧的軟體,展現了在各領域,包括醫學上的潛力。有研究專注於探索它在評估腰背痛方面的潛力,比較ChatGPT生成的問卷與現有的疼痛評估工具。研究指出與某些工具有相關性,但也提到ChatGPT在評估方面有限制。因此,需要進一步的研究和驗證,以充分了解它在患者評估中的潛力。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

這項研究評估了大型語言模型(LLM)聊天機器人對於常見病人問題(如下背痛)的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題,結果顯示120個回答中,55.8%準確,42.1%不準確,1.9%不清楚。治療和自我管理的回答較準確,但風險因素的回答最不準確。整體可讀性被評為「相當困難」,平均得分為50.94。此外,70%-100%的回答都包含健康建議的免責聲明。研究建議,雖然LLM聊天機器人對病人教育有幫助,但準確性和可靠性可能因主題而異,影響病人理解。 PubMed DOI

這項研究評估了GPT-4在初級和急診護理中對脊椎問題的分診和診斷效果。研究設計了十五個臨床情境,要求GPT-4提供診斷、影像學建議及轉診需求。結果顯示,GPT-4能準確識別診斷並給出符合標準的臨床建議。雖然它有過度轉診的傾向,但這並不顯著。整體表現與主治醫師和住院醫師相當,顯示其在脊椎問題初步分診中的潛力。不過,GPT-4並非專為醫療用途設計,需注意其限制。隨著進一步訓練,這類AI可能在分診中變得更重要。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Copilot,對於低背痛(LBP)醫療建議的有效性。研究在蒙特利爾大學進行,針對27個常見問題進行回答,並由物理醫學科醫師評估其有效性、安全性和實用性。結果顯示,ChatGPT在有效性得分3.33,安全性3.19,實用性3.60;而Copilot則分別為3.18、3.13和3.57。臨床背景對結果影響不大,顯示LLMs在低背痛自我管理中具有可靠性,未來在病人照護中有潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

人工智慧,特別是ChatGPT,在醫學領域的應用引起了廣泛關注。最近一項研究探討了ChatGPT-4在肌肉骨骼疾病物理治療中的表現,針對脊椎、下肢和上肢問題提出了三十個臨床問題。結果顯示,ChatGPT的回應與臨床實踐指導方針的符合率達80%,上肢疾病的準確率更是高達100%。雖然脊椎疾病的準確率較低,但整體而言,ChatGPT在物理治療決策中展現了輔助工具的潛力,仍需進一步研究以提升其臨床應用。 PubMed DOI

這項研究評估了大型語言模型(LLM)聊天機器人對於常見病人問題(如下背痛)的回答準確性和可讀性。分析了30個問題,結果顯示120個回答中,55.8%準確,42.1%不準確,1.9%不清楚。治療和自我管理的回答較準確,風險因素則最不準確。可讀性平均得分為50.94,顯示文本相對困難。此外,70%-100%的回答都有健康建議的免責聲明。總體而言,雖然LLM聊天機器人有潛力,但準確性和可讀性差異可能影響病人理解。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0生成的病人教育材料(PEMs)在可讀性上的表現,針對常見手部疾病進行分析。研究發現,ChatGPT 4.0在啟發階段後,有28%的內容達到六年級閱讀水平,而3.5則沒有生成合適的內容。整體來看,4.0在所有可讀性指標上均優於3.5,顯示出其在提升病人教育和健康素養方面的潛力,未來隨著進一步改進,這一潛力將更為明顯。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果,針對常見的上肢和下肢骨科疾病進行分析。結果顯示,ChatGPT-3.5的可讀性僅有2%和4%達標,而ChatGPT-4.0則有54%達標,顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異,但兩者仍被視為不可靠,無法完全取代傳統病人教育方式,應作為醫療提供者的輔助工具。 PubMed DOI