原始文章

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究探討了大型語言模型(LLM),特別是ChatGPT 3.5,分析電子健康紀錄(EHR)筆記的潛力,判斷全膝關節置換術(TKA)患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異(MCID)。研究發現,ChatGPT 3.5的敏感性高達97%,但特異性僅33%,整體準確率為65%。相比之下,外科醫生的敏感性為90%,特異性63%,準確率76%。結論指出,LLM在識別改善患者方面表現良好,但仍需改進以提升其臨床應用的準確性。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

這項研究比較三款AI(ChatGPT-4o mini、ChatGPT-4o、Gemini Advanced)回答停經後骨質疏鬆症問題的表現。結果發現,ChatGPT-4o 在常見問題的正確率最高,回答也較精簡;而在根據指引設計的問題上,ChatGPT-4o mini 和 ChatGPT-4o 表現都不錯。三款AI都有不錯的自我修正能力。總結來說,ChatGPT-4o 最適合回答一般PMOP問題。 PubMed DOI

這項研究比較了ChatGPT-4o、Gemini 和 Claude 3.5 Sonnet 三款大型語言模型,用中文和英文回答小兒髖關節發育不良臨床問題的準確性。結果發現,三款模型在中英文的回答都很準確,彼此之間沒有明顯差異,顯示這些AI能可靠提供相關醫療資訊。 PubMed DOI

三款主流聊天機器人(ChatGPT 4.0、Claude 2、Gemini)回答阿基里斯肌腱病變相關問題,ChatGPT 4.0「優秀」答案較多,但總分差不多。專家評分有落差,顯示標準化評估還不夠。雖然這些AI能提供不錯的醫療資訊,但臨床應用時還是要小心。 PubMed DOI

這項研究發現,GPT-4o自動產生的膝關節MRI報告,不僅比GPT-4o-mini更準確,還能幾乎完美預測骨關節炎嚴重程度。骨科醫師也認為這些AI報告更好用、審閱更快。整體來說,GPT-4o有機會幫助醫師減少文書工作,提升臨床效率。 PubMed DOI

這項研究發現,ChatGPT-4o 和 Gemini Advanced 在設計膝蓋骨關節炎復健計畫時,和物理治療師的整體一致性不錯,但在運動細節上還有待加強。ChatGPT-4o 表現較佳,尤其在進階階段。不過,這些 AI 目前還缺乏臨床判斷和細節指導,臨床應用前仍需專家把關與優化。 PubMed DOI