原始文章

這項研究比較了四種AI語言模型在風濕病診斷上的表現,發現ChatGPT-4和Claude AI的準確率最高,超過85%,尤其在感染性疾病診斷上表現突出。不過,所有AI在腫瘤相關疾病的診斷上都比較弱。整體來說,先進AI有助於提升非洲地區風濕病診斷,但對某些疾病還有改進空間。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例,使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示,ChatGPT-4的前10名診斷中,最終診斷納入率最高,達86.7%,其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者,突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Google Gemini,在風濕病學考試問題上的表現。分析了420個問題,結果顯示ChatGPT-4o的準確率為86.9%,遠高於Google Gemini的60.2%。重複詢問相同問題時,ChatGPT-4o的準確率維持在86.7%。研究指出,ChatGPT-4o在基礎與臨床科學、骨關節炎及類風濕性關節炎方面表現優異,顯示人工智慧在臨床環境中的潛力,未來應探索更多真實臨床情境。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在根據臨床案例診斷疾病的表現,包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段,第一階段僅使用案例描述,第二階段則加入答案選項。結果顯示,Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好,但Google Gemini的效能較低,需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI