原始文章

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI


站上相關主題文章列表

這項研究評估了四種大型語言模型(LLMs)在根據臨床案例診斷疾病的表現,包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段,第一階段僅使用案例描述,第二階段則加入答案選項。結果顯示,Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好,但Google Gemini的效能較低,需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs),包括ChatGPT(3.5和4.0版)、Google Gemini和Claude 3,針對葡萄膜炎的臨床問題進行回答。三位專家評估了27個問題的準確性、全面性和可讀性。結果顯示,Claude 3和ChatGPT 4的準確性明顯高於Gemini,Claude 3獲得最高的「優秀」評分(96.3%)。ChatGPT 4在全面性上也優於Gemini,而Gemini在可讀性方面表現最佳。總體來看,Claude 3和ChatGPT 4是提升患者對葡萄膜炎護理理解的有效工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答脊髓損傷相關問題的表現,包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示,Gemini的資訊品質最佳,但可讀性較低,需大學程度理解。ChatGPT在準確性上表現最佳,達83.8%的「良好」評級,超過其他模型。所有模型在全面性和自我修正能力上表現良好,特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示,Claude 3.5 Sonnet 答案最準確,特別適合專業醫師提問;Gemini 1.5 Pro 則在家長提問時最容易理解。不過,所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型,確保醫療資訊正確可靠。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示,Gemini 的資訊品質最佳,ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力,但簡化複雜內容的能力不錯。整體來說,這些模型在提供肝硬化健康資訊上表現良好,但品質、可讀性和正確性仍有差異,未來還需進一步改進。 PubMed DOI

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要,Claude在正確性和完整性上表現最好,但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查,目前還不適合單獨用於臨床摘要。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI