原始文章

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這篇綜述整理了LLMs在醫療診斷的最新應用,像是疾病分類和醫學問答,特別以GPT-4和GPT-3.5為主。雖然在放射科、精神科等領域表現不錯,但還是有偏見、隱私和法規等問題。未來要加強驗證、減少偏見、提升可解釋性,並統一法規,才能讓LLMs更安全地應用在醫療上。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI

單靠大型語言模型(LLMs)做高風險決策有風險,因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統,分析四萬多個診斷案例後發現,醫師和LLM合作比單獨使用任何一方都更準確,因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

這項研究比較了四款大型語言模型(如ChatGPT 4o、Grok 3等)和人類專家在評估診斷研究偏誤風險的表現。LLMs平均準確率約73%,Grok 3表現最好。雖然LLMs有潛力,但推理仍會出錯,暫時無法取代專家,只能當作輔助工具,還是需要專家監督。 PubMed DOI

這篇回顧發現,大型語言模型(LLMs)在個人化醫療診斷上越來越常被應用,能提升診斷準確度並協助量身打造治療。不過,資料隱私、模型解釋性和可靠性還有待加強,未來需持續研究和建立相關保障,才能安心用在臨床上。 PubMed DOI

這篇系統性回顧分析了大型語言模型在牙顎顏面放射學的應用,包括診斷、治療建議、考題作答和報告生成。雖然LLMs在這些任務上展現潛力,但準確率落差大(33%到92.5%),表現還不夠穩定,未來還需要更多改進和驗證,才能真正用在臨床實務上。 PubMed DOI