The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

Assessment of large language models in medical quizzes for clinical chemistry and laboratory management: implications and applications for healthcare artificial intelligence.
大型語言模型在臨床化學和實驗室管理醫學測驗中的評估：對醫療人工智慧的影響與應用。 Scand J Clin Lab Invest 2025-02-19

這項研究評估了九個大型語言模型（LLMs）在醫學領域的表現，特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗，結果顯示GPT-4o的準確率最高，達81.7%，其次是GPT-4 Turbo（76.1%）和Claude 3 Opus（74.3%）。這些模型在數字和計算任務上表現優異，顯示出它們能有效運用現有知識協助醫療專業人員進行決策，未來有潛力成為醫療輔助工具。 PubMed DOI

Consistent Performance of GPT-4o in Rare Disease Diagnosis Across Nine Languages and 4967 Cases.
GPT-4o 在九種語言和 4967 例罕見疾病診斷中的一致表現。 medRxiv 2025-03-10

大型語言模型（LLMs）如GPT-4o在醫療應用，特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例，涵蓋378種遺傳疾病，並翻譯HPO術語，生成多語言提示。結果顯示，GPT-4o在英語中正確識別排名第一的診斷達19.8%，而在八種非英語語言中，正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力，並得到多方支持，推進LLMs在醫療領域的合作努力。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Dedicated AI Expert System vs Generative AI With Large Language Model for Clinical Diagnoses.
專用 AI 專家系統與大型語言模型生成式 AI 在臨床診斷上的比較 JAMA Netw Open 2025-05-29

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain，在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時，DXplain雖然正確診斷次數較多，但差異不顯著。有檢驗數據後，三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力，有望提升診斷支援效果。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

DeepSeek-R1 and GPT-4 are comparable in a complex diagnostic challenge: a historical control study.
DeepSeek-R1 與 GPT-4 在複雜診斷挑戰中的表現相當：一項歷史對照研究 Int J Surg 2025-06-12

DeepSeek-R1 是一款開源大型語言模型，醫療診斷表現和 GPT-4 差不多，正確診斷率分別為 35% 和 39%。不過，DeepSeek-R1 把正確診斷列入鑑別診斷的機率較低，且清單較長但多元。整體來說，DeepSeek-R1 準確度不輸 GPT-4，且有開源優勢，但在診斷排序上還有進步空間。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表