Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Large Language Model Influence on Management Reasoning: A Randomized Controlled Trial.
大型語言模型對管理推理的影響：一項隨機對照試驗。 medRxiv 2024-08-16

使用大型語言模型（LLM）能顯著提升醫生在複雜管理推理任務上的表現，超越傳統資源。在一項針對92位醫生的隨機對照試驗中，使用GPT-4的醫生在管理推理任務中得分較高。研究顯示，LLM的協助能改善管理決策、診斷決策及特定案例的表現，顯示其在複雜臨床情境中做出決策的能力，特別是在缺乏明確答案的情況下。 PubMed DOI

Comparison of Large Language Models in Diagnosis and Management of Challenging Clinical Cases.
大型語言模型在挑戰性臨床案例診斷與管理中的比較。 Clin Ophthalmol 2024-11-18

這項研究比較了十五個大型語言模型（LLMs）在處理眼科案例的表現，測試來自《JAMA Ophthalmology》的二十個案例。結果顯示，這些模型的平均得分為19，三個模型（ChatGPT 3.5、Claude Pro和Copilot Pro）表現優於平均，其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平，對一般人來說較難理解，但對眼科醫生則可接受。研究認為，雖然LLMs的準確性不足以單獨用於病人護理，但在協助醫生方面顯示出潛力，特別是訂閱制模型。 PubMed DOI

Large language models improve clinical decision making of medical students through patient simulation and structured feedback: a randomized controlled trial.
大型語言模型透過病人模擬和結構化反饋提升醫學生的臨床決策能力：一項隨機對照試驗。 BMC Med Educ 2024-11-28

這項研究探討如何利用大型語言模型（LLMs）來提升醫學生的臨床決策訓練，透過模擬病人互動進行。研究分為對照組和反饋組，反饋組除了模擬對話外，還獲得AI生成的表現反饋。共21名醫學生參與，使用臨床推理指標評估表現。結果顯示，反饋組經過訓練後表現顯著優於對照組，特別在情境創建和資訊獲取上。研究指出，AI模擬對話結合結構化反饋，能有效支持臨床決策訓練，提升學生的實務準備。 PubMed DOI

Multiple large language models versus experienced physicians in diagnosing challenging cases with gastrointestinal symptoms.
多個大型語言模型與經驗豐富的醫生在診斷具有挑戰性的腸胃症狀病例中的比較。 NPJ Digit Med 2025-02-05

這項研究比較了大型語言模型（LLMs）與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例，發現LLM Claude 3.5 Sonnet的準確率達76.1%，明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具，提供高效且具成本效益的診斷支持。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.
大型語言模型輔助腦部 MRI 鑑別診斷中的人類與 AI 協作：一項可用性研究。 Eur Radiol 2025-03-07

這項研究探討人類與大型語言模型（LLMs）合作對腦部MRI掃描診斷準確性和效率的影響。研究中，六名放射科住院醫師評估40個挑戰性MRI案例，分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示，LLM輔助的診斷準確率為61.4%，高於傳統的46.5%，且差異具統計意義。不過，解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性，但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

Large Language Model-Based Assessment of Clinical Reasoning Documentation in the Electronic Health Record Across Two Institutions: Development and Validation Study.
基於大型語言模型的電子健康紀錄中臨床推理文檔評估：兩個機構的開發與驗證研究。 J Med Internet Res 2025-03-21

這項研究探討人工智慧在醫療上的應用，特別是命名實體識別（NER）和大型語言模型（LLMs），評估紐約大學和辛辛那提大學的電子健康紀錄中的臨床推理文件。分析了700份NYU和450份UC的住院醫師紀錄，並開發了多種AI模型。NYUTron LLM在NYU表現最佳，而GatorTron LLM在UC也有不錯的成績。研究顯示AI工具能顯著提升臨床推理的質量，並強調這些模型在不同醫療機構的應用潛力。 PubMed DOI

Towards accurate differential diagnosis with large language models.
利用大型語言模型進行準確的鑑別診斷。 Nature 2025-04-09

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE)，一個大型語言模型，旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性，並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估，結果顯示AMIE的準確率達59.1%，遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%，也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性，並強調在真實環境中進一步評估的必要性。 PubMed DOI

Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.
將標題「Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.」翻譯為繁體中文(zh-TW)如下：「評估大型語言模型與大型推理模型作為急診內科決策支援工具的應用」 Comput Biol Med 2025-05-13

最新研究發現，OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多，診斷和收治判斷準確率都超過九成，甚至在異常檢驗判讀上還拿到滿分。相比之下，Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說，o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

原始文章

站上相關主題文章列表