Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.
大型語言模型輔助腦部 MRI 鑑別診斷中的人類與 AI 協作：一項可用性研究。 Eur Radiol 2025-03-07

這項研究探討人類與大型語言模型（LLMs）合作對腦部MRI掃描診斷準確性和效率的影響。研究中，六名放射科住院醫師評估40個挑戰性MRI案例，分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示，LLM輔助的診斷準確率為61.4%，高於傳統的46.5%，且差異具統計意義。不過，解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性，但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models: Systematic Review and Meta-Analysis.
臨床專業人員與大型語言模型診斷準確度之比較：系統性回顧與統合分析 JMIR Med Inform 2025-04-25

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究，發現LLM診斷準確率雖不錯，但多數研究有偏誤，且準確度還不及醫師。不過，若小心運用，未來LLM有望成為醫療智慧助理。 PubMed DOI

Specialized Large Language Model Outperforms Neurologists at Complex Diagnosis in Blinded Case-Based Evaluation.
專業大型語言模型於盲測病例評估中在複雜診斷表現優於神經科醫師 Brain Sci 2025-05-01

一款專為神經科設計的 AI（GPT-4 Turbo，經 Neura 運作），在模擬診斷中表現比現職神經科醫師更好，準確率高達 86%，反應時間也大幅縮短到 30 秒內，還能提供可靠、可查證的資訊。這證明針對特定領域設計的 AI，有機會成為臨床神經科的高效輔助工具。 PubMed DOI

Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.
將標題「Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.」翻譯為繁體中文(zh-TW)如下：「評估大型語言模型與大型推理模型作為急診內科決策支援工具的應用」 Comput Biol Med 2025-05-13

最新研究發現，OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多，診斷和收治判斷準確率都超過九成，甚至在異常檢驗判讀上還拿到滿分。相比之下，Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說，o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

Dedicated AI Expert System vs Generative AI With Large Language Model for Clinical Diagnoses.
專用 AI 專家系統與大型語言模型生成式 AI 在臨床診斷上的比較 JAMA Netw Open 2025-05-29

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain，在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時，DXplain雖然正確診斷次數較多，但差異不顯著。有檢驗數據後，三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力，有望提升診斷支援效果。 PubMed DOI

A large language model improves clinicians' diagnostic performance in complex critical illness cases.
大型語言模型提升臨床醫師在複雜重症病例中的診斷表現 Crit Care 2025-06-06

這項研究發現，DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症，讓診斷正確率從 27% 提升到 58%，AI 自己的正確率則是 60%。有 AI 幫忙時，住院醫師不只診斷更準確，速度也更快，鑑別診斷品質也提升。整體來說，這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

From Tool to Teammate: A Randomized Controlled Trial of Clinician-AI Collaborative Workflows for Diagnosis.
從工具到夥伴：臨床醫師與AI協作診斷流程的隨機對照試驗 medRxiv 2025-06-12

這項研究找來70位醫師，測試專為醫師協作設計的GPT AI診斷系統。無論是AI先診斷還是醫師先診斷，協作後的正確率都比傳統工具高（85%和82%對75%），和單純AI診斷（90%）差不多。結果顯示，協作型AI能有效提升診斷準確率，也促進醫師與AI的合作。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表