Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Effects of interacting with a large language model compared with a human coach on the clinical diagnostic process and outcomes among fourth-year medical students: study protocol for a prospective, randomised experiment using patient vignettes.
與大型語言模型互動與人類教練互動對四年級醫學生臨床診斷過程及結果的影響：使用病人案例的前瞻性隨機實驗研究計劃。 BMJ Open 2024-07-18

這項研究探討醫學生在與大型語言模型（如ChatGPT）和人類教練互動時，對診斷決策的影響。研究對象為158名來自柏林查理大學的四年級醫學生，他們被分配到不同的互動方式，並接受相關訓練。研究將評估資訊搜尋、假設考量、診斷準確性及信心水平等因素，並使用線性混合效應模型進行統計分析。研究已獲倫理審查批准，預期結果將為人工智慧在醫學診斷中的應用提供重要見解，並將發表於同行評審期刊。 PubMed DOI

Large Language Model Influence on Management Reasoning: A Randomized Controlled Trial.
大型語言模型對管理推理的影響：一項隨機對照試驗。 medRxiv 2024-08-16

使用大型語言模型（LLM）能顯著提升醫生在複雜管理推理任務上的表現，超越傳統資源。在一項針對92位醫生的隨機對照試驗中，使用GPT-4的醫生在管理推理任務中得分較高。研究顯示，LLM的協助能改善管理決策、診斷決策及特定案例的表現，顯示其在複雜臨床情境中做出決策的能力，特別是在缺乏明確答案的情況下。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
大型語言模型對診斷推理的影響：一項隨機臨床試驗。 JAMA Netw Open 2024-10-28

這項研究評估大型語言模型（LLM）對醫師診斷推理的影響，與傳統資源相比。研究於2023年11月29日至12月29日進行，參與者來自多所學術機構的醫師，分為兩組：一組使用LLM和傳統資源，另一組僅用傳統資源。結果顯示，LLM組的中位診斷推理分數為76%，略高於傳統組的74%，但差異不顯著（P = .60）。不過，LLM的單獨表現比傳統資源高出16個百分點（P = .03），顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

Large language models improve clinical decision making of medical students through patient simulation and structured feedback: a randomized controlled trial.
大型語言模型透過病人模擬和結構化反饋提升醫學生的臨床決策能力：一項隨機對照試驗。 BMC Med Educ 2024-11-28

這項研究探討如何利用大型語言模型（LLMs）來提升醫學生的臨床決策訓練，透過模擬病人互動進行。研究分為對照組和反饋組，反饋組除了模擬對話外，還獲得AI生成的表現反饋。共21名醫學生參與，使用臨床推理指標評估表現。結果顯示，反饋組經過訓練後表現顯著優於對照組，特別在情境創建和資訊獲取上。研究指出，AI模擬對話結合結構化反饋，能有效支持臨床決策訓練，提升學生的實務準備。 PubMed DOI

Application of large language models in disease diagnosis and treatment.
大型語言模型在疾病診斷與治療中的應用。 Chin Med J (Engl) 2024-12-26

大型語言模型（LLMs）如ChatGPT等，正透過其推理能力改變疾病診斷與治療。這些模型能分析醫學文本，提升診斷準確性，並有效識別症狀與檢測結果中的細微模式。多模態大型語言模型（MLLMs）更能分析醫學影像，協助制定基於證據的治療計畫。然而，仍面臨算法偏見及生成不準確資訊的風險，需進行臨床驗證。這篇論文強調政策制定、倫理監督及跨學科合作的重要性，以確保臨床應用的安全與有效性，並探討未來研究方向。 PubMed DOI

Enhancing diagnostic capability with multi-agents conversational large language models.
利用多代理對話大型語言模型增強診斷能力。 NPJ Digit Med 2025-03-14

多代理對話（MAC）框架是為了提升疾病診斷而設計的，透過臨床多學科團隊的合作。在一項針對302個罕見疾病案例的研究中，MAC的表現超越了GPT-3.5和GPT-4等單一模型，無論是在初診還是後續諮詢中，診斷準確性和建議檢測效果都更佳。最佳配置為四位醫生代理和一位監督代理，並以GPT-4為基礎模型。MAC在多次測試中表現穩定，並且在性能上優於其他方法，顯著提升了大型語言模型的診斷能力，為未來醫療研究提供了新方向。 PubMed DOI

Human-AI collectives most accurately diagnose clinical vignettes.
Human-AI 協作團隊最能準確診斷臨床病歷摘要 Proc Natl Acad Sci U S A 2025-06-13

單靠大型語言模型（LLMs）做高風險決策有風險，因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統，分析四萬多個診斷案例後發現，醫師和LLM合作比單獨使用任何一方都更準確，因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

原始文章

站上相關主題文章列表