Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine.
診斷推理提示揭示了大型語言模型在醫學領域可解釋性的潛力。 NPJ Digit Med 2024-02-01

研究發現，透過診斷提示，GPT-4能夠模擬臨床醫師的診斷過程並保持準確性。這對醫師理解並信任LLMs的回應很重要，有助於克服「黑盒子」問題，提升LLMs在醫學實踐中的安全性與效益。 PubMed DOI

Large Language Models in Medicine: The Potentials and Pitfalls : A Narrative Review.
醫學中的大型語言模型：潛力與陷阱：敘事性評論。 Ann Intern Med 2024-02-21

大型語言模型（LLMs）是訓練在大量文本資料上的先進人工智慧模型，目的是模擬人類的表現。在醫療保健領域中，LLMs的應用越來越廣泛，用來回答醫學問題和生成臨床報告等任務。LLM公司與醫療系統的合作將這些模型帶入更貼近真實臨床應用的領域。醫療保健提供者需要了解LLMs的發展、應用以及在醫療環境中可能面臨的挑戰。這篇文章旨在教育醫療專業人士有關醫學中的LLMs，包括了它們在目前景觀中的應用以及未來在醫療領域的改進。 PubMed DOI

Clinical risk prediction using language models: benefits and considerations.
使用語言模型進行臨床風險預測：好處與考量。 J Am Med Inform Assoc 2024-02-27

研究探討利用語言模型強化電子健康記錄的風險預測。提出兩種新方法「LLaMA2-EHR」和「Sent-e-Med」，利用病歷文本預測診斷結果，表現優於先前方法，特點是少量樣本學習和適應醫學詞彙。但結果受提示影響，語言模型安全問題尚待解決，建議謹慎使用。 PubMed DOI

Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods 2024-08-23

這項研究探討了使用生成性大型語言模型（LLMs）來自動化醫學研究中的偏見風險評估（RoB）。研究發現，LLMs在新整理的測試數據集上的表現不如預期，F1分數僅在0.1到0.2之間，與簡單基準相似，顯示其在RoB2預測任務中的效能有限。即使在分解任務中，表現也不佳，遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

Large Language Model Prompting Techniques for Advancement in Clinical Medicine.
臨床醫學進步的大型語言模型提示技術。 J Clin Med 2024-09-14

大型語言模型（LLMs）有潛力顯著改變臨床醫學，能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過，這些模型的有效運用需謹慎設計提示，以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念，以及運用策略性提示技術，對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解，能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

Uncertainty estimation in diagnosis generation from large language models: next-word probability is not pre-test probability.
大型語言模型在診斷生成中的不確定性估計：下一詞概率並非前測概率。 JAMIA Open 2025-01-13

這項研究評估了兩個大型語言模型（LLMs），Mistral-7B-Instruct 和 Llama3-70B-chat-hf，使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示，傳統的極端梯度提升（XGB）分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB，但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理，以提升診斷準確性，並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI

Large Language Models lack essential metacognition for reliable medical reasoning.
大型語言模型缺乏可靠醫學推理所需的基本後設認知。 Nat Commun 2025-01-14

大型語言模型（LLMs）在醫學考試中表現出色，但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試，評估模型的信心分數和元認知任務。研究顯示，雖然模型在回答問題上表現良好，但在識別知識空白方面存在重大缺陷，經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險，因此需要改進評估框架，以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表