Clinical risk prediction using language models: benefits and considerations.
使用語言模型進行臨床風險預測：好處與考量。 J Am Med Inform Assoc 2024-02-27

研究探討利用語言模型強化電子健康記錄的風險預測。提出兩種新方法「LLaMA2-EHR」和「Sent-e-Med」，利用病歷文本預測診斷結果，表現優於先前方法，特點是少量樣本學習和適應醫學詞彙。但結果受提示影響，語言模型安全問題尚待解決，建議謹慎使用。 PubMed DOI

Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Large language model uncertainty proxies: discrimination and calibration for medical diagnosis and treatment.
大型語言模型不確定性代理：醫療診斷和治療的區分與校準。 J Am Med Inform Assoc 2024-10-13

這項研究探討了不同的不確定性代理如何評估大型語言模型（LLMs），如GPT-3.5、GPT-4、Llama2和Llama3，在醫療診斷和治療選擇中的信心。主要發現顯示，樣本一致性（SC）在辨識正確與錯誤回應上表現最佳，ROC AUC分數介於0.68到0.79之間。雖然SC的校準效果不佳，但使用GPT註釋的SC在辨識能力和校準上表現良好。研究認為SC是評估LLM不確定性最有效的方法，並指出這些模型在表達信心時常過於自信。 PubMed DOI

Developing and Evaluating Large Language Model-Generated Emergency Medicine Handoff Notes.
開發與評估大型語言模型生成的急診醫學交接筆記。 JAMA Netw Open 2024-12-03

這項研究探討大型語言模型（LLM）生成的急診醫學交接筆記，針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行，分析了1,600份病人紀錄。結果顯示，LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記，但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時，醫生參與的重要性，並提供了評估病人安全的框架。 PubMed DOI

Probabilistic medical predictions of large language models.
大型語言模型的概率醫學預測。 NPJ Digit Med 2024-12-20

大型語言模型（LLMs）在臨床環境中有潛力，但在提供可靠的預測概率上常遇挑戰，這對透明度和知情決策很重要。研究顯示，明確提示生成的概率在六個開源LLMs和五個醫療數據集上表現不如隱含概率，尤其在小型LLMs和不平衡數據集上更明顯。這強調了謹慎解讀結果的必要性，並呼籲開發更好的概率估計方法及進一步研究，以提升LLMs在臨床應用的可行性。 PubMed DOI

Influence of prior probability information on large language model performance in radiological diagnosis.
先驗概率資訊對大型語言模型在放射診斷中表現的影響。 Jpn J Radiol 2025-02-05

這項研究探討了先驗機率對大型語言模型（LLM）在放射學診斷中的影響。研究分析了322個放射學案例，並在三種情境下測試LLM：無上下文、帶測驗上下文及初級護理上下文。結果顯示，提供測驗上下文時，LLM的診斷準確率顯著提升至70.2%，而無上下文時為64.9%。但在初級護理情境下，準確率降至59.9%。這顯示LLM可能根據先前信息調整診斷，強調在臨床中提供相關上下文的重要性。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Evaluating LLMs for Diagnosis Summarization.
評估大型語言模型在診斷摘要中的應用。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-05

這篇論文探討了六種大型語言模型（LLMs）在自動化出院摘要方面的有效性，並提出了一種新的自動評估指標，與人類評估結果相符。研究使用F1-Score來評估模型表現，並與醫療專業人員的評估進行比較。結果顯示，雖然LLMs有潛力，但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

原始文章

站上相關主題文章列表