Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

A toolbox for surfacing health equity harms and biases in large language models.
一個揭示大型語言模型中健康公平危害和偏見的工具箱。 Nat Med 2024-09-23

大型語言模型（LLMs）在滿足健康資訊需求上有潛力，但也可能加劇健康不平等。本研究針對Med-PaLM 2模型，提供識別醫療答案中偏見的資源與方法，並提出一個評估框架及七個對抗性查詢的數據集EquityMedQA。研究強調多樣化評估策略的重要性，並呼籲來自不同背景的評審者參與。雖然無法完全確定AI系統是否促進公平健康結果，但此方法旨在增強可及性與公平醫療。 PubMed DOI

Mitigating Cognitive Biases in Clinical Decision-Making Through Multi-Agent Conversations Using Large Language Models: Simulation Study.
透過大型語言模型的多代理對話減輕臨床決策中的認知偏誤：模擬研究。 J Med Internet Res 2024-11-19

臨床決策中的認知偏誤可能導致誤診和病人不良結果。本研究探討大型語言模型（LLMs）如何透過多代理框架來減少這些偏誤。研究人員模擬臨床決策，創建不同角色的代理進行對話，以提高診斷準確性。分析16個因認知偏誤而誤診的案例，測試各種代理組合。使用GPT-4的代理包括決策者、挑戰偏誤的魔鬼代言人等。結果顯示，初始診斷準確率為0%，但經過討論後，最佳框架的準確率提升至76%。這顯示LLM驅動的對話在醫療情境中具潛力。 PubMed DOI

Performance Assessment of Large Language Models in Medical Consultation: A Comparative Study.
大型語言模型在醫療諮詢中的表現評估：一項比較研究。 JMIR Med Inform 2025-01-07

這項研究探討生成式人工智慧，特別是大型語言模型（LLMs）在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應，並使用PubMedQA和QuoraQA數據集，結果顯示最新的模型，尤其是GPT-3.5和Llama2，在生成醫療回應方面表現優異。研究指出，升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識，目的是提升AI驅動的醫療諮詢系統，特別是在心理健康領域的應用。 PubMed DOI

Large Language Models lack essential metacognition for reliable medical reasoning.
大型語言模型缺乏可靠醫學推理所需的基本後設認知。 Nat Commun 2025-01-14

大型語言模型（LLMs）在醫學考試中表現出色，但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試，評估模型的信心分數和元認知任務。研究顯示，雖然模型在回答問題上表現良好，但在識別知識空白方面存在重大缺陷，經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險，因此需要改進評估框架，以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Sociodemographic biases in medical decision making by large language models.
大型語言模型在醫療決策中的社會人口偏見。 Nat Med 2025-04-08

這項研究評估了九個大型語言模型在醫療領域的表現，分析了1,000個急診案例的170萬個輸出結果。結果顯示，標記為黑人、無家可歸者或自我認同為LGBTQIA+的案例，常被建議進行緊急護理或心理健康評估，且有時缺乏臨床正當理由。相對而言，高收入案例則較常建議進行高級影像檢查。這些偏差可能加劇健康不平等，強調了評估和減輕LLMs偏見的重要性，以確保醫療建議的公平性。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

原始文章

站上相關主題文章列表