Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

A toolbox for surfacing health equity harms and biases in large language models.
一個揭示大型語言模型中健康公平危害和偏見的工具箱。 Nat Med 2024-09-23

大型語言模型（LLMs）在滿足健康資訊需求上有潛力，但也可能加劇健康不平等。本研究針對Med-PaLM 2模型，提供識別醫療答案中偏見的資源與方法，並提出一個評估框架及七個對抗性查詢的數據集EquityMedQA。研究強調多樣化評估策略的重要性，並呼籲來自不同背景的評審者參與。雖然無法完全確定AI系統是否促進公平健康結果，但此方法旨在增強可及性與公平醫療。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Improving medical machine learning models with generative balancing for equity and excellence.
透過生成平衡提升醫療機器學習模型的公平性與卓越性。 NPJ Digit Med 2025-02-14

這篇論文介紹了FairPlay，一種新穎的合成數據生成方法，利用大型語言模型來解決臨床結果預測中的挑戰，特別是針對不平衡數據集和公平治療的需求。FairPlay生成現實且匿名的合成病人數據，改善代表性並增強數據集，提升算法性能，減少預測偏見，並保持隱私。實驗結果顯示，FairPlay顯著提升死亡預測的F1分數，最高可提高21%，且有效縮小不同子群體的性能差距，展現出一致的改善。 PubMed DOI

MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical Reasoning.
MedAdapter: 大型語言模型在醫學推理中的高效測試時適應。 Proc Conf Empir Methods Nat Lang Process 2025-03-03

這項研究介紹了MedAdapter，一種新方法，能讓大型語言模型（LLMs）在生物醫學領域適應，而不需微調整個模型。MedAdapter使用小型的BERT適配器來排名LLMs生成的候選解，提升測試時的適應性。實驗顯示，MedAdapter在四個生物醫學任務上，白盒和黑盒LLMs的性能分別提升了18.24%和10.96%。這種方法資源效率高，且保護數據隱私，適合現有方法的靈活選擇。 PubMed DOI

Impact of hospital-specific domain adaptation on BERT-based models to classify neuroradiology reports.
醫院特定領域適應對基於 BERT 模型分類神經放射學報告的影響。 Eur Radiol 2025-03-18

這項研究探討了使用遮蔽語言模型（MLM）在醫院特定領域的適應性，並應用於基於BERT的模型來分類神經放射學報告。分析了來自國王學院醫院和蓋伊與聖托馬斯信託醫院的超過200,000份MRI報告。結果顯示，經過適應的模型性能顯著提升，最佳訓練數據達到97.0%和95.5%的準確率。Llama-3.0 70B模型表現最佳，準確率分別為97.1%和94.0%。研究建議在臨床環境中使用醫院特定的模型適應，並指出LLM可作為有效替代方案。 PubMed DOI

Mitigating the risk of health inequity exacerbated by large language models.
減緩由大型語言模型加劇的健康不平等風險 NPJ Digit Med 2025-05-03

近期LLM在醫療應用上進步很快，但輸入多餘的社經細節（如種族、收入、LGBT+身份）可能讓結果產生偏見，甚至加劇健康不平等。為此，作者提出EquityGuard框架，能偵測並減少這些不公平風險，實驗證明能讓不同族群獲得更公平的醫療建議。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

Enhancing Cross-Domain Generalizability in Social Determinants of Health Extraction with Prompt-Tuning Large Language Models.
利用提示微調大型語言模型提升社會健康決定因素萃取的跨領域泛化能力 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，結合 soft prompt-based learning 和大型語言模型（像 GatorTronGPT），能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素（SDoH）的效果。經過 prompt-tuning 的 GatorTronGPT，F1 分數最高比傳統 fine-tuned 模型多出 21.8%，顯示它在跨領域應用上表現更好。 PubMed

Transfer Learning with Clinical Concept Embeddings from Large Language.
來自大型語言模型的臨床概念嵌入之遷移學習 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，像 Med-BERT 這種專為醫療設計的大型語言模型，比通用型模型更能處理不同醫院間的資料差異，提升知識轉移效果。通用模型如 OpenAI 需額外微調。未來建議持續研究如何在任務難度、資料量和微調之間取得最佳平衡。 PubMed

原始文章

站上相關主題文章列表