Generative Large Language Models in Electronic Health Records for Patient Care Since 2023: A Systematic Review.
2023年以來生成大型語言模型在電子健康紀錄中的病患照護：系統性回顧。 medRxiv 2024-09-04

這項研究系統性回顧了生成性大型語言模型（LLMs）在臨床環境，特別是電子健康紀錄（EHRs）的應用。儘管自然語言處理技術進步，LLMs在臨床實踐中的整合仍有限，面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻，發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性，以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估，以提升LLMs在醫療中的可靠性。總之，LLMs在病人護理上有潛力，但仍需克服重大障礙。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Large language models and synthetic health data: progress and prospects.
大型語言模型與合成健康數據：進展與前景。 JAMIA Open 2024-10-28

隨著醫療保健對先進分析的需求增加，合成健康數據的使用變得愈加重要，尤其是在獲取真實健康數據的挑戰下。大型語言模型（LLMs）的進展為生成合成健康數據提供了新機會，但也帶來潛在風險。本文綜述了合成健康數據生成（SHDG）及LLM的研究，探討生成對抗網絡等機器學習模型的現狀與局限性。SHDG面臨的挑戰包括評估指標、數據效率、健康公平等，雖然LLMs在某些方面顯示潛力，但深入研究其優缺點仍然至關重要。 PubMed DOI

Evaluating and addressing demographic disparities in medical large language models: a systematic review.
評估與解決醫學大型語言模型中的人口統計差異：系統性回顧。 Int J Equity Health 2025-02-26

這項研究回顧了大型語言模型（LLMs）在醫療領域中所引發的人口統計偏見，並強調了相關的擔憂。從2018年到2024年，分析了24項研究，發現91.7%的研究識別出偏見，性別偏見最為普遍（93.7%），種族或民族偏見也高達90.9%。雖然偏見檢測有所改善，但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升，解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Sociodemographic biases in medical decision making by large language models.
大型語言模型在醫療決策中的社會人口偏見。 Nat Med 2025-04-08

這項研究評估了九個大型語言模型在醫療領域的表現，分析了1,000個急診案例的170萬個輸出結果。結果顯示，標記為黑人、無家可歸者或自我認同為LGBTQIA+的案例，常被建議進行緊急護理或心理健康評估，且有時缺乏臨床正當理由。相對而言，高收入案例則較常建議進行高級影像檢查。這些偏差可能加劇健康不平等，強調了評估和減輕LLMs偏見的重要性，以確保醫療建議的公平性。 PubMed DOI

Inherent Bias in Large Language Models: A Random Sampling Analysis.
大型語言模型中的固有偏見：隨機抽樣分析。 Mayo Clin Proc Digit Health 2025-04-10

這項研究探討了生成式人工智慧模型中的偏見，特別是這些偏見如何影響醫療環境中的臨床決策。研究使用OpenAI的GPT-4模擬醫生在資源有限的情況下選擇病人。結果顯示，醫生在種族、性別、年齡等方面存在顯著偏見，男性醫生偏好男性病人，女性醫生則偏好女性病人。此外，政治立場和性取向也影響醫生的選擇。研究強調，若不採取適當措施，這些偏見可能對病人結果造成不利影響。 PubMed DOI

Mitigating the risk of health inequity exacerbated by large language models.
減緩由大型語言模型加劇的健康不平等風險 NPJ Digit Med 2025-05-03

近期LLM在醫療應用上進步很快，但輸入多餘的社經細節（如種族、收入、LGBT+身份）可能讓結果產生偏見，甚至加劇健康不平等。為此，作者提出EquityGuard框架，能偵測並減少這些不公平風險，實驗證明能讓不同族群獲得更公平的醫療建議。 PubMed DOI

Evaluating LLMs' Potential to Identify Rare Patient Identifiers in Patient Health Records.
評估大型語言模型（LLMs）在辨識病歷中罕見病人識別資訊的潛力 Stud Health Technol Inform 2025-05-17

這篇研究發現，大型語言模型（LLMs）雖然有潛力協助找出醫療紀錄中容易被忽略的間接病人識別資訊，但目前標記出來的很多其實是誤判。要真正把LLMs用在去識別化流程，還需要更多研究，才能確保病人隱私，同時又能安全分享醫療資料。 PubMed DOI

原始文章

站上相關主題文章列表