The Sociodemographic Biases in Machine Learning Algorithms: A Biomedical Informatics Perspective.
機器學習演算法中的社會人口統計偏見：生物醫學資訊學觀點。 Life (Basel) 2024-06-27

機器學習在醫療決策中的風險評估中可能存在偏見，導致不公平。解決方法包括使用去偏見技術來減輕這些偏見，確保公平的醫療風險評估和決策。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

Health equity in the era of large language models.
大型語言模型時代的健康公平。 Am J Manag Care 2025-03-07

這篇評論探討了影響美國醫療保健中大型語言模型（LLMs）公平設計的八項關鍵法規與指導方針，並將公平問題分為語言與文化偏見、可及性與信任、監管與質量控制三大領域。提出的解決方案包括確保多元代表性、使用真實數據評估AI表現、消除歧視、改善英語能力有限患者的可及性、提升工作效率、強制人類監督AI工具，以及確保AI的安全性與隱私尊重。這些措施有助於透過LLMs促進健康公平，解決醫療系統中的差距。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Sociodemographic biases in medical decision making by large language models.
大型語言模型在醫療決策中的社會人口偏見。 Nat Med 2025-04-08

這項研究評估了九個大型語言模型在醫療領域的表現，分析了1,000個急診案例的170萬個輸出結果。結果顯示，標記為黑人、無家可歸者或自我認同為LGBTQIA+的案例，常被建議進行緊急護理或心理健康評估，且有時缺乏臨床正當理由。相對而言，高收入案例則較常建議進行高級影像檢查。這些偏差可能加劇健康不平等，強調了評估和減輕LLMs偏見的重要性，以確保醫療建議的公平性。 PubMed DOI

Inherent Bias in Large Language Models: A Random Sampling Analysis.
大型語言模型中的固有偏見：隨機抽樣分析。 Mayo Clin Proc Digit Health 2025-04-10

這項研究探討了生成式人工智慧模型中的偏見，特別是這些偏見如何影響醫療環境中的臨床決策。研究使用OpenAI的GPT-4模擬醫生在資源有限的情況下選擇病人。結果顯示，醫生在種族、性別、年齡等方面存在顯著偏見，男性醫生偏好男性病人，女性醫生則偏好女性病人。此外，政治立場和性取向也影響醫生的選擇。研究強調，若不採取適當措施，這些偏見可能對病人結果造成不利影響。 PubMed DOI

Mitigating the risk of health inequity exacerbated by large language models.
減緩由大型語言模型加劇的健康不平等風險 NPJ Digit Med 2025-05-03

近期LLM在醫療應用上進步很快，但輸入多餘的社經細節（如種族、收入、LGBT+身份）可能讓結果產生偏見，甚至加劇健康不平等。為此，作者提出EquityGuard框架，能偵測並減少這些不公平風險，實驗證明能讓不同族群獲得更公平的醫療建議。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

Potential to perpetuate social biases in health care by Chinese large language models: a model evaluation study.
中國大型語言模型在醫療保健中延續社會偏見的潛在風險：一項模型評估研究 Int J Equity Health 2025-07-15

三款中國熱門大型語言模型（Qwen、Erine、Baichuan）在臨床應用時，對性別、族群、收入和健保狀態都有明顯偏見，常高估男性、高收入和有保險者，低估少數族群及低收入者。這些偏見會影響醫療教育、診斷和治療建議，因此持續檢視並減少偏見非常重要。 PubMed DOI

原始文章

站上相關主題文章列表