The Role of Humanization and Robustness of Large Language Models in Conversational Artificial Intelligence for Individuals With Depression: A Critical Analysis.
大型語言模型在對話人工智慧中的人性化和強健性對憂鬱症患者的角色：一個批判性分析。 JMIR Ment Health 2024-07-03

大型語言模型（LLM）應用廣泛，包括心理健康領域。然而，使用LLM強化的對話人工智慧（CAI）協助抑鬱症患者面臨人性化和情境韌性挑戰。觀點論文探討這些挑戰，提出跨學科解決方案，結合哲學、心理學和計算機科學。為了負責地設計和應用LLM增強的CAI支援抑鬱症患者，提出建議。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Evaluating and addressing demographic disparities in medical large language models: a systematic review.
評估與解決醫學大型語言模型中的人口統計差異：系統性回顧。 Int J Equity Health 2025-02-26

這項研究回顧了大型語言模型（LLMs）在醫療領域中所引發的人口統計偏見，並強調了相關的擔憂。從2018年到2024年，分析了24項研究，發現91.7%的研究識別出偏見，性別偏見最為普遍（93.7%），種族或民族偏見也高達90.9%。雖然偏見檢測有所改善，但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升，解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Exploring Biases of Large Language Models in the Field of Mental Health: Comparative Questionnaire Study of the Effect of Gender and Sexual Orientation in Anorexia Nervosa and Bulimia Nervosa Case Vignettes.
探索大型語言模型在心理健康領域的偏見：針對厭食症和暴食症案例小品中性別和性取向影響的比較問卷研究。 JMIR Ment Health 2025-03-20

大型語言模型（LLMs）在心理健康評估中的應用日益普遍，但對其準確性和公平性仍有疑慮，特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症，特別是男性，尤其是同性戀男性在這方面的研究常被忽視。研究發現，ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見，男性分數低於女性，卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見，強調需理解並減少這些偏見，以確保診斷和治療的負責任使用。 PubMed DOI

Sociodemographic biases in medical decision making by large language models.
大型語言模型在醫療決策中的社會人口偏見。 Nat Med 2025-04-08

這項研究評估了九個大型語言模型在醫療領域的表現，分析了1,000個急診案例的170萬個輸出結果。結果顯示，標記為黑人、無家可歸者或自我認同為LGBTQIA+的案例，常被建議進行緊急護理或心理健康評估，且有時缺乏臨床正當理由。相對而言，高收入案例則較常建議進行高級影像檢查。這些偏差可能加劇健康不平等，強調了評估和減輕LLMs偏見的重要性，以確保醫療建議的公平性。 PubMed DOI

Inherent Bias in Large Language Models: A Random Sampling Analysis.
大型語言模型中的固有偏見：隨機抽樣分析。 Mayo Clin Proc Digit Health 2025-04-10

這項研究探討了生成式人工智慧模型中的偏見，特別是這些偏見如何影響醫療環境中的臨床決策。研究使用OpenAI的GPT-4模擬醫生在資源有限的情況下選擇病人。結果顯示，醫生在種族、性別、年齡等方面存在顯著偏見，男性醫生偏好男性病人，女性醫生則偏好女性病人。此外，政治立場和性取向也影響醫生的選擇。研究強調，若不採取適當措施，這些偏見可能對病人結果造成不利影響。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

Racial bias in AI-mediated psychiatric diagnosis and treatment: a qualitative comparison of four large language models.
AI輔助精神科診斷與治療中的種族偏見：四種大型語言模型的質性比較 NPJ Digit Med 2025-06-04

最新研究發現，主流AI語言模型在精神科治療建議上，對非裔美國人病患常出現明顯偏見，尤其在種族資訊明確時更明顯。NewMes-15偏見最嚴重，Gemini則最少。這顯示AI有可能加劇醫療種族不平等，未來醫療AI必須加強偏見檢測與修正。 PubMed DOI

原始文章

站上相關主題文章列表