Disparities in seizure outcomes revealed by large language models.
大型語言模型揭示的癲癇結果差異。 medRxiv 2024-03-25

在醫療領域中，大型語言模型可能存在偏見。社會因素影響癲癇患者就醫，但對癲癇發作結果影響尚不明確。研究發現癲癇專用模型無內在偏見，但女性、公共保險及低收入族群癲癇結果較差。族群間癲癇結果有差異，改善照護至關重要。 PubMed DOI

Disparities in seizure outcomes revealed by large language models.
大型語言模型揭示的癲癇結果差異。 J Am Med Inform Assoc 2024-03-25

大型語言模型（LLMs）或許能改善醫療保健，但也可能存在偏見。社會健康因素影響癲癇護理的結果。研究發現LLM沒有固有偏見，但不同人群的癲癇結果有差異，女性、有公共保險和低收入者結果較差。解決這些差異對癲癇護理至關重要。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

Racial, ethnic, and sex bias in large language model opioid recommendations for pain management.
大型語言模型在疼痛管理中對於鴉片類藥物建議的種族、族裔和性別偏見。 Pain 2024-09-16

這項研究探討了大型語言模型（如GPT-4和Gemini）在根據病人的種族/族裔和性別建議鴉片類藥物處方的表現。研究分析了480個來自MIMIC-IV Note數據集的真實病人案例，發現曲馬多和羥考酮是最常被推薦的藥物。Gemini較GPT-4更可能將疼痛評為「嚴重」，並較晚建議使用鴉片類藥物。重要的是，這些模型的建議不受種族/族裔或性別影響，顯示出在疼痛管理上無偏見，可能成為醫生的有用工具。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Advancing the prediction and understanding of placebo responses in chronic back pain using large language models.
利用大型語言模型推進對慢性背痛中安慰劑反應的預測和理解。 medRxiv 2025-02-20

這項研究探討如何利用大型語言模型（LLMs）預測慢性下背痛患者的安慰劑反應者，透過分析患者的訪談內容。安慰劑效應是指患者因期待而從無效治療中獲得疼痛緩解，了解影響因素對非藥物疼痛管理很重要。研究者重新分析了兩項臨床試驗的數據，開發的預測模型在新數據上的準確率達74%。結果顯示，LLMs能揭示與安慰劑反應相關的心理社會因素，並識別情緒相關的語言模式，為理解治療結果中的生物心理社會因素提供新視角。 PubMed DOI

Evaluating and addressing demographic disparities in medical large language models: a systematic review.
評估與解決醫學大型語言模型中的人口統計差異：系統性回顧。 Int J Equity Health 2025-02-26

這項研究回顧了大型語言模型（LLMs）在醫療領域中所引發的人口統計偏見，並強調了相關的擔憂。從2018年到2024年，分析了24項研究，發現91.7%的研究識別出偏見，性別偏見最為普遍（93.7%），種族或民族偏見也高達90.9%。雖然偏見檢測有所改善，但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升，解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Exploring Biases of Large Language Models in the Field of Mental Health: Comparative Questionnaire Study of the Effect of Gender and Sexual Orientation in Anorexia Nervosa and Bulimia Nervosa Case Vignettes.
探索大型語言模型在心理健康領域的偏見：針對厭食症和暴食症案例小品中性別和性取向影響的比較問卷研究。 JMIR Ment Health 2025-03-20

大型語言模型（LLMs）在心理健康評估中的應用日益普遍，但對其準確性和公平性仍有疑慮，特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症，特別是男性，尤其是同性戀男性在這方面的研究常被忽視。研究發現，ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見，男性分數低於女性，卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見，強調需理解並減少這些偏見，以確保診斷和治療的負責任使用。 PubMed DOI

Exploring the Capacity of Large Language Models to Assess the Chronic Pain Experience: Algorithm Development and Validation.
探索大型語言模型評估慢性疼痛經驗的能力：演算法開發與驗證。 J Med Internet Res 2025-03-31

慢性疼痛影響超過20%的人口，對個人和經濟造成重大影響。有效的疼痛評估工具對改善患者生活至關重要。這項研究探討使用大型語言模型（如GPT-4）來評估患者的書面敘述（WNs）。分析43份纖維肌痛症患者的WNs後，結果顯示GPT-4的評估與專家評分高度一致，且專家認為其評分和解釋通常合適。這表明GPT-4能有效增強WNs的評估，為慢性疼痛管理提供新方法。 PubMed DOI

原始文章

站上相關主題文章列表