Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

The Opportunities and Risks of Large Language Models in Mental Health.
大型語言模型在心理健康領域的機會與風險。 JMIR Ment Health 2024-08-06

全球心理健康問題日益嚴重，現有的照護模式無法滿足需求。大型語言模型（LLMs）被視為解決方案，能在心理健康教育、評估和介入上提供幫助。本文回顧了LLMs的應用，並指出其潛在的正面影響與風險，強調需採取策略來降低風險。平衡心理健康支持的需求與LLMs的負責任開發至關重要，確保這些模型符合倫理標準，並讓有經驗的人參與開發，以減少傷害並增強其正面影響。 PubMed DOI

Large Language Models in Otolaryngology Residency Admissions: A Random Sampling Analysis.
大型語言模型在耳鼻喉科住院醫師招生中的應用：隨機抽樣分析。 Laryngoscope 2024-08-19

這項研究探討耳鼻喉科住院醫師選拔中，人工智慧模擬的決策是否受到人口統計偏見影響。研究使用OpenAI的GPT-4和GPT-4o模擬選拔委員會的決策，結果顯示RSC成員在種族、性別和性取向上存在偏見，特別偏好與自己相似的申請者。最新的ChatGPT-4o則顯示出對黑人女性和LGBTQIA+申請者的偏好，強調在選拔過程中需注意和減少這些偏見，以確保未來醫療人力的多樣性和代表性。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Evaluating for Evidence of Sociodemographic Bias in Conversational AI for Mental Health Support.
評估對於心理健康支持的對話式人工智慧中社會人口偏見的證據。 Cyberpsychol Behav Soc Netw 2024-10-24

這項研究分析了一個為心理健康支持設計的大型語言模型（LLM）是否存在偏見，透過模擬醫生與病人的對話進行。研究使用數位標準化病人（DSPs），保持中立並了解其社會人口特徵。結果顯示，449次對話中LLM的回應並無顯著偏見，且能理解DSPs的關切，改善對話語氣。總體來說，研究未發現LLM有實質偏見，對於心理健康支持的LLM偏見理解有所貢獻。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data.
Mental-LLM：利用大型語言模型透過線上文本數據進行心理健康預測。 Proc ACM Interact Mob Wearable Ubiquitous Technol 2025-02-10

這項研究評估了多種大型語言模型（LLMs）在心理健康預測任務中的表現，測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術，結果顯示指令微調能顯著提升模型能力，尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外，研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Measuring gender and racial biases in large language models: Intersectional evidence from automated resume evaluation.
測量大型語言模型中的性別和種族偏見：來自自動化履歷評估的交叉證據。 PNAS Nexus 2025-03-27

研究顯示，基於人工智慧的決策，特別是大型語言模型（LLMs），在評估求職者時存在顯著偏見。約361,000份履歷被評估後發現，女性候選人通常獲得較高評分，而黑人男性則常被低估，儘管他們的資格相似。這導致聘用機率出現1-3個百分點的差異，且在不同職位和群體中一致。這突顯了進一步調查偏見成因及發展減輕策略的必要性，以促進社會公平。 PubMed DOI

原始文章

站上相關主題文章列表