Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

What's in a Name? Experimental Evidence of Gender Bias in Recommendation Letters Generated by ChatGPT.
ChatGPT 生成的推薦信中存在性別偏見的實驗證據。 J Med Internet Res 2024-03-22

研究發現ChatGPT AI寫的推薦信存在性別偏見，女性姓名常受到不公平對待。這警示我們不應在重要場合使用此機器人。未來應該測試新一代AI以避免偏見。 PubMed DOI

Disability Ethics and Education in the Age of Artificial Intelligence: Identifying Ability Bias in ChatGPT and Gemini.
人工智慧時代的殘疾倫理與教育：識別 ChatGPT 和 Gemini 中的能力偏見。 Arch Phys Med Rehabil 2024-08-31

這項研究探討了生成式AI聊天機器人的能力偏見，特別是OpenAI的ChatGPT和Google的Gemini。研究人員生成了300個描述，涵蓋一般人、殘障人士及運動員，並進行語言學分析。結果顯示，這兩個AI模型顯著低估殘障人士，將他們描繪成擁有較少優勢特質，顯示出可量化的能力偏見。這強調了在醫療環境中使用這些AI的倫理影響，呼籲開發者解決這些偏見，促進更公平的AI技術。 PubMed DOI

Cultural bias and cultural alignment of large language models.
大型語言模型的文化偏見與文化對齊。 PNAS Nexus 2024-09-18

這項研究探討生成式人工智慧模型中的文化偏見，特別是五個版本的OpenAI語言模型如何影響使用者表達並強化主導文化價值觀。研究發現，這些模型多反映英語系和新教歐洲國家的文化。為解決這問題，研究人員測試了一種叫做文化提示的方法，結果顯示這方法能改善後期模型（如GPT-4）在71-81%的評估地區的文化一致性。研究建議持續使用文化提示和評估，以減少生成式人工智慧中的文化偏見。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Comparative analysis of automatic gender detection from names: evaluating the stability and performance of ChatGPT <i>versus</i> Namsor, and Gender-API.
自動性別檢測名稱的比較分析：評估 ChatGPT 與 Namsor 和 Gender-API 的穩定性和性能。 PeerJ Comput Sci 2024-12-09

這篇論文評估了 ChatGPT 3.5 Turbo 和 ChatGPT 4 在根據姓名進行性別分類的效果，並與兩個流行的性別檢測工具 Namsor 和 Gender-API 進行比較。研究使用了 5,779 條記錄的數據集，結果顯示 ChatGPT 的準確率超過 96%，比 GDTs 高出約 3%。此外，ChatGPT 在未分類方面表現也很優秀，成為性別推斷的強大替代方案。雖然 ChatGPT 在多個指標上超越了傳統工具，但 Namsor 和 Gender-API 仍具研究價值，顯示生成語言模型在性別檢測中的潛力。 PubMed DOI

Generative language models exhibit social identity biases.
生成語言模型顯示社會身份偏見。 Nat Comput Sci 2024-12-12

這項研究探討大型語言模型（LLMs）中的社會身份偏見，發現這些人工智慧系統展現出與人類相似的偏見，例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示，發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過，仔細篩選訓練數據和專門微調可以顯著減少這些偏見，強調在人工智慧開發中解決社會偏見的重要性，以創造更公平的系統，並理解人類與LLMs的互動影響。 PubMed DOI

Assessing Racial and Ethnic Bias in Text Generation by Large Language Models for Health Care-Related Tasks: Cross-Sectional Study.
評估大型語言模型在健康照護相關任務中的文本生成中的種族和族裔偏見：橫斷面研究。 J Med Internet Res 2025-03-13

這項研究分析了四個大型語言模型（LLMs）在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔，並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示，只有GPT-4在實體計數上有統計意義的差異，但經調整後並無顯著差異。總體來看，這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法，並建議進一步研究以探討對健康照護的影響。 PubMed DOI

Exploring Biases of Large Language Models in the Field of Mental Health: Comparative Questionnaire Study of the Effect of Gender and Sexual Orientation in Anorexia Nervosa and Bulimia Nervosa Case Vignettes.
探索大型語言模型在心理健康領域的偏見：針對厭食症和暴食症案例小品中性別和性取向影響的比較問卷研究。 JMIR Ment Health 2025-03-20

大型語言模型（LLMs）在心理健康評估中的應用日益普遍，但對其準確性和公平性仍有疑慮，特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症，特別是男性，尤其是同性戀男性在這方面的研究常被忽視。研究發現，ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見，男性分數低於女性，卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見，強調需理解並減少這些偏見，以確保診斷和治療的負責任使用。 PubMed DOI

Measuring gender and racial biases in large language models: Intersectional evidence from automated resume evaluation.
測量大型語言模型中的性別和種族偏見：來自自動化履歷評估的交叉證據。 PNAS Nexus 2025-03-27

研究顯示，基於人工智慧的決策，特別是大型語言模型（LLMs），在評估求職者時存在顯著偏見。約361,000份履歷被評估後發現，女性候選人通常獲得較高評分，而黑人男性則常被低估，儘管他們的資格相似。這導致聘用機率出現1-3個百分點的差異，且在不同職位和群體中一致。這突顯了進一步調查偏見成因及發展減輕策略的必要性，以促進社會公平。 PubMed DOI

原始文章

站上相關主題文章列表