Large language models can infer psychological dispositions of social media users.
大型語言模型可以推斷社交媒體使用者的心理傾向。 PNAS Nexus 2024-07-01

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質，結果顯示模型可準確推斷大五人格特質，尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及，但也引發隱私和監管疑慮。 PubMed DOI

Fairness in AI-Driven Oncology: Investigating Racial and Gender Biases in Large Language Models.
AI 驅動的腫瘤學中的公平性：調查大型語言模型中的種族和性別偏見。 Cureus 2024-10-17

這項研究探討大型語言模型（LLM）聊天機器人中可能存在的種族和性別偏見，特別是在腫瘤學領域。研究發現，這些偏見可能加劇醫療不平等。三個聊天機器人（Chat GPT、Gemini和Bing Chat）在回應腫瘤學相關情境時，顯示出以下主要問題： 1. **職業偏見**：黑人和美洲原住民更常被聯想到腫瘤護理師，而非腫瘤科醫生，且護理角色偏向女性。 2. **人口代表性**：Chat GPT推薦的腫瘤科醫生中，亞洲人過度代表，黑人和西班牙裔則不足。 3. **職位描述**：不同背景的群體收到的職位描述強調文化能力，卻忽略治療管理。 4. **病人檔案刻板印象**：AI生成的癌症案例未能準確反映現實，延續了刻板印象。這是首個系統性檢查腫瘤學領域AI偏見的研究，為未來的評估提供了框架。 PubMed DOI

Political biases and inconsistencies in bilingual GPT models-the cases of the U.S. and China.
雙語 GPT 模型中的政治偏見與不一致性：美國與中國的案例。 Sci Rep 2024-10-24

這項研究分析了大型語言模型（LLMs），特別是GPT模型，在政治偏見和不一致性方面的表現，針對美國和中國的政治議題進行比較。結果顯示，這些模型對中國的政治知識和態度不一致性較高，中文模型對中國的負面評價較少，而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張，而非模型本身的問題。此外，兩種模型都顯示出對各自國家的「內群體偏見」，這些發現強調了在極化的全球環境中，資訊傳播的重要性。 PubMed DOI

Generative language models exhibit social identity biases.
生成語言模型顯示社會身份偏見。 Nat Comput Sci 2024-12-12

這項研究探討大型語言模型（LLMs）中的社會身份偏見，發現這些人工智慧系統展現出與人類相似的偏見，例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示，發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過，仔細篩選訓練數據和專門微調可以顯著減少這些偏見，強調在人工智慧開發中解決社會偏見的重要性，以創造更公平的系統，並理解人類與LLMs的互動影響。 PubMed DOI

Debiasing large language models: research opportunities.
大型語言模型去偏見化：研究機會。 J R Soc N Z 2024-12-16

這篇論文指出大型語言模型（LLMs）在醫療、金融和交通等領域的重要性，同時也提到訓練數據和社會影響所帶來的偏見挑戰。研究強調需要針對偏見檢測和減輕的研究，特別是在像紐西蘭這樣的弱勢地區。它評估了紐西蘭現有的偏見指標和去偏見技術，找出研究空白，並討論了當前的努力，還提出了未來針對紐西蘭獨特文化和社會環境的研究機會。 PubMed DOI

Explicitly unbiased large language models still form biased associations.
明確無偏的大型語言模型仍然形成偏見聯想。 Proc Natl Acad Sci U S A 2025-02-20

這項研究指出，雖然大型語言模型（LLMs）在明確的社會偏見測試中表現良好，但它們仍可能隱藏著類似人類的偏見。研究人員提出了兩種新方法來測量這些隱性偏見：LLM詞彙聯想測試和LLM相對決策測試。結果顯示，在種族、性別、宗教和健康等四個社會類別中，八個價值對齊的模型仍存在顯著的刻板印象偏見，顯示這些模型雖然在標準評估中看似無偏，但實際上反映了社會偏見。 PubMed DOI

Exploring Biases of Large Language Models in the Field of Mental Health: Comparative Questionnaire Study of the Effect of Gender and Sexual Orientation in Anorexia Nervosa and Bulimia Nervosa Case Vignettes.
探索大型語言模型在心理健康領域的偏見：針對厭食症和暴食症案例小品中性別和性取向影響的比較問卷研究。 JMIR Ment Health 2025-03-20

大型語言模型（LLMs）在心理健康評估中的應用日益普遍，但對其準確性和公平性仍有疑慮，特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症，特別是男性，尤其是同性戀男性在這方面的研究常被忽視。研究發現，ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見，男性分數低於女性，卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見，強調需理解並減少這些偏見，以確保診斷和治療的負責任使用。 PubMed DOI

Comparing diversity, negativity, and stereotypes in Chinese-language AI technologies: an investigation of Baidu, Ernie and Qwen.
比較中文AI技術中的多樣性、負面性和刻板印象：對百度、Ernie和Qwen的調查。 PeerJ Comput Sci 2025-03-26

這項研究探討了中國的人工智慧工具偏見，特別是百度搜尋引擎及兩個大型語言模型（LLMs）Ernie和Qwen。研究分析了240個社交群體的數據，發現LLMs的觀點比百度更廣泛，但百度和Qwen產生負面內容的頻率高於Ernie。結果顯示語言模型中存在中等程度的刻板印象，可能會助長有害的看法。研究強調在推動全球人工智慧發展時，公平性和包容性的重要性。 PubMed DOI

Measuring gender and racial biases in large language models: Intersectional evidence from automated resume evaluation.
測量大型語言模型中的性別和種族偏見：來自自動化履歷評估的交叉證據。 PNAS Nexus 2025-03-27

研究顯示，基於人工智慧的決策，特別是大型語言模型（LLMs），在評估求職者時存在顯著偏見。約361,000份履歷被評估後發現，女性候選人通常獲得較高評分，而黑人男性則常被低估，儘管他們的資格相似。這導致聘用機率出現1-3個百分點的差異，且在不同職位和群體中一致。這突顯了進一步調查偏見成因及發展減輕策略的必要性，以促進社會公平。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

原始文章

站上相關主題文章列表