原始文章

這篇研究分析五款中國主流大型語言模型,發現它們在性別、地區、年齡和學歷上都有明顯偏見,尤其是ChatGLM最嚴重。Tongyiqianwen有時會因隱私問題拒絕生成內容。論文也討論偏見來源,並提供改進建議,對未來更道德地使用這些模型很有參考價值。 PubMed DOI


站上相關主題文章列表

研究探討大型語言模型如ChatGPT是否能從社群媒體貼文推斷人格特質,結果顯示模型可準確推斷大五人格特質,尤其對女性和年輕人更準確。這種能力或許讓心理評估更普及,但也引發隱私和監管疑慮。 PubMed DOI

這項研究探討大型語言模型(LLM)聊天機器人中可能存在的種族和性別偏見,特別是在腫瘤學領域。研究發現,這些偏見可能加劇醫療不平等。三個聊天機器人(Chat GPT、Gemini和Bing Chat)在回應腫瘤學相關情境時,顯示出以下主要問題: 1. **職業偏見**:黑人和美洲原住民更常被聯想到腫瘤護理師,而非腫瘤科醫生,且護理角色偏向女性。 2. **人口代表性**:Chat GPT推薦的腫瘤科醫生中,亞洲人過度代表,黑人和西班牙裔則不足。 3. **職位描述**:不同背景的群體收到的職位描述強調文化能力,卻忽略治療管理。 4. **病人檔案刻板印象**:AI生成的癌症案例未能準確反映現實,延續了刻板印象。 這是首個系統性檢查腫瘤學領域AI偏見的研究,為未來的評估提供了框架。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT模型,在政治偏見和不一致性方面的表現,針對美國和中國的政治議題進行比較。結果顯示,這些模型對中國的政治知識和態度不一致性較高,中文模型對中國的負面評價較少,而英語模型則批評較多。這種差異主要源於審查制度和地緣政治緊張,而非模型本身的問題。此外,兩種模型都顯示出對各自國家的「內群體偏見」,這些發現強調了在極化的全球環境中,資訊傳播的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs)中的社會身份偏見,發現這些人工智慧系統展現出與人類相似的偏見,例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示,發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過,仔細篩選訓練數據和專門微調可以顯著減少這些偏見,強調在人工智慧開發中解決社會偏見的重要性,以創造更公平的系統,並理解人類與LLMs的互動影響。 PubMed DOI

這篇論文指出大型語言模型(LLMs)在醫療、金融和交通等領域的重要性,同時也提到訓練數據和社會影響所帶來的偏見挑戰。研究強調需要針對偏見檢測和減輕的研究,特別是在像紐西蘭這樣的弱勢地區。它評估了紐西蘭現有的偏見指標和去偏見技術,找出研究空白,並討論了當前的努力,還提出了未來針對紐西蘭獨特文化和社會環境的研究機會。 PubMed DOI

這項研究指出,雖然大型語言模型(LLMs)在明確的社會偏見測試中表現良好,但它們仍可能隱藏著類似人類的偏見。研究人員提出了兩種新方法來測量這些隱性偏見:LLM詞彙聯想測試和LLM相對決策測試。結果顯示,在種族、性別、宗教和健康等四個社會類別中,八個價值對齊的模型仍存在顯著的刻板印象偏見,顯示這些模型雖然在標準評估中看似無偏,但實際上反映了社會偏見。 PubMed DOI

大型語言模型(LLMs)在心理健康評估中的應用日益普遍,但對其準確性和公平性仍有疑慮,特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症,特別是男性,尤其是同性戀男性在這方面的研究常被忽視。研究發現,ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見,男性分數低於女性,卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見,強調需理解並減少這些偏見,以確保診斷和治療的負責任使用。 PubMed DOI

這項研究探討了中國的人工智慧工具偏見,特別是百度搜尋引擎及兩個大型語言模型(LLMs)Ernie和Qwen。研究分析了240個社交群體的數據,發現LLMs的觀點比百度更廣泛,但百度和Qwen產生負面內容的頻率高於Ernie。結果顯示語言模型中存在中等程度的刻板印象,可能會助長有害的看法。研究強調在推動全球人工智慧發展時,公平性和包容性的重要性。 PubMed DOI

研究顯示,基於人工智慧的決策,特別是大型語言模型(LLMs),在評估求職者時存在顯著偏見。約361,000份履歷被評估後發現,女性候選人通常獲得較高評分,而黑人男性則常被低估,儘管他們的資格相似。這導致聘用機率出現1-3個百分點的差異,且在不同職位和群體中一致。這突顯了進一步調查偏見成因及發展減輕策略的必要性,以促進社會公平。 PubMed DOI

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 PubMed DOI