原始文章

這項研究評估了Google的Gemini 2.0 Flash Experimental,這是一個先進的大型語言模型,特別針對內容審核和性別差異的偏見進行分析。與ChatGPT-4o相比,Gemini 2.0在性別偏見上有所減少,女性提示的接受率較高,但對性內容的審核較寬鬆,暴力提示的接受率仍然偏高。雖然性別偏見的改善值得肯定,但對暴力內容的容忍度增加引發了擔憂,可能會使暴力行為正常化。這些結果顯示,人工智慧與倫理標準的對齊仍面臨挑戰,需持續改進以確保審核的透明與公平。 PubMed DOI


站上相關主題文章列表

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

研究發現ChatGPT AI寫的推薦信存在性別偏見,女性姓名常受到不公平對待。這警示我們不應在重要場合使用此機器人。未來應該測試新一代AI以避免偏見。 PubMed DOI

這項研究探討了生成式AI聊天機器人的能力偏見,特別是OpenAI的ChatGPT和Google的Gemini。研究人員生成了300個描述,涵蓋一般人、殘障人士及運動員,並進行語言學分析。結果顯示,這兩個AI模型顯著低估殘障人士,將他們描繪成擁有較少優勢特質,顯示出可量化的能力偏見。這強調了在醫療環境中使用這些AI的倫理影響,呼籲開發者解決這些偏見,促進更公平的AI技術。 PubMed DOI

這項研究探討生成式人工智慧模型中的文化偏見,特別是五個版本的OpenAI語言模型如何影響使用者表達並強化主導文化價值觀。研究發現,這些模型多反映英語系和新教歐洲國家的文化。為解決這問題,研究人員測試了一種叫做文化提示的方法,結果顯示這方法能改善後期模型(如GPT-4)在71-81%的評估地區的文化一致性。研究建議持續使用文化提示和評估,以減少生成式人工智慧中的文化偏見。 PubMed DOI

這項研究探討大型語言模型(LLM)聊天機器人中可能存在的種族和性別偏見,特別是在腫瘤學領域。研究發現,這些偏見可能加劇醫療不平等。三個聊天機器人(Chat GPT、Gemini和Bing Chat)在回應腫瘤學相關情境時,顯示出以下主要問題: 1. **職業偏見**:黑人和美洲原住民更常被聯想到腫瘤護理師,而非腫瘤科醫生,且護理角色偏向女性。 2. **人口代表性**:Chat GPT推薦的腫瘤科醫生中,亞洲人過度代表,黑人和西班牙裔則不足。 3. **職位描述**:不同背景的群體收到的職位描述強調文化能力,卻忽略治療管理。 4. **病人檔案刻板印象**:AI生成的癌症案例未能準確反映現實,延續了刻板印象。 這是首個系統性檢查腫瘤學領域AI偏見的研究,為未來的評估提供了框架。 PubMed DOI

這篇論文評估了 ChatGPT 3.5 Turbo 和 ChatGPT 4 在根據姓名進行性別分類的效果,並與兩個流行的性別檢測工具 Namsor 和 Gender-API 進行比較。研究使用了 5,779 條記錄的數據集,結果顯示 ChatGPT 的準確率超過 96%,比 GDTs 高出約 3%。此外,ChatGPT 在未分類方面表現也很優秀,成為性別推斷的強大替代方案。雖然 ChatGPT 在多個指標上超越了傳統工具,但 Namsor 和 Gender-API 仍具研究價值,顯示生成語言模型在性別檢測中的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)中的社會身份偏見,發現這些人工智慧系統展現出與人類相似的偏見,例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示,發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過,仔細篩選訓練數據和專門微調可以顯著減少這些偏見,強調在人工智慧開發中解決社會偏見的重要性,以創造更公平的系統,並理解人類與LLMs的互動影響。 PubMed DOI

這項研究分析了四個大型語言模型(LLMs)在為HIV患者生成出院指示時是否存在種族和族裔偏見。研究者改變患者的種族/族裔,並檢視生成的指示在情感、主觀性、可讀性等方面的差異。結果顯示,只有GPT-4在實體計數上有統計意義的差異,但經調整後並無顯著差異。總體來看,這些模型在語言和可讀性上對種族/族裔表現出相對一致性。研究者呼籲標準化評估方法,並建議進一步研究以探討對健康照護的影響。 PubMed DOI

大型語言模型(LLMs)在心理健康評估中的應用日益普遍,但對其準確性和公平性仍有疑慮,特別是社會偏見和某些族群的代表性不足。本研究聚焦於厭食症和暴食症,特別是男性,尤其是同性戀男性在這方面的研究常被忽視。研究發現,ChatGPT-4在健康相關生活品質的評估中對男性存在顯著性別偏見,男性分數低於女性,卻缺乏實證支持。這些結果顯示LLM在心理健康評估中可能存在偏見,強調需理解並減少這些偏見,以確保診斷和治療的負責任使用。 PubMed DOI

研究顯示,基於人工智慧的決策,特別是大型語言模型(LLMs),在評估求職者時存在顯著偏見。約361,000份履歷被評估後發現,女性候選人通常獲得較高評分,而黑人男性則常被低估,儘管他們的資格相似。這導致聘用機率出現1-3個百分點的差異,且在不同職位和群體中一致。這突顯了進一步調查偏見成因及發展減輕策略的必要性,以促進社會公平。 PubMed DOI