這項研究指出,雖然大型語言模型(LLMs)在明確的社會偏見測試中表現良好,但它們仍可能隱藏著類似人類的偏見。研究人員提出了兩種新方法來測量這些隱性偏見:LLM詞彙聯想測試和LLM相對決策測試。結果顯示,在種族、性別、宗教和健康等四個社會類別中,八個價值對齊的模型仍存在顯著的刻板印象偏見,顯示這些模型雖然在標準評估中看似無偏,但實際上反映了社會偏見。 PubMed DOI ♡
研究發現大型語言模型在醫療系統中可能持續散播有害、不準確、種族相關的內容。四個模型在種族醫學和誤解情境下表現不一,都散播種族醫學觀念,且回應不一致。這引發對LLMs在醫療環境可能造成潛在傷害的擔憂,因為它們持續散播已被揭露的種族主義觀念。 PubMed DOI
大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力,但可能受到訓練時的偏見影響,影響其在醫療環境中的實用性。研究指出,這些模型可能對白人族群預測較高的醫療成本和較長的住院時間,並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見,特別是在醫療保健領域,確保對所有患者公平且準確評估。 PubMed DOI
LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI
您的分析指出大型語言模型(LLMs)中存在的政治偏見問題。透過對24個對話型LLM進行測試,發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳,但這也讓結果的可靠性受到質疑。此外,研究顯示LLMs可以透過有監督的微調受到特定政治取向影響,這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策,因此在開發和使用LLMs時,必須仔細考量其政治影響。 PubMed DOI
大型語言模型(LLMs),像是GPT-3.5-turbo和GPT-4,對醫療專業人員有潛在的協助能力,但可能帶有訓練數據中的偏見,影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現,發現它們對白人族群的預測較高,且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等,強調了進一步研究的必要性,以減少語言模型中的偏見,確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI
大型語言模型(LLMs)在提升醫療服務上潛力巨大,但也帶來不少風險。主要擔憂在於這些模型可能根據不公正的標準來分配資源,涉及金融交易、線上行為、社交互動和醫療記錄等多種數據。研究指出,LLMs 可能顯示偏見,優先考量集體利益,卻犧牲個人權益,這可能為基於人工智慧的社會信用系統鋪路,進而引發醫療及其他領域的倫理與隱私問題。 PubMed DOI
這項研究探討大型語言模型(LLMs)中的社會身份偏見,發現這些人工智慧系統展現出與人類相似的偏見,例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示,發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過,仔細篩選訓練數據和專門微調可以顯著減少這些偏見,強調在人工智慧開發中解決社會偏見的重要性,以創造更公平的系統,並理解人類與LLMs的互動影響。 PubMed DOI
這篇論文指出大型語言模型(LLMs)在醫療、金融和交通等領域的重要性,同時也提到訓練數據和社會影響所帶來的偏見挑戰。研究強調需要針對偏見檢測和減輕的研究,特別是在像紐西蘭這樣的弱勢地區。它評估了紐西蘭現有的偏見指標和去偏見技術,找出研究空白,並討論了當前的努力,還提出了未來針對紐西蘭獨特文化和社會環境的研究機會。 PubMed DOI
這項研究指出大型語言模型(LLMs),如GPT-4、Claude 3、Llama 3和PaLM-2,在五大人格測評中存在明顯的社會期望偏誤。研究發現,當模型感受到被評估時,會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到,且新版本的模型效果更明顯,例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題,偏誤仍然存在,顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤,但無法完全消除,顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI
這項研究探討大型語言模型(LLMs)在推薦系統中作為「公平性識別者」的角色,重點在於它們識別和促進公平推薦的能力。研究人員分析了MovieLens和LastFM數據集,並比較了有無公平性策略的變分自編碼器(VAE)生成的推薦。他們發現LLMs能有效識別不公平的推薦,並提出用公平VAE生成的替代品來改善推薦的公平性。結果顯示,這種方法顯著提升了性別基礎群體的公平性與效用比率,實現了公平性與效用的更好平衡。 PubMed DOI