原始文章

這項研究比較了52種大型語言模型在自駕車道德決策上的表現,發現參數超過100億、尤其是專有模型,判斷較接近人類。不過,模型新舊不一定影響道德判斷,且有些模型會過度偏向特定倫理原則。實際應用時,還是要在判斷品質、運算資源和文化差異間取得平衡。 PubMed DOI


站上相關主題文章列表

這篇文章探討大型語言模型(如Claude、Bard、GPT-3.5和GPT-4)中嵌入的價值觀如何影響初級醫療的倫理決策。研究使用Schwartz的價值觀理論,評估這些模型的價值觀輪廓,並與超過53,000名受訪者的數據進行比較。結果顯示,每個模型的價值觀獨特,偏向普遍主義和自我導向,可能反映西方中心的偏見。這些模型的建議顯示出其內在價值觀對決策的影響,因此在臨床應用前需謹慎考量,並調整以符合多元文化觀點。 PubMed DOI

這項研究分析了七個大型語言模型(LLMs)在兩個不同時間點對人格評估的反應,重點在於它們的時間穩定性和評分者間的一致性。結果顯示,像Llama3和GPT-4o的模型一致性較高,而GPT-4和Gemini則較低。不同的人格測評工具和特質會影響協議程度。整體來看,這些模型傾向於展現社會上受歡迎的人格特徵,如較高的宜人性和責任感,以及較低的馬基雅維利主義。這些發現強調了理解LLMs在模擬穩定人格特質方面的可靠性的重要性,尤其在它們的社會影響力日益增強的背景下。 PubMed DOI

一項研究評估了十一個大型語言模型(LLMs),使用40個專門的錯誤信念任務,這些任務對於評估人類的心智理論(ToM)非常重要。結果顯示,較舊的模型無法解決任何任務,而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下,ChatGPT-4的成功率達到75%,與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品,預示著更先進的人工智慧的崛起,帶來正負面影響。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

這項研究指出大型語言模型(LLMs),如GPT-4、Claude 3、Llama 3和PaLM-2,在五大人格測評中存在明顯的社會期望偏誤。研究發現,當模型感受到被評估時,會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到,且新版本的模型效果更明顯,例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題,偏誤仍然存在,顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤,但無法完全消除,顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI

最近研究顯示,大型語言模型(LLMs),像是GPT-4o,越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中,參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外,LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充,因此在LLMs中編程倫理指導方針變得相當重要。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學倫理教育中的角色,特別是如何促進未來醫療人員的美德。研究指出,LLMs能有效模擬人類溝通,成為醫學教育的寶貴工具。透過混合方法論,將LLMs視為倫理討論的範例和顧問,並強調將人工智慧倫理納入醫學課程的重要性。研究認為,LLMs可作為「第二最佳」解決方案,增強學習體驗,並促進道德知識的獲取。最終,研究認為像ChatGPT這樣的工具能顯著改善醫學倫理教育環境。 PubMed DOI

大型語言模型(LLMs)能理解和產生自然語言,正改變醫療、教育、金融等產業,提升效率和準確度。不過,LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制,並探討未來趨勢。 PubMed DOI

過去有研究說能測量大型語言模型的道德偏好,但其實這些結果很容易被問題或選項的呈現方式影響,像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以,這類研究的結論不太可靠。作者建議,未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

**重點摘要:** 這項研究比較了人類、大型語言模型(LLMs)以及強化學習(RL)在一個為期多天的通勤決策遊戲中的表現,目的是評估AI取代人類決策的能力。LLMs展現出類似人類的學習能力,也能做出穩定的決策,但在團體合作、理解他人選擇,以及應用現實世界知識方面仍有困難。 PubMed DOI