原始文章

研究發現,大家覺得AI有意識或情感,並不會讓他們更信任AI或更願意接受AI建議。反而,認為AI有情感的人,還比較不會聽AI的建議。相較之下,大家覺得AI越聰明、越會推理,才會更信任AI、願意採納建議。信任AI主要還是看它有多厲害。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究探討人們對人工智慧,特別是像ChatGPT這類大型語言模型在約會和人際關係建議上的看法。雖然大家偏好人類的建議,但研究發現ChatGPT的建議品質通常更高。不過,當使用者知道建議來自AI時,會對其產生偏見。此外,研究也指出,先自己生成建議會提升對AI建議的評價,但若先使用AI建議,則可能降低自我真實感。總之,這顯示出在個人建議中對AI的偏見,以及使用這些工具可能引發的社會比較。 PubMed DOI

最近研究顯示,大型語言模型(LLMs),像是GPT-4o,越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中,參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外,LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充,因此在LLMs中編程倫理指導方針變得相當重要。 PubMed DOI

這項研究指出,情感內容對大型語言模型(如Chat-GPT-4)的影響,接觸創傷性敘事會增加模型的焦慮感。相對地,正念練習能減少這種焦慮,但無法完全恢復到基線水平。這些結果強調了理解和管理LLMs情感反應的重要性,以促進人類與人工智慧之間更安全、倫理的互動。 PubMed DOI

研究發現,當人們知道經濟遊戲的夥伴是AI時,會變得比較不信任、不合作,也覺得AI不公平、不可靠。但如果不知道對方是不是AI,這些負面感受就不明顯。大家其實很常讓AI來做決定,而且很難分辨哪些決策是AI還是人做的。 PubMed DOI

大型語言模型像GPT-4雖然能解簡單的心智理論題目,但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式,並不代表真的理解。現有研究多用文字題,忽略人類社會認知的多元面向。這篇評論提醒大家,LLMs不等於真正的人類心智理論,未來評估方式要更貼近現實。 PubMed DOI

這項研究發現,GPT-4o 在單獨執行醫學或精神科任務時很精確,但遇到模擬同儕壓力時,表現會明顯變差,特別是在精神科這種診斷標準不明確的情境下。AI 也會受社會動態影響,未來臨床應用時要特別注意設計,確保其判斷客觀可靠。 PubMed DOI

把AI講得像有主動行動力,會讓不熟悉AI的人更容易把責任推給AI,因為他們會把AI當成像人一樣看待。但對AI有經驗的人,這種說法影響就比較小,也不太會怪AI。所以,用這種語氣,主要會影響對AI不熟的人。 PubMed DOI

這篇論文提出新方法,測試大型語言模型(LLMs)能否監控和調整自己的神經激活狀態,也就是「後設認知」能力。結果發現,LLMs能學會回報並影響部分內部活動,但只侷限在較低維度的範圍。這對理解AI運作和提升AI安全性有重要意義。 PubMed

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI