原始文章

**重點摘要:** 這項研究比較了人類、大型語言模型(LLMs)以及強化學習(RL)在一個為期多天的通勤決策遊戲中的表現,目的是評估AI取代人類決策的能力。LLMs展現出類似人類的學習能力,也能做出穩定的決策,但在團體合作、理解他人選擇,以及應用現實世界知識方面仍有困難。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這篇論文探討大型語言模型(LLMs)對自然科學和社會科學的影響,特別是透過生成代理模型(GABMs)模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域,顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作,但仍面臨提示敏感性和幻覺等挑戰,影響行為一致性。未來研究應聚焦於完善模型、標準化方法,並探討LLMs與人類互動可能帶來的新合作行為,重塑決策過程。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

作者們用超過10萬筆社群和問卷的真實選擇困境,透過大型語言模型萃取決策重點。結果發現,這種結合決策模型的方法,比只用原始文字或人口資料更能準確預測人類選擇,證明LLMs能有效協助分析複雜決策因素。 PubMed DOI

研究發現,像 GPT-4 這類大型語言模型在自利型博弈(如囚徒困境)表現不錯,但在需要協調的博弈(如Battle of the Sexes)就比較弱。若給它們更多對手資訊,並引導用「社會性思考」推理,能提升與人類的協調能力。這有助了解 AI 的社會行為,也推動 AI 行為博弈論的發展。 PubMed DOI

這項研究比較了52種大型語言模型在自駕車道德決策上的表現,發現參數超過100億、尤其是專有模型,判斷較接近人類。不過,模型新舊不一定影響道德判斷,且有些模型會過度偏向特定倫理原則。實際應用時,還是要在判斷品質、運算資源和文化差異間取得平衡。 PubMed DOI

這篇研究發現,大型語言模型在增強學習任務中,會像人類一樣出現相對價值編碼的偏誤,特別是在提示語強調比較時更明顯。這會影響它們把學到的知識應用到新情境的能力。這種偏誤不只出現在微調過的模型,連原始模型也有,提醒我們在用LLMs做決策時要特別注意。 PubMed DOI

雖然大型語言模型有時能模仿人類回應,但在像 11-20 money request game 這類需要複雜推理的任務上,表現常常和人類差很多,還會受到提示語和安全機制影響,出錯方式也很難預測。所以,社會科學研究如果想用 LLMs 取代人類,真的要特別小心。 PubMed DOI