原始文章

大型語言模型(LLMs)在網絡合作上,無法像人類一樣靈活調整策略。人類遇到結構化網絡會更願意合作,但LLMs反而在隨機環境下才較願意合作,對網絡結構適應力很差。這顯示LLMs缺乏人類那種細膩、能隨情境變化的社會互動能力,未來還需加強社會規範的整合。 PubMed DOI


站上相關主題文章列表

這篇論文探討大型語言模型(LLMs)對自然科學和社會科學的影響,特別是透過生成代理模型(GABMs)模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域,顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作,但仍面臨提示敏感性和幻覺等挑戰,影響行為一致性。未來研究應聚焦於完善模型、標準化方法,並探討LLMs與人類互動可能帶來的新合作行為,重塑決策過程。 PubMed DOI

這項研究探討大型語言模型(LLM)代理的個體性和主動性,強調不再依賴預先定義的特徵。透過模擬一群協作的LLM代理,研究分析了社會規範、合作和個性特徵如何自發發展。結果顯示,這些代理會創造「幻覺」和標籤,增強溝通,並使互動中出現更豐富的詞彙。隨著交流進行,代理的情感變化,形成社群,最終導致個性的演變。這種方法為分析集體人工智慧及其動態提供了新視角。 PubMed DOI

研究發現,當人們知道經濟遊戲的夥伴是AI時,會變得比較不信任、不合作,也覺得AI不公平、不可靠。但如果不知道對方是不是AI,這些負面感受就不明顯。大家其實很常讓AI來做決定,而且很難分辨哪些決策是AI還是人做的。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以參與以辯論為基礎的社會學實驗,通常比人類更能專注在主題上,進而提升團隊的生產力。不過,人類覺得LLM代理人比較不具說服力,也比較沒有自信,而且這些代理人在辯論時的行為和人類有明顯差異,因此很容易被辨識出是非人類參與者。 PubMed DOI

過去有研究說能測量大型語言模型的道德偏好,但其實這些結果很容易被問題或選項的呈現方式影響,像是把「Case 1」改成「(A)」就可能讓模型答案大不同。所以,這類研究的結論不太可靠。作者建議,未來要用更嚴謹的方法來研究LLM的道德判斷。 PubMed DOI

研究發現,像 GPT-4 這類大型語言模型在自利型博弈(如囚徒困境)表現不錯,但在需要協調的博弈(如Battle of the Sexes)就比較弱。若給它們更多對手資訊,並引導用「社會性思考」推理,能提升與人類的協調能力。這有助了解 AI 的社會行為,也推動 AI 行為博弈論的發展。 PubMed DOI

這項研究發現,AI語言模型代理人在互動時,會自發形成社會慣例,甚至產生集體偏見。一小群立場堅定的對立代理人,也可能影響整體慣例。這顯示AI有能力自主建立社會規範,對確保AI符合人類價值觀很重要。 PubMed DOI

雖然大型語言模型有時能模仿人類回應,但在像 11-20 money request game 這類需要複雜推理的任務上,表現常常和人類差很多,還會受到提示語和安全機制影響,出錯方式也很難預測。所以,社會科學研究如果想用 LLMs 取代人類,真的要特別小心。 PubMed DOI

**重點摘要:** 這項研究比較了人類、大型語言模型(LLMs)以及強化學習(RL)在一個為期多天的通勤決策遊戲中的表現,目的是評估AI取代人類決策的能力。LLMs展現出類似人類的學習能力,也能做出穩定的決策,但在團體合作、理解他人選擇,以及應用現實世界知識方面仍有困難。 PubMed DOI

大型語言模型能準確重現多數心理學實驗,效果有時甚至比真人還明顯。不過,遇到社會敏感議題或原研究沒發現效果時,模型容易高估結果。LLMs 適合做初步、快速研究,但遇到複雜或敏感議題,還是得靠真人參與才能更全面。 PubMed DOI