Effect of Private Deliberation: Deception of Large Language Models in Game Play.
大型語言模型在遊戲中的私人思考效應。 Entropy (Basel) 2024-06-26

這篇論文介紹了一個私人代理人，使用欺騙的方式在重複遊戲中提升大型語言模型（LLM）的效能。透過結合上下文學習和思維鏈提示，這個私人代理人在競爭和合作場景中展現出色表現，勝過了對照組。然而，研究也揭示了LLM算法在遊戲決策上的限制。研究結果顯示，透過信息理論方法，如在複雜環境中的欺騙和溝通，有潛力提升LLM代理人在多人遊戲中的表現。 PubMed DOI

Strategic behavior of large language models and the role of game structure versus contextual framing.
大型語言模型的策略行為及遊戲結構與情境框架的角色。 Sci Rep 2024-08-09

這篇論文探討大型語言模型（LLMs）如GPT-3.5、GPT-4和LLaMa-2在博弈理論中的策略行為，並分析遊戲結構與背景對決策的影響。研究發現： - **GPT-3.5** 對背景敏感，但抽象策略思考較弱。 - **GPT-4** 專注於遊戲內部機制，對背景敏感度低，區分遊戲類型較粗略。 - **LLaMa-2** 在理解遊戲結構與考量背景上取得平衡，處理複雜策略情境時更具優勢。總體來看，LLaMa-2在整合遊戲結構與背景方面表現最佳，而GPT-4則偏向一般化的結構策略。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

LLMs and generative agent-based models for complex systems research.
複雜系統研究中的大型語言模型與生成式代理基模型。 Phys Life Rev 2024-11-01

這篇論文探討大型語言模型（LLMs）對自然科學和社會科學的影響，特別是透過生成代理模型（GABMs）模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域，顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作，但仍面臨提示敏感性和幻覺等挑戰，影響行為一致性。未來研究應聚焦於完善模型、標準化方法，並探討LLMs與人類互動可能帶來的新合作行為，重塑決策過程。 PubMed DOI

Spontaneous Emergence of Agent Individuality Through Social Interactions in Large Language Model-Based Communities.
大型語言模型社群中透過社交互動自發性地出現代理個體性。 Entropy (Basel) 2025-01-08

這項研究探討大型語言模型（LLM）代理的個體性和主動性，強調不再依賴預先定義的特徵。透過模擬一群協作的LLM代理，研究分析了社會規範、合作和個性特徵如何自發發展。結果顯示，這些代理會創造「幻覺」和標籤，增強溝通，並使互動中出現更豐富的詞彙。隨著交流進行，代理的情感變化，形成社群，最終導致個性的演變。這種方法為分析集體人工智慧及其動態提供了新視角。 PubMed DOI

Adverse reactions to the use of large language models in social interactions.
大型語言模型於社交互動中使用所引發的不良反應 PNAS Nexus 2025-04-16

研究發現，當人們知道經濟遊戲的夥伴是AI時，會變得比較不信任、不合作，也覺得AI不公平、不可靠。但如果不知道對方是不是AI，這些負面感受就不明顯。大家其實很常讓AI來做決定，而且很難分辨哪些決策是AI還是人做的。 PubMed DOI

Testing the limits of large language models in debating humans.
大型語言模型在人類辯論中的極限測試 Sci Rep 2025-04-22

**重點摘要：** 大型語言模型（LLMs）可以參與以辯論為基礎的社會學實驗，通常比人類更能專注在主題上，進而提升團隊的生產力。不過，人類覺得LLM代理人比較不具說服力，也比較沒有自信，而且這些代理人在辯論時的行為和人類有明顯差異，因此很容易被辨識出是非人類參與者。 PubMed DOI

Playing repeated games with large language models.
與大型語言模型反覆進行博弈遊戲 Nat Hum Behav 2025-05-09

研究發現，像 GPT-4 這類大型語言模型在自利型博弈（如囚徒困境）表現不錯，但在需要協調的博弈（如Battle of the Sexes）就比較弱。若給它們更多對手資訊，並引導用「社會性思考」推理，能提升與人類的協調能力。這有助了解 AI 的社會行為，也推動 AI 行為博弈論的發展。 PubMed DOI

Emergent social conventions and collective bias in LLM populations.
大型語言模型（LLM）族群中新興的社會規範與集體偏見 Sci Adv 2025-05-14

這項研究發現，AI語言模型代理人在互動時，會自發形成社會慣例，甚至產生集體偏見。一小群立場堅定的對立代理人，也可能影響整體慣例。這顯示AI有能力自主建立社會規範，對確保AI符合人類價值觀很重要。 PubMed DOI

Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。 Proc Natl Acad Sci U S A 2025-06-13

雖然大型語言模型有時能模仿人類回應，但在像 11-20 money request game 這類需要複雜推理的任務上，表現常常和人類差很多，還會受到提示語和安全機制影響，出錯方式也很難預測。所以，社會科學研究如果想用 LLMs 取代人類，真的要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表