Large Language Models and the Reverse Turing Test.
大型語言模型與反向圖靈測試。 Neural Comput 2023-05-15

大型語言模型（LLMs）是強大的預訓練模型，可微調應用在各種自然語言任務，減少單獨為每個任務建模的需求。像GPT-3和LaMDA這樣的模型經過少量啟動後可與人對話，但是否真正理解語言或展現智能存在爭議。從與LLMs的訪談中得出的結論變化顯示，對其智能的看法可能取決於訪問者的智商。這可能引發反向圖靈測試。隨著LLMs的進步，它們可能改變人機互動。將LLMs與感知運動裝置整合引發了對其實際能力的問題。提出了受大腦系統啟發的改進方案，以實現人工智能通用自主性。LLMs也可能提供有關大腦功能的見解。 PubMed DOI

Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT.
大型語言模型中出現了類似人類直覺行為和推理偏見，但在 ChatGPT 中消失了。 Nat Comput Sci 2024-01-12

研究人員測試人類推理和決策，發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確，避免常見陷阱。模型使用上下文進行推理，類似人們使用記事本思考，即使沒有支持仍保持準確。研究顯示，心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

Do large language models show decision heuristics similar to humans? A case study using GPT-3.5.
大型語言模型是否展現出與人類相似的決策啟發法？以 GPT-3.5 為例的案例研究。 J Exp Psychol Gen 2024-02-08

GPT-3.5是一個大型語言模型，像ChatGPT這樣的對話代理展現出類似人類的回應。研究顯示，這些回應受到各種因素影響，包括隨機錨點、事件可能性、軼聞信息、框架效應和擁有效應。人類也展現出相似的效應，顯示語言可能在造成這些認知偏誤方面扮演一個重要角色。 PubMed DOI

A Turing test of whether AI chatbots are behaviorally similar to humans.
AI 聊天機器人是否行為上類似於人類的圖靈測試。 Proc Natl Acad Sci U S A 2024-03-25

ChatGPT-4在行為遊戲和人格測驗中表現與人類相似，展現出信任、公平和合作等特質。它根據經驗和情境調整行為，從互動中學習。它傾向於比一般人更具利他主義和合作精神，旨在最大化自己和合作夥伴的回報。 PubMed DOI

Large language models as tax attorneys: a case study in legal capabilities emergence.
大型語言模型作為稅務律師：法律能力出現的案例研究。 Philos Trans A Math Phys Eng Sci 2024-02-29

研究指出，大型語言模型（LLMs）在法律分析，特別是稅法領域上有進步。新模型的推出讓LLMs更懂法律。給予額外法律背景和提示，像GPT-4，LLMs表現更好。雖然LLMs精確，但還不如專業稅務律師。LLMs進步，可能對法律界和AI治理有重大影響。 PubMed DOI

Large language models are able to downplay their cognitive abilities to fit the persona they simulate.
大型語言模型能夠淡化其認知能力，以符合它們模擬的人物角色。 PLoS One 2024-03-15

研究發現使用GPT-3.5-turbo和GPT-4模型模擬兒童語言發展，模型表現逐漸提升，接近真實兒童。GPT-4表現與兒童相似，有時更準確。任務、提示和模型選擇影響結果，溫度和性別影響不同。隨著模擬兒童年齡增長，語言複雜度也增加。總結來說，研究顯示語言模型能成功模擬不同角色。 PubMed DOI

A comparison of human and GPT-4 use of probabilistic phrases in a coordination game.
人類和 GPT-4 在協調遊戲中使用概率短語的比較。 Sci Rep 2024-03-25

英文使用者通常會用「或許」等字詞來談論機率。成功的溝通讓人們能夠根據共同知識來協調行動。一項研究比較了人類和 GPT-4（OpenAI）在不同情境下估計機率和模糊性的能力。GPT-4 的表現與人類相似，但也有一些差異。人類的估計比 GPT-4 更為簡潔。情境對估計影響不大。協調遊戲可以幫助評估像 GPT-4 這樣的語言模型的能力。 PubMed DOI

Exploring a GPT-based large language model for variable autonomy in a VR-based human-robot teaming simulation.
探索基於GPT的大型語言模型在基於VR的人機協作模擬中的可變自主性。 Front Robot AI 2024-04-18

這篇論文探討了在人機合作環境中運用大型語言模型（LLMs）如GPT進行口語溝通的方法。介紹了一個以GPT為核心的機器人代理在Unity VR環境中的模擬框架。透過12位參與者的使用者研究，探討了GPT-4在多機器人環境中的效用。研究結果顯示，使用者可能對與機器人互動有先入為主的看法，但透過自然語言溝通的探索，可以帶來更有效的互動。同時提供了寶貴的教訓和未來研究的建議。 PubMed DOI

Effect of Private Deliberation: Deception of Large Language Models in Game Play.
大型語言模型在遊戲中的私人思考效應。 Entropy (Basel) 2024-06-26

這篇論文介紹了一個私人代理人，使用欺騙的方式在重複遊戲中提升大型語言模型（LLM）的效能。透過結合上下文學習和思維鏈提示，這個私人代理人在競爭和合作場景中展現出色表現，勝過了對照組。然而，研究也揭示了LLM算法在遊戲決策上的限制。研究結果顯示，透過信息理論方法，如在複雜環境中的欺騙和溝通，有潛力提升LLM代理人在多人遊戲中的表現。 PubMed DOI

Stick to your role! Stability of personal values expressed in large language models.
大型語言模型中表達的個人價值觀的穩定性。 PLoS One 2024-08-26

這篇論文探討大型語言模型（LLMs）在不同上下文中的價值表達穩定性，並分析了認知能力、知識和模型大小等因素。研究涵蓋21個來自六個家族的LLM，重點在於人際和個體層級的穩定性。主要發現包括：某些模型（如Mixtral和GPT-3.5）在價值表達上較為穩定，而模擬特定個性時，模型的穩定性會下降。研究建議未來需進一步探討LLMs如何模擬多樣化的人格，並發展更全面的評估方法。論文為理解LLMs的價值穩定性提供了基礎，並附上研究代碼。 PubMed DOI

原始文章

站上相關主題文章列表