原始文章

這篇論文探討大型語言模型(LLMs)如GPT-3.5、GPT-4和LLaMa-2在博弈理論中的策略行為,並分析遊戲結構與背景對決策的影響。研究發現: - **GPT-3.5** 對背景敏感,但抽象策略思考較弱。 - **GPT-4** 專注於遊戲內部機制,對背景敏感度低,區分遊戲類型較粗略。 - **LLaMa-2** 在理解遊戲結構與考量背景上取得平衡,處理複雜策略情境時更具優勢。 總體來看,LLaMa-2在整合遊戲結構與背景方面表現最佳,而GPT-4則偏向一般化的結構策略。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)是強大的預訓練模型,可微調應用在各種自然語言任務,減少單獨為每個任務建模的需求。像GPT-3和LaMDA這樣的模型經過少量啟動後可與人對話,但是否真正理解語言或展現智能存在爭議。從與LLMs的訪談中得出的結論變化顯示,對其智能的看法可能取決於訪問者的智商。這可能引發反向圖靈測試。隨著LLMs的進步,它們可能改變人機互動。將LLMs與感知運動裝置整合引發了對其實際能力的問題。提出了受大腦系統啟發的改進方案,以實現人工智能通用自主性。LLMs也可能提供有關大腦功能的見解。 PubMed DOI

研究人員測試人類推理和決策,發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確,避免常見陷阱。模型使用上下文進行推理,類似人們使用記事本思考,即使沒有支持仍保持準確。研究顯示,心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

GPT-3.5是一個大型語言模型,像ChatGPT這樣的對話代理展現出類似人類的回應。研究顯示,這些回應受到各種因素影響,包括隨機錨點、事件可能性、軼聞信息、框架效應和擁有效應。人類也展現出相似的效應,顯示語言可能在造成這些認知偏誤方面扮演一個重要角色。 PubMed DOI

ChatGPT-4在行為遊戲和人格測驗中表現與人類相似,展現出信任、公平和合作等特質。它根據經驗和情境調整行為,從互動中學習。它傾向於比一般人更具利他主義和合作精神,旨在最大化自己和合作夥伴的回報。 PubMed DOI

研究指出,大型語言模型(LLMs)在法律分析,特別是稅法領域上有進步。新模型的推出讓LLMs更懂法律。給予額外法律背景和提示,像GPT-4,LLMs表現更好。雖然LLMs精確,但還不如專業稅務律師。LLMs進步,可能對法律界和AI治理有重大影響。 PubMed DOI

研究發現使用GPT-3.5-turbo和GPT-4模型模擬兒童語言發展,模型表現逐漸提升,接近真實兒童。GPT-4表現與兒童相似,有時更準確。任務、提示和模型選擇影響結果,溫度和性別影響不同。隨著模擬兒童年齡增長,語言複雜度也增加。總結來說,研究顯示語言模型能成功模擬不同角色。 PubMed DOI

英文使用者通常會用「或許」等字詞來談論機率。成功的溝通讓人們能夠根據共同知識來協調行動。一項研究比較了人類和 GPT-4(OpenAI)在不同情境下估計機率和模糊性的能力。GPT-4 的表現與人類相似,但也有一些差異。人類的估計比 GPT-4 更為簡潔。情境對估計影響不大。協調遊戲可以幫助評估像 GPT-4 這樣的語言模型的能力。 PubMed DOI

這篇論文探討了在人機合作環境中運用大型語言模型(LLMs)如GPT進行口語溝通的方法。介紹了一個以GPT為核心的機器人代理在Unity VR環境中的模擬框架。透過12位參與者的使用者研究,探討了GPT-4在多機器人環境中的效用。研究結果顯示,使用者可能對與機器人互動有先入為主的看法,但透過自然語言溝通的探索,可以帶來更有效的互動。同時提供了寶貴的教訓和未來研究的建議。 PubMed DOI

這篇論文介紹了一個私人代理人,使用欺騙的方式在重複遊戲中提升大型語言模型(LLM)的效能。透過結合上下文學習和思維鏈提示,這個私人代理人在競爭和合作場景中展現出色表現,勝過了對照組。然而,研究也揭示了LLM算法在遊戲決策上的限制。研究結果顯示,透過信息理論方法,如在複雜環境中的欺騙和溝通,有潛力提升LLM代理人在多人遊戲中的表現。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在不同上下文中的價值表達穩定性,並分析了認知能力、知識和模型大小等因素。研究涵蓋21個來自六個家族的LLM,重點在於人際和個體層級的穩定性。主要發現包括:某些模型(如Mixtral和GPT-3.5)在價值表達上較為穩定,而模擬特定個性時,模型的穩定性會下降。研究建議未來需進一步探討LLMs如何模擬多樣化的人格,並發展更全面的評估方法。論文為理解LLMs的價值穩定性提供了基礎,並附上研究代碼。 PubMed DOI