原始文章

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI


站上相關主題文章列表

研究用認知心理學方法評估GPT-3,發現在某些任務表現不錯,但在因果推理和有向探索方面較弱。這些結果有助於我們更了解大型語言模型,也提出使用認知心理學工具深入研究高階人工智慧代理的建議。 PubMed DOI

歸納能力對智慧至關重要,但現有模型僅適用於簡單問題。結合大型語言模型與認知心理學理論,有助於更深入理解人類的歸納能力。研究顯示這種整合方法有潛力複製人類對各種歸納論證的反應。結果凸顯結合心理學理論與人工智慧方法,能有效模擬複雜的人類認知。 PubMed DOI

大型語言模型(LLMs)在推理任務上表現優秀,挑戰傳統模型。雖然有限制,但透過提供範例和擴展網絡等方法,可以增強性能,類似人類思考。分析LLM的錯誤可洞察人類偏見。LLMs帶來希望,從聯想主義角度研究智能和推理,透過認知心理學工具更深入了解人類思維。 PubMed DOI

研究人員測試人類推理和決策,發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確,避免常見陷阱。模型使用上下文進行推理,類似人們使用記事本思考,即使沒有支持仍保持準確。研究顯示,心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

GPT-3.5是一個大型語言模型,像ChatGPT這樣的對話代理展現出類似人類的回應。研究顯示,這些回應受到各種因素影響,包括隨機錨點、事件可能性、軼聞信息、框架效應和擁有效應。人類也展現出相似的效應,顯示語言可能在造成這些認知偏誤方面扮演一個重要角色。 PubMed DOI

大型語言模型(LLMs)在理解語言方面有進展,但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力,人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異,但在功能任務上表現不穩,可能需要額外調整或外部模組。為了達到人類般的語言使用,模型可能需掌握兩種能力,並提供專門機制。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

推理對智慧系統很重要。大型語言模型在抽象推理上表現不錯,但也有缺陷。人類推理受現實世界影響,當問題支持邏輯時,推理更可靠。語言模型和人類展現相似推理模式。研究顯示兩者在準確性和信心上相似,但在某些任務上有差異,如Wason選擇。了解這些可提供對人類認知和語言模型的洞察。 PubMed DOI

這篇論文探討大型語言模型(LLMs)的理性推理能力,評估它們在認知心理學任務中的表現。研究發現,LLMs展現出與人類相似的非理性,但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時,這些錯誤不符合典型的人類偏見,顯示出獨特的非理性。此外,這些模型的回應顯示出顯著的不一致性,進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

這段論述指出大型語言模型(LLMs)在理解人類語言的學習與演變上有其限制。主要有兩個觀點: 1. **功能與機制的差異**:雖然LLMs能生成類似人類的語言,但其學習過程與人類不同。人類透過多種感官互動學習語言,而LLMs主要依賴文本數據,這使得它們的相似性只是表面現象。 2. **語言行為的範疇**:人類的語言使用範圍更廣,而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。 因此,LLMs應被視為輔助語言研究的工具,而非語言理論本身,這強調了謹慎應用的必要性。 PubMed DOI