Language models, like humans, show content effects on reasoning tasks.
語言模型，就像人類一樣，在推理任務上展現出內容效應。 PNAS Nexus 2024-07-17

推理對智慧系統很重要。大型語言模型在抽象推理上表現不錯，但也有缺陷。人類推理受現實世界影響，當問題支持邏輯時，推理更可靠。語言模型和人類展現相似推理模式。研究顯示兩者在準確性和信心上相似，但在某些任務上有差異，如Wason選擇。了解這些可提供對人類認知和語言模型的洞察。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的（不）理性與認知偏誤。 R Soc Open Sci 2024-08-05

這篇論文探討大型語言模型（LLMs）的理性推理能力，評估它們在認知心理學任務中的表現。研究發現，LLMs展現出與人類相似的非理性，但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時，這些錯誤不符合典型的人類偏見，顯示出獨特的非理性。此外，這些模型的回應顯示出顯著的不一致性，進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Embers of autoregression show how large language models are shaped by the problem they are trained to solve.
自回歸的餘燼顯示大型語言模型如何受到其訓練解決的問題所塑造。 Proc Natl Acad Sci U S A 2024-10-04

大型語言模型（LLMs）的使用需了解其優勢與限制，特別是與訓練任務相關的部分。研究指出，影響LLM準確性的三個關鍵因素為任務的概率、目標輸出的概率及輸入的概率。對五個LLM（如GPT-3.5、GPT-4等）進行的測試顯示，這些概率確實影響其表現，但也出現意外的失敗模式，例如GPT-4在低概率任務上的表現不佳。因此，使用LLM處理低概率任務時需謹慎，並應將其視為獨立系統評估，而非類似人類的實體。 PubMed DOI

Evaluating large language models in theory of mind tasks.
評估大型語言模型在心智理論任務中的表現。 Proc Natl Acad Sci U S A 2024-10-29

一項研究評估了十一個大型語言模型（LLMs），使用40個專門的錯誤信念任務，這些任務對於評估人類的心智理論（ToM）非常重要。結果顯示，較舊的模型無法解決任何任務，而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下，ChatGPT-4的成功率達到75%，與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品，預示著更先進的人工智慧的崛起，帶來正負面影響。 PubMed DOI

(How) Do reasoning models reason?
（如何）推理模型是如何推理的？ Ann N Y Acad Sci 2025-04-13

大型推理模型如OpenAI的GPT系列和DeepSeek的R1，顯示了人工智慧在自然語言處理上的重大進展。這些模型能理解和生成類似人類的文本，應用範圍廣泛，從聊天機器人到內容創作。它們的力量來自於龐大的參數和訓練數據，但常被誤解為具有人類理解能力，實際上只是基於模式生成回應。此外，它們在上下文理解和常識推理上仍有局限，且表現依賴於訓練數據的質量。總之，應理性看待這些模型的潛力與限制。 PubMed DOI

Artificial Intelligence and the Illusion of Understanding: A Systematic Review of Theory of Mind and Large Language Models.
人工智慧與理解的錯覺：Theory of Mind 與大型語言模型的系統性回顧 Cyberpsychol Behav Soc Netw 2025-05-07

大型語言模型像GPT-4雖然能解簡單的心智理論題目，但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式，並不代表真的理解。現有研究多用文字題，忽略人類社會認知的多元面向。這篇評論提醒大家，LLMs不等於真正的人類心智理論，未來評估方式要更貼近現實。 PubMed DOI

Derivational morphology reveals analogical generalization in large language models.
衍生形態學揭示大型語言模型中的類比泛化。 Proc Natl Acad Sci U S A 2025-05-09

這篇研究發現，大型語言模型（像GPT-J）在處理英語形容詞名詞化時，比起死背規則，更傾向用類比的方式來推論，尤其遇到不規則或變化多的情況時更明顯。而且LLM對單字出現頻率很敏感，這也支持類比型的解釋。總結來說，LLM在語言泛化上，比較像是在「舉一反三」，而不是照本宣科。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

原始文章

站上相關主題文章列表