Language models, like humans, show content effects on reasoning tasks.
語言模型，就像人類一樣，在推理任務上展現出內容效應。 PNAS Nexus 2024-07-17

推理對智慧系統很重要。大型語言模型在抽象推理上表現不錯，但也有缺陷。人類推理受現實世界影響，當問題支持邏輯時，推理更可靠。語言模型和人類展現相似推理模式。研究顯示兩者在準確性和信心上相似，但在某些任務上有差異，如Wason選擇。了解這些可提供對人類認知和語言模型的洞察。 PubMed DOI

A functional contextual, observer-centric, quantum mechanical, and neuro-symbolic approach to solving the alignment problem of artificial general intelligence: safe AI through intersecting computational psychological neuroscience and LLM architecture for emergent theory of mind.
一個功能性背景、觀察者中心、量子力學及神經符號學的方法來解決人工通用智慧的對齊問題：透過交叉計算心理神經科學和LLM架構實現安全AI，以促進心智理論的出現。 Front Comput Neurosci 2024-08-23

最近，自然語言處理（NLP）領域的進展主要受到變壓器模型的影響，這些模型透過注意力機制分析標記間的關係，生成回應。然而，關於這些模型是否能促進人工通用智慧（AGI）及解決對齊問題仍有爭論。研究人員認為AGI需具備可解釋的價值觀、效用函數及動態情境理解。為此，提出一種神經符號模型，結合進化理論與神經科學，探索AI的意識與同理心，並可能為對齊問題提供解決方案。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Untrained neural networks can demonstrate memorization-independent abstract reasoning.
未訓練的神經網絡可以展現不依賴記憶的抽象推理。 Sci Rep 2024-11-08

這項研究探討了人工神經網絡（ANNs）在沒有先前訓練的情況下進行抽象推理的潛力，並針對其依賴過去數據的問題進行分析。研究人員利用問題數據來優化簡單網絡的權重，並應用於視覺推理任務。結果顯示，該模型能有效解決問題，無需依賴過去範例。此外，研究還探討了ANNs解題與知識積累的關係，提出了一種新機制，說明這些網絡如何在推理任務中即時適應與學習。 PubMed DOI

Exploring the reversal curse and other deductive logical reasoning in BERT and GPT-based large language models.
探索 BERT 和 GPT 基礎的大型語言模型中的逆轉詛咒及其他演繹邏輯推理。 Patterns (N Y) 2024-11-21

「反轉詛咒」突顯了自回歸解碼器模型（如GPT）的限制，這些模型在推斷關係時常常遇到困難，例如從「A是B」推斷「B是A」。這引發了對它們在知識圖譜構建等任務中的有效性擔憂。相對而言，雙向模型如BERT則不會面臨這個問題。我們的研究進一步探討了演繹推理，發現雖然這兩種模型在處理兩個集合時表現良好，但在三個集合的運算上卻有困難。因此，選擇BERT或GPT應根據具體任務需求，利用各自的優勢。 PubMed DOI

Deep neural networks and humans both benefit from compositional language structure.
深度神經網絡與人類皆受益於組合語言結構。 Nat Commun 2024-12-31

這項研究探討深度神經網絡（DNNs）在學習和泛化不同結構語言的表現，並與人類學習者進行比較。結果顯示，無論是大型語言模型還是遞迴神經網絡，當接觸到更具結構性的語言時，學習效果更佳。具體來說，DNNs在處理組合語言時，展現出更好的系統性泛化和模型間共識增加，且與人類學習模式更一致。這顯示DNNs也能從語言的組合特性中獲益，提升其作為理解人類語言學習模型的有效性。 PubMed DOI

(How) Do reasoning models reason?
（如何）推理模型是如何推理的？ Ann N Y Acad Sci 2025-04-13

大型推理模型如OpenAI的GPT系列和DeepSeek的R1，顯示了人工智慧在自然語言處理上的重大進展。這些模型能理解和生成類似人類的文本，應用範圍廣泛，從聊天機器人到內容創作。它們的力量來自於龐大的參數和訓練數據，但常被誤解為具有人類理解能力，實際上只是基於模式生成回應。此外，它們在上下文理解和常識推理上仍有局限，且表現依賴於訓練數據的質量。總之，應理性看待這些模型的潛力與限制。 PubMed DOI

Arch-Eval benchmark for assessing chinese architectural domain knowledge in large language models.
用於評估大型語言模型中文建築領域知識的 Arch-Eval 基準 Sci Rep 2025-04-18

這篇論文提出「Arch-Eval」框架，專門評估大型語言模型在建築領域的知識表現。研究用875題標準題庫測試14種模型，發現各模型表現差異大。雖然用Chain-of-Thought推理法正確率只小幅提升（不到3%），但回答速度卻慢了26倍。未來還需加強LLM在建築領域的推理能力和多模態互動。 PubMed DOI

Reasoning Beyond Accuracy: Expert Evaluation of Large Language Models in Diagnostic Pathology.
超越準確性的思考：專家對大型語言模型於診斷病理學中的評估 medRxiv 2025-04-29

這項研究發現，Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性，也更常用專家級推理策略。雖然各模型正確率差不多，但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說，先進 LLMs 雖有專家級潛力，但在情境理解和啟發式推理上還有待加強，臨床應用前需再改進。 PubMed DOI

Evidence from counterfactual tasks supports emergent analogical reasoning in large language models.
反事實任務的證據支持大型語言模型中出現的類比推理能力 PNAS Nexus 2025-05-28

近期有研究質疑大型語言模型（LLMs）是否真的會類比推理，還是只是在模仿資料。雖然有些測試顯示LLMs表現不佳，但本研究發現，只要讓LLMs能寫和執行程式碼，即使在全新題型上也能舉一反三，證明它們真的有類比推理能力，不只是死背或模仿。 PubMed DOI

原始文章

站上相關主題文章列表