Emergent analogical reasoning in large language models.
大型語言模型中的緊急類比推理。 Nat Hum Behav 2023-09-27

這項研究比較了人類推理與一個大型語言模型（GPT-3）在類比任務上的表現，發現GPT-3在抽象模式歸納方面表現出色，有時甚至超越了人類。研究結果顯示，像GPT-3這樣的模型已經發展出解決類比問題的能力，而無需直接訓練。 PubMed DOI

ThoughtSource: A central hub for large language model reasoning data.
ThoughtSource：大型語言模型推理數據的中心枢紐。 Sci Data 2023-11-19

GPT-4功能強大，但在推理、透明度、虛構事實和偏見方面有限制。為了解決這些問題，提出了「Chain-of-thought prompting」技術，用於表達推理步驟。ThoughtSource是一個元數據集和軟體庫，支持Chain-of-thought推理，旨在增強人工智慧系統。整合了各種跨科學、一般和數學領域的問答數據集。 PubMed DOI

Language models and psychological sciences.
語言模型與心理科學。 Front Psychol 2023-11-10

大型語言模型（LLMs）在推理任務上表現優秀，挑戰傳統模型。雖然有限制，但透過提供範例和擴展網絡等方法，可以增強性能，類似人類思考。分析LLM的錯誤可洞察人類偏見。LLMs帶來希望，從聯想主義角度研究智能和推理，透過認知心理學工具更深入了解人類思維。 PubMed DOI

Dissociating language and thought in large language models.
大型語言模型中語言和思維的分離。 Trends Cogn Sci 2024-03-20

大型語言模型（LLMs）在理解語言方面有進展，但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力，人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異，但在功能任務上表現不穩，可能需要額外調整或外部模組。為了達到人類般的語言使用，模型可能需掌握兩種能力，並提供專門機制。 PubMed DOI

Analysis and prediction in SCR experiments using GPT-4 with an effective chain-of-thought prompting strategy.
使用 GPT-4 在 SCR 實驗中進行分析和預測，並採用有效的思維鏈提示策略。 iScience 2024-03-26

研究討論了如何運用大型語言模型（LLMs）的類人類推理能力來解釋和預測實驗結果，專注於氮氧化物（NO<sub>x</sub>）與氨（NH<sub>3</sub>）的選擇性催化還原反應。引入了一種新的提示策略「有序結構」CoT（OSCoT）。研究指出，使用OSCoT策略與GPT-4在預測實驗結果和提供直觀推理方面優於傳統方法和人類專家。 PubMed DOI

Evaluating language models for mathematics through interactions.
通過互動評估數學語言模型。 Proc Natl Acad Sci U S A 2024-06-03

研究介紹了CheckMate平台，用來評估大型語言模型在互動環境中的表現。研究使用三個語言模型幫助解決大學數學問題，並釋出MathConverse數據集。分析顯示LLM輸出的正確性和幫助性有差異，強調LLM需傳達不確定性、接受更正並提供理由。研究指出LLM有限制和可能犯錯，強調人類監督的重要性。 PubMed DOI

A comparison of chain-of-thought reasoning strategies across datasets and models.
跨資料集和模型的思維連鎖推理策略比較。 PeerJ Comput Sci 2024-06-10

新興的思維鏈 (CoT) 推理能力可以透過改善表現和可解釋性，提升大型語言模型 (LLMs)。這項研究比較了最近六個LLMs在各種問答資料集上使用零提示的CoT推理策略。結果顯示，CoT推理策略在不同模型和資料集上都是有效的，其中GPT-4受益最多。 PubMed DOI

Arithmetic with language models: From memorization to computation.
語言模型的算術運算：從記憶到計算。 Neural Netw 2024-07-28

這項研究探討大型語言模型在計算和解決問題的能力，特別是它們在執行簡單的算術運算（如二進位加法和乘法）方面的表現。研究人員訓練了一個輕量級的語言模型，並評估其推斷能力和內部處理的理解。結果顯示，這個模型的運作方式像是一個編碼-回歸-解碼的機器，計算在特定的值空間中進行，這有助於提升模型性能並擴展應用範圍。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Scaffolding learning: From specific to generic with large language models.
從特定到一般的學習支架：利用大型語言模型。 PLoS One 2024-09-20

這篇論文提出了一種名為「支架學習」的方法，專為大型語言模型（LLMs）設計，模仿學生學習數學的過程，從基本算術逐步進入複雜問題。作者指出，LLMs在基本算術上表現不佳，但在複雜數學上卻很優秀，顯示訓練方法的不足。這種方法先在特定任務上訓練LLMs，如乘法和除法，然後再轉向更一般的任務，類似於課程訓練。研究顯示，一旦LLM掌握特定技能，僅需少量額外訓練即可應用於更複雜的任務，證明結構化學習能提升LLMs的數學能力。 PubMed DOI

原始文章

站上相關主題文章列表