原始文章

這項研究的重點在於將大型語言模型的推理能力壓縮成參數較少的小型語言模型,讓它們更容易使用且不影響性能。作者提出了一種新方法,稱為思維方程蒸餾,透過方程式捕捉推理過程,並建立微調小型模型的數據集。此外,他們還提出集成思維蒸餾框架,結合多種思維過程來提升小型模型的推理能力。實驗結果顯示,這些方法顯著提升了小型模型的推理表現。 PubMed DOI


站上相關主題文章列表

這項研究比較了人類推理與一個大型語言模型(GPT-3)在類比任務上的表現,發現GPT-3在抽象模式歸納方面表現出色,有時甚至超越了人類。研究結果顯示,像GPT-3這樣的模型已經發展出解決類比問題的能力,而無需直接訓練。 PubMed DOI

GPT-4功能強大,但在推理、透明度、虛構事實和偏見方面有限制。為了解決這些問題,提出了「Chain-of-thought prompting」技術,用於表達推理步驟。ThoughtSource是一個元數據集和軟體庫,支持Chain-of-thought推理,旨在增強人工智慧系統。整合了各種跨科學、一般和數學領域的問答數據集。 PubMed DOI

大型語言模型(LLMs)在推理任務上表現優秀,挑戰傳統模型。雖然有限制,但透過提供範例和擴展網絡等方法,可以增強性能,類似人類思考。分析LLM的錯誤可洞察人類偏見。LLMs帶來希望,從聯想主義角度研究智能和推理,透過認知心理學工具更深入了解人類思維。 PubMed DOI

大型語言模型(LLMs)在理解語言方面有進展,但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力,人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異,但在功能任務上表現不穩,可能需要額外調整或外部模組。為了達到人類般的語言使用,模型可能需掌握兩種能力,並提供專門機制。 PubMed DOI

研究討論了如何運用大型語言模型(LLMs)的類人類推理能力來解釋和預測實驗結果,專注於氮氧化物(NO<sub>x</sub>)與氨(NH<sub>3</sub>)的選擇性催化還原反應。引入了一種新的提示策略「有序結構」CoT(OSCoT)。研究指出,使用OSCoT策略與GPT-4在預測實驗結果和提供直觀推理方面優於傳統方法和人類專家。 PubMed DOI

研究介紹了CheckMate平台,用來評估大型語言模型在互動環境中的表現。研究使用三個語言模型幫助解決大學數學問題,並釋出MathConverse數據集。分析顯示LLM輸出的正確性和幫助性有差異,強調LLM需傳達不確定性、接受更正並提供理由。研究指出LLM有限制和可能犯錯,強調人類監督的重要性。 PubMed DOI

新興的思維鏈 (CoT) 推理能力可以透過改善表現和可解釋性,提升大型語言模型 (LLMs)。這項研究比較了最近六個LLMs在各種問答資料集上使用零提示的CoT推理策略。結果顯示,CoT推理策略在不同模型和資料集上都是有效的,其中GPT-4受益最多。 PubMed DOI

這項研究探討大型語言模型在計算和解決問題的能力,特別是它們在執行簡單的算術運算(如二進位加法和乘法)方面的表現。研究人員訓練了一個輕量級的語言模型,並評估其推斷能力和內部處理的理解。結果顯示,這個模型的運作方式像是一個編碼-回歸-解碼的機器,計算在特定的值空間中進行,這有助於提升模型性能並擴展應用範圍。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI

這篇論文提出了一種名為「支架學習」的方法,專為大型語言模型(LLMs)設計,模仿學生學習數學的過程,從基本算術逐步進入複雜問題。作者指出,LLMs在基本算術上表現不佳,但在複雜數學上卻很優秀,顯示訓練方法的不足。 這種方法先在特定任務上訓練LLMs,如乘法和除法,然後再轉向更一般的任務,類似於課程訓練。研究顯示,一旦LLM掌握特定技能,僅需少量額外訓練即可應用於更複雜的任務,證明結構化學習能提升LLMs的數學能力。 PubMed DOI