Can large language models reason and plan?
Large language models, such as GPT-3, are capable of performing certain levels of reasoning and planning based on the patterns and information they have been trained on. These models can generate responses to questions, complete tasks, and even provide suggestions based on the input they receive. However, their ability to reason and plan is limited by the data they have been trained on and the algorithms they use. While they can simulate human-like reasoning to some extent, they do not possess true understanding or consciousness. Ann N Y Acad Sci 2024-03-06

人類可以透過自我批評來糾正他們的錯誤，但目前沒有證據表明大型語言模型（LLMs）具有這種能力。 PubMed DOI

Framework-based qualitative analysis of free responses of Large Language Models: Algorithmic fidelity.
大型語言模型自由回應的基於框架的定性分析：演算法忠實度。 PLoS One 2024-03-15

研究使用大型生成式語言模型模擬質性研究中的面試問題回答，發現LLM生成的內容與人類看法有相似之處，但結構和語氣有差異。結論指出目前LLMs缺乏算法忠實度，無法廣泛應用於真實人群，但未來或有改善。強調建立評估基於LLM的質性研究有效性規範的重要性，尤其是代表多樣人類經驗。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的（不）理性與認知偏誤。 R Soc Open Sci 2024-08-05

這篇論文探討大型語言模型（LLMs）的理性推理能力，評估它們在認知心理學任務中的表現。研究發現，LLMs展現出與人類相似的非理性，但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時，這些錯誤不符合典型的人類偏見，顯示出獨特的非理性。此外，這些模型的回應顯示出顯著的不一致性，進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

Symbol ungrounding: what the successes (and failures) of large language models reveal about human cognition.
符號去根：大型語言模型的成功（與失敗）揭示了人類認知的哪些面向。 Philos Trans R Soc Lond B Biol Sci 2024-08-19

這篇論文探討大型語言模型（LLMs）與人類語意理解的關係，特別是在具身認知的背景下。具身認知的支持者認為，LLMs 只依賴文本訓練，缺乏感官經驗的連結，這對人類理解很重要。不過，論文指出人類的認知結合了具身經驗和語言學習，語言在塑造我們對世界的理解中扮演關鍵角色。因此，LLMs 可以反映語言作為語意信息來源的豐富性，並強調語言如何在缺乏直接感官經驗的情況下增強認知能力，這也有助於理解具身認知與人工智慧的互動。 PubMed DOI

A functional contextual, observer-centric, quantum mechanical, and neuro-symbolic approach to solving the alignment problem of artificial general intelligence: safe AI through intersecting computational psychological neuroscience and LLM architecture for emergent theory of mind.
一個功能性背景、觀察者中心、量子力學及神經符號學的方法來解決人工通用智慧的對齊問題：透過交叉計算心理神經科學和LLM架構實現安全AI，以促進心智理論的出現。 Front Comput Neurosci 2024-08-23

最近，自然語言處理（NLP）領域的進展主要受到變壓器模型的影響，這些模型透過注意力機制分析標記間的關係，生成回應。然而，關於這些模型是否能促進人工通用智慧（AGI）及解決對齊問題仍有爭論。研究人員認為AGI需具備可解釋的價值觀、效用函數及動態情境理解。為此，提出一種神經符號模型，結合進化理論與神經科學，探索AI的意識與同理心，並可能為對齊問題提供解決方案。 PubMed DOI

Psychomatics-A Multidisciplinary Framework for Understanding Artificial Minds.
心理體學 - 理解人工心智的多學科框架。 Cyberpsychol Behav Soc Netw 2024-08-29

這篇文章介紹了心理體系（Psychomatics），探討大型語言模型（LLMs）與人類在資訊處理上的差異。雖然LLMs在學習和語言使用上展現出類似的認知技能，但其基本過程卻截然不同。心理體系透過比較LLMs與生物系統，分析它們在獲取、記憶和利用資訊上的差異。LLMs能夠有效操控語言模式，但缺乏人類的情感和經驗，限制了對複雜關係的理解。最終，這個框架旨在深入了解語言、認知和智慧，並指導更具人性化的人工智慧系統發展。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Larger and more instructable language models become less reliable.
更大且更具可指導性的語言模型變得不那麼可靠。 Nature 2024-09-25

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力，並進行後處理和微調。然而，這樣的調整可能會影響模型的可靠性。我們的研究發現，雖然模型在簡單任務上表現不錯，但在低難度領域的準確性卻不穩定，特別是人類監督能夠發現的錯誤。早期模型常避免回答，而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的，尤其是在需要可預測錯誤的應用中。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

A Comprehensive Analysis of a Social Intelligence Dataset and Response Tendencies Between Large Language Models (LLMs) and Humans.
大型語言模型（LLMs）與人類之間社會智慧數據集及反應傾向的綜合分析。 Sensors (Basel) 2025-01-25

近年來，改善人類與人工智慧（AI）互動的關注度逐漸上升，社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解，像Social-IQ這樣的數據集被創建，但這些數據集多採用基本的問答格式，缺乏答案的理由，且通常只從預設選項中生成答案，限制了可解釋性和可靠性。為了解決這些問題，我們進行了一項基於視頻的問答評估，強調人類互動，並加入相關註解，發現人類與AI的反應模式存在顯著差異，顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集，促進人類與AI之間更自然的溝通。 PubMed DOI

原始文章

站上相關主題文章列表