Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT.
大型語言模型中出現了類似人類直覺行為和推理偏見，但在 ChatGPT 中消失了。 Nat Comput Sci 2024-01-12

研究人員測試人類推理和決策，發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確，避免常見陷阱。模型使用上下文進行推理，類似人們使用記事本思考，即使沒有支持仍保持準確。研究顯示，心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

Language models, like humans, show content effects on reasoning tasks.
語言模型，就像人類一樣，在推理任務上展現出內容效應。 PNAS Nexus 2024-07-17

推理對智慧系統很重要。大型語言模型在抽象推理上表現不錯，但也有缺陷。人類推理受現實世界影響，當問題支持邏輯時，推理更可靠。語言模型和人類展現相似推理模式。研究顯示兩者在準確性和信心上相似，但在某些任務上有差異，如Wason選擇。了解這些可提供對人類認知和語言模型的洞察。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Larger and more instructable language models become less reliable.
更大且更具可指導性的語言模型變得不那麼可靠。 Nature 2024-09-25

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力，並進行後處理和微調。然而，這樣的調整可能會影響模型的可靠性。我們的研究發現，雖然模型在簡單任務上表現不錯，但在低難度領域的準確性卻不穩定，特別是人類監督能夠發現的錯誤。早期模型常避免回答，而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的，尤其是在需要可預測錯誤的應用中。 PubMed DOI

Large language models and humans converge in judging public figures' personalities.
大型語言模型與人類在評估公眾人物的個性上達成一致。 PNAS Nexus 2024-10-03

研究顯示，ChatGPT-4在使用十項人格量表（TIPI）評估公共人物的人格特質上表現優異，相關係數高達0.76到0.87，顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力，以及缺乏偏見的反饋。這些發現顯示，ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值，並引發對AI在社會評估中可靠性的思考，顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning.
測試 AI 在語言理解任務上的表現顯示對潛在意義的敏感度不足。 Sci Rep 2024-11-14

這項研究評估了七種大型語言模型（LLMs）在新基準上的理解能力，要求它們回答基於短文本的問題，並與400名人類的回答進行比較。結果顯示，這些模型的表現僅達到隨機準確率，且回答變異性大。相比之下，人類在數量和質量上都明顯優於這些模型，LLMs的錯誤也顯示出非人類特徵。這表明，雖然AI模型在某些應用中有效，但它們的語言理解仍無法與人類相提並論，可能因為無法有效處理語法和語義信息。 PubMed DOI

Large language models and psychiatry.
大型語言模型與精神醫學。 Int J Law Psychiatry 2025-02-28

生成式人工智慧和大型語言模型（LLMs），如GPT-4，對臨床醫學和認知心理學影響深遠。這些模型在理解和生成語言方面表現優異，能改善臨床決策和心理諮詢。雖然LLMs在類比推理和隱喻理解上表現良好，但在因果推理和複雜規劃上仍有挑戰。本文探討LLMs的認知能力及其在心理測試中的表現，並討論其在認知心理學和精神醫學的應用、限制及倫理考量，強調進一步研究的重要性，以釋放其潛力。 PubMed DOI

[Technical foundations of large language models].
大型語言模型的技術基礎 Radiologie (Heidelb) 2025-03-10

大型語言模型（LLMs）如ChatGPT已經改變了人機互動和語言分析。這些模型基於自然語言處理和機器學習的進步，特別是變壓器模型的引入，能更有效理解上下文。 LLMs的訓練過程分為預訓練和監督式微調，讓模型學習語法和推理能力。然而，它們也有缺陷，常生成聽起來合理但不正確的資訊，可能誤導使用者。因此，在使用LLMs時，特別是在敏感領域如放射學，必須謹慎評估其輸出。 PubMed DOI

Deep Generative Modeling: From Probabilistic Framework to Generative AI.
深度生成模型：從概率框架到生成式人工智慧。 Entropy (Basel) 2025-03-28

大型語言模型（LLMs）徹底改變了人工智慧，特別是在生成文本方面。這些模型透過大量文本訓練，能生成連貫且具上下文的內容，應用範圍廣泛，從聊天機器人到內容創作，展現出驚人的語言理解與生成能力。它們能執行摘要、問答及創意寫作等任務，並透過微調技術針對特定需求進行客製化。隨著技術進步，LLMs 的應用也在擴展，並引發了關於倫理、偏見及社會影響的討論，標誌著人工智慧的一次重大進步。 PubMed DOI

原始文章

站上相關主題文章列表