Can large language models reason and plan?
Large language models, such as GPT-3, are capable of performing certain levels of reasoning and planning based on the patterns and information they have been trained on. These models can generate responses to questions, complete tasks, and even provide suggestions based on the input they receive. However, their ability to reason and plan is limited by the data they have been trained on and the algorithms they use. While they can simulate human-like reasoning to some extent, they do not possess true understanding or consciousness. Ann N Y Acad Sci 2024-03-06

人類可以透過自我批評來糾正他們的錯誤，但目前沒有證據表明大型語言模型（LLMs）具有這種能力。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的（不）理性與認知偏誤。 R Soc Open Sci 2024-08-05

這篇論文探討大型語言模型（LLMs）的理性推理能力，評估它們在認知心理學任務中的表現。研究發現，LLMs展現出與人類相似的非理性，但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時，這些錯誤不符合典型的人類偏見，顯示出獨特的非理性。此外，這些模型的回應顯示出顯著的不一致性，進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

Do large language models have a legal duty to tell the truth?
大型語言模型是否有法律義務說真話？ R Soc Open Sci 2024-08-08

這篇文章探討大型語言模型（LLMs）產生的「不負責任言論」問題，這可能對科學、教育及民主社會的知識完整性造成長期風險。LLMs雖然常給出看似合理的回應，但可能包含不準確或偏見，影響知識品質。作者分析了對LLM提供者施加法律責任的可能性，並檢視歐盟的《人工智慧法》和《數位服務法》，指出目前對真實性義務的限制。文章也提到德國一案例，建議透過法律責任來減少不負責任言論，確保輸出與事實一致。 PubMed DOI

Strong and weak alignment of large language models with human values.
大型語言模型與人類價值觀的強對齊與弱對齊。 Sci Rep 2024-08-21

這段文字探討了人工智慧系統與人類價值觀對齊的挑戰，區分了強價值對齊和弱價值對齊。強對齊需要高級認知能力，讓人工智慧理解意圖並建立因果關聯，這對識別潛在風險至關重要。作者指出像ChatGPT、Gemini和Copilot等模型在這方面的不足，並分析了詞嵌入的差異。文中提出「帶有詞彙轉換字典的中文房間」的思想實驗，進一步探討這些概念。最後提到的研究旨在實現弱對齊，雖然能產生可接受的回應，但不保證其真實性。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Embedded values-like shape ethical reasoning of large language models on primary care ethical dilemmas.
大型語言模型在初級醫療倫理困境中的嵌入價值類似形狀的倫理推理。 Heliyon 2024-10-09

這篇文章探討大型語言模型（如Claude、Bard、GPT-3.5和GPT-4）中嵌入的價值觀如何影響初級醫療的倫理決策。研究使用Schwartz的價值觀理論，評估這些模型的價值觀輪廓，並與超過53,000名受訪者的數據進行比較。結果顯示，每個模型的價值觀獨特，偏向普遍主義和自我導向，可能反映西方中心的偏見。這些模型的建議顯示出其內在價值觀對決策的影響，因此在臨床應用前需謹慎考量，並調整以符合多元文化觀點。 PubMed DOI

LLMs and generative agent-based models for complex systems research.
複雜系統研究中的大型語言模型與生成式代理基模型。 Phys Life Rev 2024-11-01

這篇論文探討大型語言模型（LLMs）對自然科學和社會科學的影響，特別是透過生成代理模型（GABMs）模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域，顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作，但仍面臨提示敏感性和幻覺等挑戰，影響行為一致性。未來研究應聚焦於完善模型、標準化方法，並探討LLMs與人類互動可能帶來的新合作行為，重塑決策過程。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

AI language model rivals expert ethicist in perceived moral expertise.
AI 語言模型在道德專業知識的感知上與專家倫理學家相抗衡。 Sci Rep 2025-02-03

最近研究顯示，大型語言模型（LLMs），像是GPT-4o，越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中，參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外，LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充，因此在LLMs中編程倫理指導方針變得相當重要。 PubMed DOI

原始文章

站上相關主題文章列表