(Ir)rationality and cognitive biases in large language models.
大型語言模型中的（不）理性與認知偏誤。 R Soc Open Sci 2024-08-05

這篇論文探討大型語言模型（LLMs）的理性推理能力，評估它們在認知心理學任務中的表現。研究發現，LLMs展現出與人類相似的非理性，但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時，這些錯誤不符合典型的人類偏見，顯示出獨特的非理性。此外，這些模型的回應顯示出顯著的不一致性，進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Assessing the Proficiency of LLMs with Various Tasks and Evaluators.
評估大型語言模型在各種任務和評估者中的能力。 Stud Health Technol Inform 2024-08-23

您的研究強調了全面評估大型語言模型（LLMs）的重要性，透過結合多個任務和多樣化的評估者來達成。您對四個LLM在八個不同任務上的表現進行評估，並邀請了17位來自不同領域的評估者，這樣的做法讓我們對LLM的性能有更深入的了解。這種方法不僅展示了模型的能力，還突顯了任務和評估者的多樣性如何影響結果，可能提供對LLM熟練度的更細緻見解，並幫助識別其在不同情境下的優劣。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Establishing vocabulary tests as a benchmark for evaluating large language models.
建立詞彙測試作為評估大型語言模型的基準。 PLoS One 2024-12-12

這篇論文強調詞彙測試在評估大型語言模型（LLMs）如Llama 2、Mistral和GPT中的重要性，卻在目前的評估標準中被忽略。雖然許多評估專注於特定任務或領域知識，但常常忽視語言理解的基本面。作者主張應重新重視詞彙測試，並使用兩種語言的測試格式評估七個LLM，揭示模型在詞彙知識上的顯著差距。這些發現提供了對LLM單詞表示及學習過程的深入見解，並指出自動生成詞彙測試的潛力，為提升LLM的語言能力評估開啟新機會。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

Don't Use LLMs to Make Relevance Judgments.
請勿使用 LLM 來進行相關性判斷。 Inf Retr Res J 2025-04-11

在資訊檢索評估中，使用大型語言模型（LLMs）來創建相關性判斷雖然有其優勢，但過度依賴可能會限制評估的有效性。LLMs的表現可能設下上限，無法識別更優秀的系統。建議將LLMs用於輔助角色，例如協助人類評審、生成訓練數據、進行質量控制及探索性分析。這樣可以發揮LLMs的優勢，同時保留人類專業知識的核心地位，確保評估的完整性。 PubMed DOI

Using large language models to facilitate academic work in the psychological sciences.
運用大型語言模型促進心理科學的學術工作 Curr Psychol 2025-05-29

大型語言模型在心理科學等學術領域越來越重要，能協助教學、寫作和模擬人類行為。雖然帶來不少好處，但也有倫理和實務上的挑戰。這份摘要整理了最新進展、最佳做法，並提出未來發展方向，幫助學界更負責任且有效地運用LLMs。 PubMed DOI

Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。 Proc Natl Acad Sci U S A 2025-06-13

雖然大型語言模型有時能模仿人類回應，但在像 11-20 money request game 這類需要複雜推理的任務上，表現常常和人類差很多，還會受到提示語和安全機制影響，出錯方式也很難預測。所以，社會科學研究如果想用 LLMs 取代人類，真的要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表