Artificial intelligence and social intelligence: preliminary comparison study between AI models and psychologists.
人工智慧與社會智慧：AI 模型與心理學家初步比較研究。 Front Psychol 2024-02-22

研究比較了ChatGPT、Google Bard和Bing等人工智慧模型在輔導和心理治療領域的社交智能，發現它們與心理學家有明顯不同。ChatGPT-4超越了心理學家，Bing也表現優異。Google Bard在社交智能方面與擁有博士學位的人有明顯差異，顯示潛力。研究建議人工智慧模型在情感和社會行為理解方面進步迅速，可為心理治療師提供新途徑，值得進一步探討。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Large language models and humans converge in judging public figures' personalities.
大型語言模型與人類在評估公眾人物的個性上達成一致。 PNAS Nexus 2024-10-03

研究顯示，ChatGPT-4在使用十項人格量表（TIPI）評估公共人物的人格特質上表現優異，相關係數高達0.76到0.87，顯示其評估結果與人類評審者高度一致。這可能歸因於其廣泛的訓練數據、對語言細微差別的理解、模式識別能力，以及缺乏偏見的反饋。這些發現顯示，ChatGPT-4在心理學、行銷和公共關係等領域具有潛在價值，並引發對AI在社會評估中可靠性的思考，顯示出AI在理解人類行為方面的進步與應用潛力。 PubMed DOI

Evaluating large language models in theory of mind tasks.
評估大型語言模型在心智理論任務中的表現。 Proc Natl Acad Sci U S A 2024-10-29

一項研究評估了十一個大型語言模型（LLMs），使用40個專門的錯誤信念任務，這些任務對於評估人類的心智理論（ToM）非常重要。結果顯示，較舊的模型無法解決任何任務，而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下，ChatGPT-4的成功率達到75%，與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品，預示著更先進的人工智慧的崛起，帶來正負面影響。 PubMed DOI

Large language models can outperform humans in social situational judgments.
大型語言模型在社交情境判斷上可以超越人類。 Sci Rep 2024-11-13

大型語言模型（LLMs）因在知識性任務上表現優於人類而受到關注，但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中，五個聊天機器人與276名人類參與者進行比較，結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類，且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力，但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

Does ChatGPT have a typical or atypical theory of mind?
ChatGPT 的心智理論是屬於典型還是非典型呢？ Front Psychol 2024-11-13

這項初步研究探討了大型語言模型（LLMs），特別是ChatGPT 3.5和ChatGPT-4，在心智理論（ToM）方面的能力，並與自閉症譜系障礙（ASD）及典型發展（TD）個體進行比較。研究發現： 1. 兩個LLMs在理解心理狀態的準確性上高於ASD組，但ChatGPT-3.5在複雜心理狀態上表現不佳。 2. ChatGPT-3.5在情感狀態識別上低於TD個體，尤其是負面情緒，但與ASD組相似。ChatGPT-4有所改善，但仍難以識別悲傷和憤怒。 3. 兩者的對話風格冗長且重複，類似高功能自閉症個體。研究顯示LLMs在理解心理和情感狀態的潛力及其局限性，對ASD的臨床應用有影響。 PubMed DOI

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning.
測試 AI 在語言理解任務上的表現顯示對潛在意義的敏感度不足。 Sci Rep 2024-11-14

這項研究評估了七種大型語言模型（LLMs）在新基準上的理解能力，要求它們回答基於短文本的問題，並與400名人類的回答進行比較。結果顯示，這些模型的表現僅達到隨機準確率，且回答變異性大。相比之下，人類在數量和質量上都明顯優於這些模型，LLMs的錯誤也顯示出非人類特徵。這表明，雖然AI模型在某些應用中有效，但它們的語言理解仍無法與人類相提並論，可能因為無法有效處理語法和語義信息。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Fostering effective hybrid human-LLM reasoning and decision making.
促進有效的混合人類-LLM 推理與決策。 Front Artif Intell 2025-01-23

現代大型語言模型（LLMs）引起了廣泛關注，展現出驚人的能力，但有時也會出錯，顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型，但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動，並指出可能妨礙合作的偏見，提出解決方案，並概述促進相互理解及提升團隊表現的研究目標，以改善推理與決策過程。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

原始文章

站上相關主題文章列表