Human-like intuitive behavior and reasoning biases emerged in large language models but disappeared in ChatGPT.
大型語言模型中出現了類似人類直覺行為和推理偏見，但在 ChatGPT 中消失了。 Nat Comput Sci 2024-01-12

研究人員測試人類推理和決策，發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確，避免常見陷阱。模型使用上下文進行推理，類似人們使用記事本思考，即使沒有支持仍保持準確。研究顯示，心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

Beyond rating scales: With targeted evaluation, large language models are poised for psychological assessment.
超越評分量表：透過有針對性的評估，大型語言模型準備好進行心理評估。 Psychiatry Res 2024-02-19

討論了最新研究，認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確，且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證，專注自然語言溝通可改變心理健康評估。 PubMed DOI

Large language models are able to downplay their cognitive abilities to fit the persona they simulate.
大型語言模型能夠淡化其認知能力，以符合它們模擬的人物角色。 PLoS One 2024-03-15

研究發現使用GPT-3.5-turbo和GPT-4模型模擬兒童語言發展，模型表現逐漸提升，接近真實兒童。GPT-4表現與兒童相似，有時更準確。任務、提示和模型選擇影響結果，溫度和性別影響不同。隨著模擬兒童年齡增長，語言複雜度也增加。總結來說，研究顯示語言模型能成功模擬不同角色。 PubMed DOI

Testing theory of mind in large language models and humans.
在大型語言模型和人類中測試心智理論。 Nat Hum Behav 2024-05-20

研究比較人類和大型語言模型（LLM）在心智理論任務上的表現，發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類，但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類，但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法，需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

Evaluating Large Language Models' Ability Using a Psychiatric Screening Tool Based on Metaphor and Sarcasm Scenarios.
評估大型語言模型在基於隱喻和諷刺情境的精神病篩檢工具中的能力。 J Intell 2024-07-26

這項研究指出，阿斯伯格症兒童在理解諷刺等細微溝通上面臨挑戰，儘管他們的語言能力不錯。研究者透過特定測試來區分阿斯伯格症與其他狀況，如注意力不足過動症（ADHD），主要針對隱喻和諷刺的理解。最近對大型語言模型的評估顯示，這些模型在隱喻理解上有所進步，但在諷刺方面卻沒有相同的進展，可能需要不同的方法，與大腦情感處理有關。因此，為大型語言模型設計針對性訓練策略，提升其理解諷刺的能力，對於模擬人類認知過程非常重要。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Challenging large language models' "<i>intelligence</i>" with human tools: A neuropsychological investigation in Italian language on prefrontal functioning.
用人類工具挑戰大型語言模型的「<i>智慧</i>」：一項關於前額葉功能的意大利語神經心理學研究。 Heliyon 2024-10-21

這項研究針對大型語言模型（LLMs），如GPT-3.5、GPT-4、Claude2和Llama2的智力進行調查，特別關注前額葉功能。結果顯示，雖然GPT-3.5在某些領域表現不錯，但在計畫和理解意圖上不太穩定，Claude2也有類似情況。相對之下，Llama2在大部分測試中表現不佳。值得一提的是，GPT-4在所有任務中表現良好，顯示出更接近人類的認知能力。研究證實，傳統神經心理測試能有效評估LLM的表現。 PubMed DOI

Large language models can outperform humans in social situational judgments.
大型語言模型在社交情境判斷上可以超越人類。 Sci Rep 2024-11-13

大型語言模型（LLMs）因在知識性任務上表現優於人類而受到關注，但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中，五個聊天機器人與276名人類參與者進行比較，結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類，且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力，但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

Does ChatGPT have a typical or atypical theory of mind?
ChatGPT 的心智理論是屬於典型還是非典型呢？ Front Psychol 2024-11-13

這項初步研究探討了大型語言模型（LLMs），特別是ChatGPT 3.5和ChatGPT-4，在心智理論（ToM）方面的能力，並與自閉症譜系障礙（ASD）及典型發展（TD）個體進行比較。研究發現： 1. 兩個LLMs在理解心理狀態的準確性上高於ASD組，但ChatGPT-3.5在複雜心理狀態上表現不佳。 2. ChatGPT-3.5在情感狀態識別上低於TD個體，尤其是負面情緒，但與ASD組相似。ChatGPT-4有所改善，但仍難以識別悲傷和憤怒。 3. 兩者的對話風格冗長且重複，類似高功能自閉症個體。研究顯示LLMs在理解心理和情感狀態的潛力及其局限性，對ASD的臨床應用有影響。 PubMed DOI

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning.
測試 AI 在語言理解任務上的表現顯示對潛在意義的敏感度不足。 Sci Rep 2024-11-14

這項研究評估了七種大型語言模型（LLMs）在新基準上的理解能力，要求它們回答基於短文本的問題，並與400名人類的回答進行比較。結果顯示，這些模型的表現僅達到隨機準確率，且回答變異性大。相比之下，人類在數量和質量上都明顯優於這些模型，LLMs的錯誤也顯示出非人類特徵。這表明，雖然AI模型在某些應用中有效，但它們的語言理解仍無法與人類相提並論，可能因為無法有效處理語法和語義信息。 PubMed DOI

原始文章

站上相關主題文章列表