原始文章

一項研究評估了十一個大型語言模型(LLMs),使用40個專門的錯誤信念任務,這些任務對於評估人類的心智理論(ToM)非常重要。結果顯示,較舊的模型無法解決任何任務,而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下,ChatGPT-4的成功率達到75%,與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品,預示著更先進的人工智慧的崛起,帶來正負面影響。 PubMed DOI


站上相關主題文章列表

研究人員測試人類推理和決策,發現大型語言模型展現出人類直覺思維和錯誤特徵。ChatGPT-3.5和4表現準確,避免常見陷阱。模型使用上下文進行推理,類似人們使用記事本思考,即使沒有支持仍保持準確。研究顯示,心理學方法可揭示大型語言模型能力新見解。 PubMed DOI

討論了最新研究,認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確,且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證,專注自然語言溝通可改變心理健康評估。 PubMed DOI

研究發現使用GPT-3.5-turbo和GPT-4模型模擬兒童語言發展,模型表現逐漸提升,接近真實兒童。GPT-4表現與兒童相似,有時更準確。任務、提示和模型選擇影響結果,溫度和性別影響不同。隨著模擬兒童年齡增長,語言複雜度也增加。總結來說,研究顯示語言模型能成功模擬不同角色。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

這項研究指出,阿斯伯格症兒童在理解諷刺等細微溝通上面臨挑戰,儘管他們的語言能力不錯。研究者透過特定測試來區分阿斯伯格症與其他狀況,如注意力不足過動症(ADHD),主要針對隱喻和諷刺的理解。最近對大型語言模型的評估顯示,這些模型在隱喻理解上有所進步,但在諷刺方面卻沒有相同的進展,可能需要不同的方法,與大腦情感處理有關。因此,為大型語言模型設計針對性訓練策略,提升其理解諷刺的能力,對於模擬人類認知過程非常重要。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI

這項研究針對大型語言模型(LLMs),如GPT-3.5、GPT-4、Claude2和Llama2的智力進行調查,特別關注前額葉功能。結果顯示,雖然GPT-3.5在某些領域表現不錯,但在計畫和理解意圖上不太穩定,Claude2也有類似情況。相對之下,Llama2在大部分測試中表現不佳。值得一提的是,GPT-4在所有任務中表現良好,顯示出更接近人類的認知能力。研究證實,傳統神經心理測試能有效評估LLM的表現。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

這項初步研究探討了大型語言模型(LLMs),特別是ChatGPT 3.5和ChatGPT-4,在心智理論(ToM)方面的能力,並與自閉症譜系障礙(ASD)及典型發展(TD)個體進行比較。研究發現: 1. 兩個LLMs在理解心理狀態的準確性上高於ASD組,但ChatGPT-3.5在複雜心理狀態上表現不佳。 2. ChatGPT-3.5在情感狀態識別上低於TD個體,尤其是負面情緒,但與ASD組相似。ChatGPT-4有所改善,但仍難以識別悲傷和憤怒。 3. 兩者的對話風格冗長且重複,類似高功能自閉症個體。 研究顯示LLMs在理解心理和情感狀態的潛力及其局限性,對ASD的臨床應用有影響。 PubMed DOI

這項研究評估了七種大型語言模型(LLMs)在新基準上的理解能力,要求它們回答基於短文本的問題,並與400名人類的回答進行比較。結果顯示,這些模型的表現僅達到隨機準確率,且回答變異性大。相比之下,人類在數量和質量上都明顯優於這些模型,LLMs的錯誤也顯示出非人類特徵。這表明,雖然AI模型在某些應用中有效,但它們的語言理解仍無法與人類相提並論,可能因為無法有效處理語法和語義信息。 PubMed DOI