Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Spontaneous Emergence of Agent Individuality Through Social Interactions in Large Language Model-Based Communities.
大型語言模型社群中透過社交互動自發性地出現代理個體性。 Entropy (Basel) 2025-01-08

這項研究探討大型語言模型（LLM）代理的個體性和主動性，強調不再依賴預先定義的特徵。透過模擬一群協作的LLM代理，研究分析了社會規範、合作和個性特徵如何自發發展。結果顯示，這些代理會創造「幻覺」和標籤，增強溝通，並使互動中出現更豐富的詞彙。隨著交流進行，代理的情感變化，形成社群，最終導致個性的演變。這種方法為分析集體人工智慧及其動態提供了新視角。 PubMed DOI

The Efficacy of Conversational AI in Rectifying the Theory-of-Mind and Autonomy Biases: Comparative Analysis.
對話式人工智慧在修正心智理論與自主性偏見中的效能：比較分析。 JMIR Ment Health 2025-02-07

這項研究評估了治療性聊天機器人（如 Wysa 和 Youper）與通用語言模型（如 GPT-3.5、GPT-4 和 Gemini Pro）在處理認知偏誤和識別用戶情緒的效果。結果顯示，通用聊天機器人在糾正認知偏誤方面表現更佳，特別是 GPT-4 獲得最高分。通用機器人也在情緒識別上超越治療性機器人，顯示出後者在這方面的局限性。研究建議未來設計應提升情緒智力，並解決倫理問題，以確保人工智慧在心理健康支持上的有效性。 PubMed DOI

From Llama to language: prompt-engineering allows general-purpose artificial intelligence to rate narratives like expert psychologists.
從 Llama 到語言：提示工程使通用人工智慧能夠像專家心理學家一樣評估敘事。 Front Artif Intell 2025-02-21

這項研究探討了人工智慧在敘事人格評估中的潛力，特別是使用社會認知與物件關係量表 - 總體評分法（SCORS-G）。研究發現，透過精煉的提示，AI聊天機器人能更準確地評估敘事，尤其在總體層面上表現良好。專家們改進的提示在評估者間的可靠性和與既定評分的一致性上優於基本提示。總體來說，這顯示AI能有效減輕臨床醫生和研究人員在使用SCORS-G時的時間和資源負擔，並提出未來研究的方向。 PubMed DOI

On the emergent capabilities of ChatGPT 4 to estimate personality traits.
ChatGPT 4 在估計人格特質方面的緊急能力。 Front Artif Intell 2025-02-28

這項研究探討了ChatGPT 4在透過書面文本評估人格特質的有效性，使用了兩個公開數據集，包含文本和基於五大人格模型的自我評估。研究目的是評估ChatGPT 4在十一點量表上預測人格特質的準確性，並與作者的自我評估進行比較。結果顯示，ChatGPT 4能中等程度推斷人格特質，但在判斷輸入適當性方面有困難。研究建議改進基準測試方法，以提升評估過程，並強調大型語言模型在人格評估中的潛力。 PubMed DOI

Towards AI-Powered Applications: The Development of a Personalised LLM for HRI and HCI.
朝向 AI 驅動的應用：為人機互動 (HRI) 和人機界面 (HCI) 開發個性化的 LLM。 Sensors (Basel) 2025-04-12

這項研究介紹了一種新的個人化大型語言模型（PLLM）代理，旨在提升大型語言模型在人體與機器人及人機互動中的整合能力。雖然現有研究多集中於技術層面，但在適應個別用戶情境上仍面臨挑戰。我們提出利用特定領域數據來個人化模型，並透過NeuroSense EEG數據集進行驗證。研究結果顯示，PLLM在醫療、教育及輔助技術等領域具有效用，並探討了相關的倫理考量，如數據隱私問題。這標誌著人工智慧在適應性和個人化上的重要進展。 PubMed DOI

Artificial Intelligence and the Illusion of Understanding: A Systematic Review of Theory of Mind and Large Language Models.
人工智慧與理解的錯覺：Theory of Mind 與大型語言模型的系統性回顧 Cyberpsychol Behav Soc Netw 2025-05-07

大型語言模型像GPT-4雖然能解簡單的心智理論題目，但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式，並不代表真的理解。現有研究多用文字題，忽略人類社會認知的多元面向。這篇評論提醒大家，LLMs不等於真正的人類心智理論，未來評估方式要更貼近現實。 PubMed DOI

A LLM-Based Chatbot for Mindfulness Practice with Older Adults: A Development and Usability Study.
以大型語言模型（LLM）為基礎的正念練習聊天機器人於年長者之開發與可用性研究 Stud Health Technol Inform 2025-05-17

這項研究開發了一個用大型語言模型打造的聊天機器人，專門幫助年長者練習正念。研究先讓15位年長者用一般正念App，收集他們對語音、個性、互動性和操作便利的意見，再用這些回饋微調ChatGPT，設計出AI正念教練，並邀請年長者參與評估。 PubMed DOI

Large language models are proficient in solving and creating emotional intelligence tests.
大型語言模型在解決與創建情緒智力測驗方面表現優異。 Commun Psychol 2025-05-21

最新研究發現，像ChatGPT-4這類大型語言模型，在標準情緒智力測驗的表現比人類還好，正確率高達81%，遠超人類的56%。此外，AI也能自己出題，難度跟原本題目差不多。整體來說，AI不只會答題，連出題都很厲害，顯示它對人類情緒真的很懂。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

原始文章

站上相關主題文章列表