Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Generative AI Meets Animal Welfare: Evaluating GPT-4 for Pet Emotion Detection.
生成式人工智慧與動物福利：評估 GPT-4 在寵物情感檢測中的應用。 Animals (Basel) 2025-02-26

這項研究探討了GPT-4在檢測和分類狗的情緒方面的效果。研究分為兩個階段，第一階段針對各種寵物情緒分類，準確率為50.2%；第二階段專注於狗，準確率提升至76.7%，因為使用了更好的提示和專門數據集。分析顯示，正確預測通常與視覺線索一致，但模糊案例仍具挑戰性。整體而言，這項研究顯示生成式AI在動物情緒檢測的潛力，並強調針對性數據集和提示設計的重要性。 PubMed DOI

GPT-4 generated psychological reports in psychodynamic perspective: a pilot study on quality, risk of hallucination and client satisfaction.
基於心理動力學視角的 GPT-4 生成心理報告：關於質量、幻覺風險和客戶滿意度的初步研究。 Front Psychiatry 2025-04-03

這項初步研究探討了大型語言模型（LLMs），特別是GPT-4，生成心理動力學報告的潛力，幫助個人更好理解自己。研究分為三個步驟： 1. **問卷開發**：參與者回答20個問題，探討人際關係困擾，包含14個GPT-4生成的問題及6個固定的父母關係問題。 2. **專家評估**：七位精神科教授評估AI生成報告的質量及幻覺風險，並與專家推論進行比較。 3. **參與者滿意度**：參與者用李克特量表評價報告的清晰度、洞察力等。結果顯示，AI報告質量與專家相當，參與者滿意度高，顯示AI可成為心理動力學解釋的有價值工具。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Exploring the potential of large language models to understand interpersonal emotion regulation strategies from narratives.
運用大型語言模型探索從敘事中理解人際情緒調節策略的潛力 Emotion 2025-04-17

這項研究發現，經過優化指令後，AI語言模型在辨識故事中的人際情緒調節策略，準確度已接近人工，但在不同情緒和策略上仍有落差。研究強調AI分析敘事資料有潛力，但設計指令和驗證結果時要特別小心。 PubMed DOI

Artificial Intelligence and the Illusion of Understanding: A Systematic Review of Theory of Mind and Large Language Models.
人工智慧與理解的錯覺：Theory of Mind 與大型語言模型的系統性回顧 Cyberpsychol Behav Soc Netw 2025-05-07

大型語言模型像GPT-4雖然能解簡單的心智理論題目，但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式，並不代表真的理解。現有研究多用文字題，忽略人類社會認知的多元面向。這篇評論提醒大家，LLMs不等於真正的人類心智理論，未來評估方式要更貼近現實。 PubMed DOI

Large language models are proficient in solving and creating emotional intelligence tests.
大型語言模型在解決與創建情緒智力測驗方面表現優異。 Commun Psychol 2025-05-21

最新研究發現，像ChatGPT-4這類大型語言模型，在標準情緒智力測驗的表現比人類還好，正確率高達81%，遠超人類的56%。此外，AI也能自己出題，難度跟原本題目差不多。整體來說，AI不只會答題，連出題都很厲害，顯示它對人類情緒真的很懂。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

Evaluating the capacity of large language models to interpret emotions in images.
大型語言模型解讀影像中情緒能力之評估 PLoS One 2025-06-03

這項研究發現，GPT-4在辨識圖片情緒（愉悅度和激發度）時，表現和人類相近，但對細微情緒還是有點吃力。這代表未來用GPT-4來自動篩選和驗證情緒刺激，有機會大幅減少人力、提升效率。 PubMed DOI

原始文章

站上相關主題文章列表