Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Examination of ChatGPT's Performance as a Data Analysis Tool.
ChatGPT 作為數據分析工具的性能檢驗。 Educ Psychol Meas 2025-01-06

這項研究評估了OpenAI的AI對話工具ChatGPT在數據分析中的有效性，特別是探索性因素分析（EFA）。研究人員生成了不同條件下的模擬數據，並在兩次不同時間點使用ChatGPT-4進行分析，與R語言的結果進行比較。結果顯示，ChatGPT在計算任務上表現良好，尤其是KMO值和因素載荷的計算，但在確定多維結構時存在一些偏差。因此，研究人員在依賴AI進行決策時應保持謹慎。總體而言，ChatGPT在簡單計算任務上顯示出潛力。 PubMed DOI

From Llama to language: prompt-engineering allows general-purpose artificial intelligence to rate narratives like expert psychologists.
從 Llama 到語言：提示工程使通用人工智慧能夠像專家心理學家一樣評估敘事。 Front Artif Intell 2025-02-21

這項研究探討了人工智慧在敘事人格評估中的潛力，特別是使用社會認知與物件關係量表 - 總體評分法（SCORS-G）。研究發現，透過精煉的提示，AI聊天機器人能更準確地評估敘事，尤其在總體層面上表現良好。專家們改進的提示在評估者間的可靠性和與既定評分的一致性上優於基本提示。總體來說，這顯示AI能有效減輕臨床醫生和研究人員在使用SCORS-G時的時間和資源負擔，並提出未來研究的方向。 PubMed DOI

Evaluating the agreement between ChatGPT-4 and validated questionnaires in screening for anxiety and depression in college students: a cross-sectional study.
評估 ChatGPT-4 與經驗證問卷在篩檢大學生焦慮和憂鬱症方面的一致性：一項橫斷面研究。 BMC Psychiatry 2025-04-11

這項研究評估了ChatGPT-4生成的問卷在焦慮和憂鬱評估上的有效性，並與PHQ-9和GAD-7進行比較。新問卷GPT-PHQ-9和GPT-GAD-7在200名大學生中測試，結果顯示其可靠性可接受（Cronbach's α分別為0.75和0.76），且與已驗證工具一致性良好（ICC值為0.80和0.70）。研究發現中等相關性，憂鬱和焦慮的最佳截斷分數分別為9.5和6.5，顯示高敏感性和特異性。這些結果顯示ChatGPT-4調整的問卷值得在不同族群中進一步研究。 PubMed DOI

Exploring the potential of large language models to understand interpersonal emotion regulation strategies from narratives.
運用大型語言模型探索從敘事中理解人際情緒調節策略的潛力 Emotion 2025-04-17

這項研究發現，經過優化指令後，AI語言模型在辨識故事中的人際情緒調節策略，準確度已接近人工，但在不同情緒和策略上仍有落差。研究強調AI分析敘事資料有潛力，但設計指令和驗證結果時要特別小心。 PubMed DOI

LLM-based robot personality simulation and cognitive system.
基於LLM的機器人個性模擬與認知系統 Sci Rep 2025-05-16

這項研究開發出一套結合 ChatGPT-4 的認知型機器人架構，能模擬人類個性、情緒、動機、注意力和記憶。機器人可處理文字和影像，並根據設定的個性回應，還能用文件嵌入技術實現長期記憶。個性模擬參考心理學理論，並用 Big Five 測驗驗證。Mobi 機器人展現出先進的心智理論，能靈活應對社交互動，對話自然又有意圖。 PubMed DOI

Evaluating the Agreement Between ChatGPT-4 and Validated Mental Health Scales in Older Adults: A Cross-Sectional Study.
ChatGPT-4 與經驗證心理健康量表於年長者間一致性的評估：一項橫斷面研究 Am J Geriatr Psychiatry 2025-05-20

這項研究發現，ChatGPT-4在調整和執行常見的老年人心理健康問卷時，表現和傳統方法有中到高度的一致性與可靠性。顯示ChatGPT-4有機會成為心理健康評估的輔助工具，但還需要更多研究來驗證其廣泛應用的可行性。 PubMed DOI

Large language models are proficient in solving and creating emotional intelligence tests.
大型語言模型在解決與創建情緒智力測驗方面表現優異。 Commun Psychol 2025-05-21

最新研究發現，像ChatGPT-4這類大型語言模型，在標準情緒智力測驗的表現比人類還好，正確率高達81%，遠超人類的56%。此外，AI也能自己出題，難度跟原本題目差不多。整體來說，AI不只會答題，連出題都很厲害，顯示它對人類情緒真的很懂。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

原始文章

站上相關主題文章列表