Comparing the Efficacy and Efficiency of Human and Generative AI: Qualitative Thematic Analyses.
比較人類與生成式人工智慧的效能與效率：質性主題分析。 JMIR AI 2024-08-02

這項研究探討生成式人工智慧（GenAI），特別是ChatGPT和Bard，在數位健康介入中對文本數據質性分析的影響。研究分析了40條針對HIV患者的SMS提醒，發現GenAI與人類編碼者的主題一致性為71%，但在演繹分析中，ChatGPT降至50%，Bard為58%。雖然GenAI能顯著縮短分析時間至20分鐘，但在人類編碼者在細緻主題識別上表現更佳。研究建議結合人類洞察與AI效率，以提升質性研究的效果，並強調未來需關注AI使用的倫理問題。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

AI can outperform humans in predicting correlations between personality items.
AI 在預測人格項目之間的相關性方面可以超越人類。 Commun Psychol 2025-02-12

這項研究評估了專門的深度神經網絡（如 PersonalityMap）與大型語言模型（如 GPT-4o 和 Claude 3 Opus）在預測人格問卷項目相關性上的有效性。所有 AI 模型的表現都顯著超越大多數普通人和學術專家。透過使用每個群體的中位數預測，可以提升個別預測的準確性，展現「群眾智慧」的效果。結果顯示，PersonalityMap 和學術專家在中位數預測上通常優於 LLMs 和普通人，強調了專門模型在特定任務中的價值。 PubMed DOI

From Llama to language: prompt-engineering allows general-purpose artificial intelligence to rate narratives like expert psychologists.
從 Llama 到語言：提示工程使通用人工智慧能夠像專家心理學家一樣評估敘事。 Front Artif Intell 2025-02-21

這項研究探討了人工智慧在敘事人格評估中的潛力，特別是使用社會認知與物件關係量表 - 總體評分法（SCORS-G）。研究發現，透過精煉的提示，AI聊天機器人能更準確地評估敘事，尤其在總體層面上表現良好。專家們改進的提示在評估者間的可靠性和與既定評分的一致性上優於基本提示。總體來說，這顯示AI能有效減輕臨床醫生和研究人員在使用SCORS-G時的時間和資源負擔，並提出未來研究的方向。 PubMed DOI

Leveraging on large language model to classify sentences: a case study applying STAGES scoring methodology for sentence completion test on ego development.
利用大型語言模型進行句子分類：應用 STAGES 評分方法於自我發展的句子完成測試案例研究。 Front Psychol 2025-02-21

這項案例研究探討大型語言模型（LLMs）在自我發展測量中的應用，這對成人個性成長至關重要。研究評估專家與LLMs生成的自我發展階段分類的一致性，結果顯示加權Kappa值為0.779，顯示出顯著一致性，證明LLMs能有效自動化此過程。不過，在單句分析上仍有改進空間。研究結果顯示，自動化系統能提供穩健的數據，適用於多層次分析，對組織心理學和企業分析具價值。整體而言，這方法論可應用於其他LLMs的分類任務，展現其在文本分析中的潛力。 PubMed DOI

Deductively coding psychosocial autopsy interview data using a few-shot learning large language model.
使用少量學習的大型語言模型對心理社會驗屍訪談數據進行演繹編碼。 Front Public Health 2025-03-06

這項研究探討大型語言模型（LLM）在質性研究中的應用，特別是針對自殺的心理社會驗屍。研究進行了38次半結構式訪談，評估LLM在編碼和總結自殺喪失者訪談數據的能力。結果顯示，LLM與人類研究者在二元分類上有高一致性（準確率0.84），總結的評價也有80%為正面。研究建議將LLM與人類審查結合，以提高效率，並呼籲未來在不同背景下進一步探索這些發現。 PubMed DOI

Large Language Models' Ability to Assess Main Concepts in Story Retelling: A Proof-of-Concept Comparison of Human Versus Machine Ratings.
大型語言模型評估故事重述主要概念的能力：人類與機器評分的概念驗證比較。 Am J Speech Lang Pathol 2025-03-31

這項研究探討了如何有效測量失語症患者的溝通變化，使用了簡短的交易成功評估（BATS）和故事重述的自動化分析。研究比較了三種大型語言模型（GPT-4、GPT-4o 和 Llama-3-70B）在評分故事重述主要概念的表現，並與人類評分者進行對比。結果顯示，LLM的評分與人類評分高度相關，顯示這些模型能可靠評估故事重述。研究建議，自動化工具可減輕臨床評分負擔，並改變失語症介入和研究的方法。 PubMed DOI

Exploring the potential of large language models to understand interpersonal emotion regulation strategies from narratives.
運用大型語言模型探索從敘事中理解人際情緒調節策略的潛力 Emotion 2025-04-17

這項研究發現，經過優化指令後，AI語言模型在辨識故事中的人際情緒調節策略，準確度已接近人工，但在不同情緒和策略上仍有落差。研究強調AI分析敘事資料有潛力，但設計指令和驗證結果時要特別小心。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

Development and validation of large language model rating scales for automatically transcribed psychological therapy sessions.
自動轉錄心理治療會談之大型語言模型評分量表的開發與驗證 Sci Rep 2025-08-12

這項研究用大型語言模型（LLM）自動評分治療逐字稿中的心理構念（如病人參與度），取代傳統人工評分。實驗用 Llama 3.1 8B 分析 1,131 場治療，結果顯示 LLM 評分具高信度與效度，且與治療結果高度相關。這方法不僅減輕參與者負擔、保護隱私，也為心理評估帶來新可能。 PubMed DOI

原始文章

站上相關主題文章列表