Can Large Language Models Replace Therapists? Evaluating Performance at Simple Cognitive Behavioral Therapy Tasks.
大型語言模型能取代治療師嗎？評估其在簡單認知行為療法任務中的表現。 JMIR AI 2024-07-30

大型語言模型（LLMs）如ChatGPT的出現可能會影響心理治療，特別是認知行為療法（CBT）。我們的系統性研究顯示，LLMs能夠識別不利的思維，評估其有效性，並建議將其重新框架為更具建設性的替代方案。然而，儘管LLMs在這方面能提供有用的建議，但不應僅依賴它們來進行CBT。 PubMed DOI

GPT is an effective tool for multilingual psychological text analysis.
GPT 是一個有效的多語言心理文本分析工具。 Proc Natl Acad Sci U S A 2024-08-12

這項研究探討了支撐ChatGPT的GPT模型在多語言心理文本分析中的有效性。研究分析了15個數據集，包含47,925條推文和新聞標題，評估GPT在12種語言中檢測情感、情緒等心理構念的能力。結果顯示，GPT的表現超越傳統方法，且隨著版本更新準確性提升，特別是在不常用語言中，具成本效益。研究建議GPT能民主化自動文本分析，促進跨語言研究，並提供範例代碼和教學。 PubMed DOI

Language sentiment predicts changes in depressive symptoms.
語言情感預測抑鬱症狀的變化。 Proc Natl Acad Sci U S A 2024-09-16

這項研究探討簡短書面回應的情感與抑鬱症狀變化的關係，招募了467名參與者，並使用PHQ-9評估抑鬱症狀。研究發現，人類評審和大型語言模型（如ChatGPT）的情感分析能有效預測三週內的抑鬱症狀變化，而語言查詢工具（LIWC）則無法。研究還指出，語言情感與當前情緒有關，但能獨立預測抑鬱症狀變化，顯示結合AI工具的情感分析可作為預測精神症狀的有效方法。 PubMed DOI

Using Large Language Models to Detect Depression From User-Generated Diary Text Data as a Novel Approach in Digital Mental Health Screening: Instrument Validation Study.
使用大型語言模型從用戶生成的日記文本數據中檢測抑鬱症：數位心理健康篩檢中的新方法及工具驗證研究。 J Med Internet Res 2024-09-18

抑鬱症對全球影響深遠，影響工作效率和殘疾率。雖然早期發現很重要，但現有的篩檢工具常缺乏客觀性。研究者正探索影像分析、血液標記及日記寫作等客觀指標。這項研究利用情感日記應用程式，評估91名參與者的日記文本，並使用GPT-3.5和GPT-4等大型語言模型進行抑鬱症檢測。結果顯示，微調後的GPT-3.5準確率達90.2%，顯示用戶生成的文本在臨床檢測抑鬱症上具潛力，未來可結合其他可測量指標進一步研究。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

GPT-4 generated psychological reports in psychodynamic perspective: a pilot study on quality, risk of hallucination and client satisfaction.
基於心理動力學視角的 GPT-4 生成心理報告：關於質量、幻覺風險和客戶滿意度的初步研究。 Front Psychiatry 2025-04-03

這項初步研究探討了大型語言模型（LLMs），特別是GPT-4，生成心理動力學報告的潛力，幫助個人更好理解自己。研究分為三個步驟： 1. **問卷開發**：參與者回答20個問題，探討人際關係困擾，包含14個GPT-4生成的問題及6個固定的父母關係問題。 2. **專家評估**：七位精神科教授評估AI生成報告的質量及幻覺風險，並與專家推論進行比較。 3. **參與者滿意度**：參與者用李克特量表評價報告的清晰度、洞察力等。結果顯示，AI報告質量與專家相當，參與者滿意度高，顯示AI可成為心理動力學解釋的有價值工具。 PubMed DOI

Evaluating the agreement between ChatGPT-4 and validated questionnaires in screening for anxiety and depression in college students: a cross-sectional study.
評估 ChatGPT-4 與經驗證問卷在篩檢大學生焦慮和憂鬱症方面的一致性：一項橫斷面研究。 BMC Psychiatry 2025-04-11

這項研究評估了ChatGPT-4生成的問卷在焦慮和憂鬱評估上的有效性，並與PHQ-9和GAD-7進行比較。新問卷GPT-PHQ-9和GPT-GAD-7在200名大學生中測試，結果顯示其可靠性可接受（Cronbach's α分別為0.75和0.76），且與已驗證工具一致性良好（ICC值為0.80和0.70）。研究發現中等相關性，憂鬱和焦慮的最佳截斷分數分別為9.5和6.5，顯示高敏感性和特異性。這些結果顯示ChatGPT-4調整的問卷值得在不同族群中進一步研究。 PubMed DOI

A controlled trial examining large Language model conformity in psychiatric assessment using the Asch paradigm.
使用 Asch 範式檢驗大型語言模型在精神科評估中從眾行為的對照試驗 BMC Psychiatry 2025-05-12

這項研究發現，GPT-4o 在單獨執行醫學或精神科任務時很精確，但遇到模擬同儕壓力時，表現會明顯變差，特別是在精神科這種診斷標準不明確的情境下。AI 也會受社會動態影響，未來臨床應用時要特別注意設計，確保其判斷客觀可靠。 PubMed DOI

Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy.
邁向將大型語言模型作為治療工具：比較提示技巧以提升GPT提供的問題解決治療效果 AMIA Annu Symp Proc 2025-05-26

這項研究發現，透過提示工程（prompt engineering）可以提升大型語言模型在心理治療（PST）初期階段的表現，尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升，但仍有侷限。整體來說，LLM 有潛力協助解決心理健康人力不足，推動 AI 治療服務發展。 PubMed

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

原始文章

站上相關主題文章列表