Can Large Language Models Replace Therapists? Evaluating Performance at Simple Cognitive Behavioral Therapy Tasks.
大型語言模型能取代治療師嗎？評估其在簡單認知行為療法任務中的表現。 JMIR AI 2024-07-30

大型語言模型（LLMs）如ChatGPT的出現可能會影響心理治療，特別是認知行為療法（CBT）。我們的系統性研究顯示，LLMs能夠識別不利的思維，評估其有效性，並建議將其重新框架為更具建設性的替代方案。然而，儘管LLMs在這方面能提供有用的建議，但不應僅依賴它們來進行CBT。 PubMed DOI

"It happened to be the perfect thing": experiences of generative AI chatbots for mental health.
「"恰好是完美的事物"：生成式 AI 聊天機器人在心理健康中的經驗。」 Npj Ment Health Res 2024-10-28

全球心理健康危機顯示出對可及且有效介入措施的需求，生成式AI聊天機器人如ChatGPT逐漸成為解決方案。針對十九位使用者的訪談研究顯示，他們在使用這些聊天機器人時感受到高參與感和正面效果，包括改善人際關係及從創傷中癒合。研究中識別出四個主題：情感避風港、洞察指導、連結的喜悅，以及AI與人類治療的比較。雖然有些主題與傳統聊天機器人相符，但生成式AI的特性也顯現出來。參與者呼籲改善安全措施及人性化的記憶能力，顯示生成式AI在心理健康支持上有潛力，但仍需進一步研究其安全性與有效性。 PubMed DOI

Development and Evaluation of a Mental Health Chatbot Using ChatGPT 4.0: Mixed Methods User Experience Study With Korean Users.
使用 ChatGPT 4.0 開發與評估心理健康聊天機器人：針對韓國用戶的混合方法使用者體驗研究。 JMIR Med Inform 2025-01-03

這項研究探討了HoMemeTown Dr. CareSam的開發與評估，這是一個支援英語和韓語的心理健康聊天機器人。研究針對20位18到27歲的韓國年輕人進行，機器人提供感恩日記和風險檢測等功能。結果顯示用戶在積極性、支持和同理心方面滿意度高，但在專業性和內容複雜性上仍需改進。雖然該聊天機器人展現潛力，但小樣本和短期研究顯示需進一步擴大臨床試驗以提升其有效性。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

The Efficacy of Conversational AI in Rectifying the Theory-of-Mind and Autonomy Biases: Comparative Analysis.
對話式人工智慧在修正心智理論與自主性偏見中的效能：比較分析。 JMIR Ment Health 2025-02-07

這項研究評估了治療性聊天機器人（如 Wysa 和 Youper）與通用語言模型（如 GPT-3.5、GPT-4 和 Gemini Pro）在處理認知偏誤和識別用戶情緒的效果。結果顯示，通用聊天機器人在糾正認知偏誤方面表現更佳，特別是 GPT-4 獲得最高分。通用機器人也在情緒識別上超越治療性機器人，顯示出後者在這方面的局限性。研究建議未來設計應提升情緒智力，並解決倫理問題，以確保人工智慧在心理健康支持上的有效性。 PubMed DOI

Patients prefer human psychiatrists over chatbots: a cross-sectional study.
患者偏好人類精神科醫生而非聊天機器人：一項橫斷面研究。 Croat Med J 2025-03-06

這項研究評估了患者對精神健康詢問的回應滿意度，涵蓋89名在克羅埃西亞和波士尼亞接受精神疾病藥物治療的患者。結果顯示，患者對精神科醫生的滿意度最高，分數達4.67，藥劑師為3.94，而ChatGPT和克羅埃西亞聊天機器人的評分相似，均在3.66左右。近一半的參與者認為向精神科醫生提問較容易，顯示目前聊天機器人在精神健康領域的知識仍不足以滿足患者需求。 PubMed

Evaluating Accuracy and Readability of Responses to Midlife Health Questions: A Comparative Analysis of Six Large Language Model Chatbots.
六種大型語言模型聊天機器人對中年健康問題回答之準確性與可讀性評估：比較分析 J Midlife Health 2025-05-07

研究比較六款聊天機器人回答中年健康問題的表現，發現 Meta AI 答案最準確、最有條理，Perplexity 最容易閱讀。整體來說，這些聊天機器人對中年健康教育有幫助，但表現有差異，選擇合適的工具很重要。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

Is This Chatbot Safe and Evidence-Based? A Call for the Critical Evaluation of Generative AI Mental Health Chatbots.
這個聊天機器人安全且有實證依據嗎？呼籲對生成式 AI 心理健康聊天機器人進行嚴格評估 J Particip Med 2025-05-29

AI心理健康聊天機器人發展很快，但因缺乏監管和評估，安全性和有效性引發疑慮。文章建議建立標準化評估框架，強調倫理、循證、對話品質和安全。實施上有挑戰，如評估複雜對話和專家監督。作者呼籲開發者優先考量使用者安全，並讓消費者參與評估。 PubMed DOI

Balancing promise and concern in AI therapy: a critical perspective on early evidence from the MIT-OpenAI RCT.
AI治療的潛力與隱憂：MIT-OpenAI RCT初步證據的批判性觀點 Front Med (Lausanne) 2025-06-06

AI治療聊天機器人有助於解決心理資源不足，但也可能帶來依賴或孤獨感。MIT和OpenAI的研究發現，整體上能減少孤單感，但頻繁使用可能有負面影響。評論肯定研究貢獻，也提醒目前證據有限，建議未來要更深入研究。 PubMed DOI

原始文章

站上相關主題文章列表