原始文章

這項研究評估了治療性聊天機器人(如 Wysa 和 Youper)與通用語言模型(如 GPT-3.5、GPT-4 和 Gemini Pro)在處理認知偏誤和識別用戶情緒的效果。結果顯示,通用聊天機器人在糾正認知偏誤方面表現更佳,特別是 GPT-4 獲得最高分。通用機器人也在情緒識別上超越治療性機器人,顯示出後者在這方面的局限性。研究建議未來設計應提升情緒智力,並解決倫理問題,以確保人工智慧在心理健康支持上的有效性。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這篇評論指出ChatGPT在數位心理健康介入中的角色不斷演變,特別是在臨床心理學領域。隨著2023年和2024年的進步,GPT-3.5和GPT-4.0在解讀情感、識別憂鬱症及處理治療啟動因素上展現了有效性。研究顯示,對話式人工智慧能減少心理健康照護中的障礙,如污名化和可及性問題。不過,評論也提醒我們要謹慎,因為不同模型的熟練度各異,整合人工智慧進心理健康實務中既有潛力也面臨挑戰。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI

這項研究發現,主流AI語言模型在評估退伍軍人自殺風險和治療建議上,表現常與專業人員不同,容易高估或低估風險,且各AI模型間差異大。雖然AI有時能與人類判斷一致,但治療建議不夠穩定,像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具,不能取代專業判斷,臨床應用前還需要更多研究和專家監督。 PubMed DOI

這項研究發現,頂尖聊天機器人在難治型憂鬱症治療建議上,和專業指引高度一致,但有明顯偏誤,像是過度推薦某些藥物、低估其他選項。顯示AI有潛力協助精神醫療,但也有風險,建議多用幾種模型來降低偏誤、提升可靠性。 PubMed DOI

這項研究比較了ChatGPT-3.5、4和Google Gemini在辨識邊緣型人格障礙(BPD)症狀及對患者態度上的表現。結果發現,AI雖然較有同理心,但也帶有更多偏見,例如認為BPD較慢性、不信任患者,且有性別刻板印象(特別是Gemini對女性更負面)。研究呼籲在心理健康應用AI前,需提升透明度並納入專家參與訓練,以減少偏見。 PubMed DOI

這項研究比較ChatGPT-4和Gemini在災難情境下提供心理急救的能力,結果顯示ChatGPT-4表現較佳,幻覺率也較低。兩者在傾聽和引導協助方面差不多,但Gemini幻覺率偏高,可能有安全疑慮。未來還需加強可靠性並整合語音功能,才能更廣泛應用。 PubMed DOI

這項研究發現,聊天機器人雖然能提供基本的情感支持和心理教育,但回應較制式,無法深入探討或安全處理危機。相較之下,治療師會引導來談者多說明,介入方式也更細緻。結論是,目前聊天機器人還不能取代專業心理健康照護,尤其遇到危機時更要小心使用。 PubMed DOI

這項研究發現,ChatGPT在心理諮詢上的專業度、同理心和人性化表現,跟人類諮商師差不多。不過,AI還是能被辨識出來,主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說,ChatGPT有潛力協助心理健康,但還有不少實務和倫理挑戰要解決。 PubMed DOI

現在越來越多人用AI心理治療聊天機器人,但品質還沒被好好評估。作者開發了CAPE評估架構,從8個面向來看這些機器人。實際評測4款熱門GPT聊天機器人後,發現它們在互動、好用度和對話技巧表現不錯,但在治療專業、風險控管和資料透明度都很弱,尤其隱私和防傷害措施很不足。CAPE能幫助大家判斷品質,顯示這些機器人安全和隱私還有很大進步空間。 PubMed DOI