原始文章

這項研究發現,聊天機器人雖然能提供基本的情感支持和心理教育,但回應較制式,無法深入探討或安全處理危機。相較之下,治療師會引導來談者多說明,介入方式也更細緻。結論是,目前聊天機器人還不能取代專業心理健康照護,尤其遇到危機時更要小心使用。 PubMed DOI


站上相關主題文章列表

這項研究探討了HoMemeTown Dr. CareSam的開發與評估,這是一個支援英語和韓語的心理健康聊天機器人。研究針對20位18到27歲的韓國年輕人進行,機器人提供感恩日記和風險檢測等功能。結果顯示用戶在積極性、支持和同理心方面滿意度高,但在專業性和內容複雜性上仍需改進。雖然該聊天機器人展現潛力,但小樣本和短期研究顯示需進一步擴大臨床試驗以提升其有效性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究評估了治療性聊天機器人(如 Wysa 和 Youper)與通用語言模型(如 GPT-3.5、GPT-4 和 Gemini Pro)在處理認知偏誤和識別用戶情緒的效果。結果顯示,通用聊天機器人在糾正認知偏誤方面表現更佳,特別是 GPT-4 獲得最高分。通用機器人也在情緒識別上超越治療性機器人,顯示出後者在這方面的局限性。研究建議未來設計應提升情緒智力,並解決倫理問題,以確保人工智慧在心理健康支持上的有效性。 PubMed DOI

這項研究評估了患者對精神健康詢問的回應滿意度,涵蓋89名在克羅埃西亞和波士尼亞接受精神疾病藥物治療的患者。結果顯示,患者對精神科醫生的滿意度最高,分數達4.67,藥劑師為3.94,而ChatGPT和克羅埃西亞聊天機器人的評分相似,均在3.66左右。近一半的參與者認為向精神科醫生提問較容易,顯示目前聊天機器人在精神健康領域的知識仍不足以滿足患者需求。 PubMed

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI

研究比較六款聊天機器人回答中年健康問題的表現,發現 Meta AI 答案最準確、最有條理,Perplexity 最容易閱讀。整體來說,這些聊天機器人對中年健康教育有幫助,但表現有差異,選擇合適的工具很重要。 PubMed DOI

這項研究發現,ChatGPT在心理諮詢上的專業度、同理心和人性化表現,跟人類諮商師差不多。不過,AI還是能被辨識出來,主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說,ChatGPT有潛力協助心理健康,但還有不少實務和倫理挑戰要解決。 PubMed DOI

AI心理健康聊天機器人發展很快,但因缺乏監管和評估,安全性和有效性引發疑慮。文章建議建立標準化評估框架,強調倫理、循證、對話品質和安全。實施上有挑戰,如評估複雜對話和專家監督。作者呼籲開發者優先考量使用者安全,並讓消費者參與評估。 PubMed DOI

AI治療聊天機器人有助於解決心理資源不足,但也可能帶來依賴或孤獨感。MIT和OpenAI的研究發現,整體上能減少孤單感,但頻繁使用可能有負面影響。評論肯定研究貢獻,也提醒目前證據有限,建議未來要更深入研究。 PubMed DOI

現在越來越多人用AI心理治療聊天機器人,但品質還沒被好好評估。作者開發了CAPE評估架構,從8個面向來看這些機器人。實際評測4款熱門GPT聊天機器人後,發現它們在互動、好用度和對話技巧表現不錯,但在治療專業、風險控管和資料透明度都很弱,尤其隱私和防傷害措施很不足。CAPE能幫助大家判斷品質,顯示這些機器人安全和隱私還有很大進步空間。 PubMed DOI