原始文章

這項研究發現,GPT只能用人們寫下的負面事件解釋來預測憂鬱症狀變化,效果有限,表現也不比傳統問卷好。主要原因是,GPT難以抓到人們對壞事是否能改變的看法,而這正是影響憂鬱風險的關鍵。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究評估了治療性聊天機器人(如 Wysa 和 Youper)與通用語言模型(如 GPT-3.5、GPT-4 和 Gemini Pro)在處理認知偏誤和識別用戶情緒的效果。結果顯示,通用聊天機器人在糾正認知偏誤方面表現更佳,特別是 GPT-4 獲得最高分。通用機器人也在情緒識別上超越治療性機器人,顯示出後者在這方面的局限性。研究建議未來設計應提升情緒智力,並解決倫理問題,以確保人工智慧在心理健康支持上的有效性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI

這項初步研究探討了大型語言模型(LLMs),特別是GPT-4,生成心理動力學報告的潛力,幫助個人更好理解自己。研究分為三個步驟: 1. **問卷開發**:參與者回答20個問題,探討人際關係困擾,包含14個GPT-4生成的問題及6個固定的父母關係問題。 2. **專家評估**:七位精神科教授評估AI生成報告的質量及幻覺風險,並與專家推論進行比較。 3. **參與者滿意度**:參與者用李克特量表評價報告的清晰度、洞察力等。 結果顯示,AI報告質量與專家相當,參與者滿意度高,顯示AI可成為心理動力學解釋的有價值工具。 PubMed DOI

這項研究評估了ChatGPT-4生成的問卷在焦慮和憂鬱評估上的有效性,並與PHQ-9和GAD-7進行比較。新問卷GPT-PHQ-9和GPT-GAD-7在200名大學生中測試,結果顯示其可靠性可接受(Cronbach's α分別為0.75和0.76),且與已驗證工具一致性良好(ICC值為0.80和0.70)。研究發現中等相關性,憂鬱和焦慮的最佳截斷分數分別為9.5和6.5,顯示高敏感性和特異性。這些結果顯示ChatGPT-4調整的問卷值得在不同族群中進一步研究。 PubMed DOI

這項研究發現,經過優化指令後,AI語言模型在辨識故事中的人際情緒調節策略,準確度已接近人工,但在不同情緒和策略上仍有落差。研究強調AI分析敘事資料有潛力,但設計指令和驗證結果時要特別小心。 PubMed DOI

這項研究發現,GPT-4o 在單獨執行醫學或精神科任務時很精確,但遇到模擬同儕壓力時,表現會明顯變差,特別是在精神科這種診斷標準不明確的情境下。AI 也會受社會動態影響,未來臨床應用時要特別注意設計,確保其判斷客觀可靠。 PubMed DOI

這項研究發現,ChatGPT-4在調整和執行常見的老年人心理健康問卷時,表現和傳統方法有中到高度的一致性與可靠性。顯示ChatGPT-4有機會成為心理健康評估的輔助工具,但還需要更多研究來驗證其廣泛應用的可行性。 PubMed DOI

這項研究發現,透過提示工程(prompt engineering)可以提升大型語言模型在心理治療(PST)初期階段的表現,尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升,但仍有侷限。整體來說,LLM 有潛力協助解決心理健康人力不足,推動 AI 治療服務發展。 PubMed

這項研究發現,ChatGPT在心理諮詢上的專業度、同理心和人性化表現,跟人類諮商師差不多。不過,AI還是能被辨識出來,主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說,ChatGPT有潛力協助心理健康,但還有不少實務和倫理挑戰要解決。 PubMed DOI