原始文章

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現,發現它們都容易高估風險,但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師,GPT-4o表現最好。雖然AI有潛力協助心理健康分級,但還是需要專業人員把關。 PubMed DOI


站上相關主題文章列表

這項研究探討了不同人工智慧模型在精神醫學診斷的表現,包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響,準確診斷常常困難。研究使用20個DSM-5的臨床案例,結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型,尤其在診斷精神病和雙相情感障礙方面表現突出,但在某些情況下則不佳。研究建議,人工智慧有潛力改善精神科診斷,但其他模型需進一步改進,未來應擴展數據集以增強診斷能力。 PubMed DOI

這項研究探討了人工智慧(AI)語言模型在診斷兒童焦慮的有效性,並與一般醫生進行比較。研究發現,AI工具在識別焦慮症方面的成功率明顯高於醫生,特別是Claude.AI和Gemini表現最佳。雖然40%的醫生偏好在診所內處理案例,但AI通常建議轉介至專業心理或身體健康服務。整體來看,這些大型語言模型在兒童焦慮診斷上展現出相對於醫生的優勢。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI

安全規劃介入忠實度評估工具(SPIFR)是一個自動化工具,專門用來評估自殺風險管理的安全規劃介入(SPI)質量。它利用三個大型語言模型(LLMs)分析了266個去識別化的SPI,重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現,LLaMA 3和o3-mini的表現優於GPT-4,並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力,有助於提升自殺預防策略的有效性。 PubMed DOI

這項研究發現,主流AI語言模型在評估退伍軍人自殺風險和治療建議上,表現常與專業人員不同,容易高估或低估風險,且各AI模型間差異大。雖然AI有時能與人類判斷一致,但治療建議不夠穩定,像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具,不能取代專業判斷,臨床應用前還需要更多研究和專家監督。 PubMed DOI

這項研究用150題選擇題測試GPT-3.5、GPT-4和GPT-4o的精神醫學知識,結果GPT-4和GPT-4o的正確率(84%和87.3%)明顯高於GPT-3.5(58%),而且新版模型答題更一致。重複作答的一致性能預測正確率,但模型自評信心沒什麼參考價值。整體來說,GPT-4和GPT-4o在精神醫學知識上表現可靠,有潛力應用於心理健康領域,但複雜臨床任務還需更多研究。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

這項研究發現,ChatGPT在心理諮詢上的專業度、同理心和人性化表現,跟人類諮商師差不多。不過,AI還是能被辨識出來,主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說,ChatGPT有潛力協助心理健康,但還有不少實務和倫理挑戰要解決。 PubMed DOI

最新研究發現,主流AI語言模型在精神科治療建議上,對非裔美國人病患常出現明顯偏見,尤其在種族資訊明確時更明顯。NewMes-15偏見最嚴重,Gemini則最少。這顯示AI有可能加劇醫療種族不平等,未來醫療AI必須加強偏見檢測與修正。 PubMed DOI