原始文章

這項研究評估了六個大型語言模型(LLMs)在識別家庭暴力、自殺及父母殺子自殺風險的能力,故事取材自台灣短篇小說《燒烤》,由六歲小女孩敘述。結果顯示,所有模型都能識別家庭暴力,但只有GPT-o1、Claude 3.5 Sonnet和Sonar Large能根據文化線索識別自殺風險。相對而言,其他模型未能正確理解母親的孤立與饒恕的文化意義,顯示LLMs在非西方文化背景下的理解不足,這對心理健康評估非常重要。 PubMed DOI


站上相關主題文章列表

自殺是重要的公共健康議題,人工智慧的進步,特別是大型語言模型(LLMs),在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究,探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示,這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力,但仍需解決倫理問題,並與心理健康專家合作。 PubMed DOI

自殺預防是全球健康的重要議題,每年約有80萬人因自殺而喪生。大型語言模型(LLMs)在數位服務中有助於自殺預防,但也帶來臨床與倫理挑戰。2024年2月的回顧研究分析了43項相關研究,發現大多數集中於自殺風險識別,並探討了LLMs在臨床應用中的潛力。研究指出,隱私和同意等倫理問題需特別注意,並強調多學科合作及高品質數據的重要性。生成性人工智慧的發展可能改善危機護理與教育,但需持續人類監督。 PubMed DOI

這項研究探討大型語言模型(LLM)在質性研究中的應用,特別是針對自殺的心理社會驗屍。研究進行了38次半結構式訪談,評估LLM在編碼和總結自殺喪失者訪談數據的能力。結果顯示,LLM與人類研究者在二元分類上有高一致性(準確率0.84),總結的評價也有80%為正面。研究建議將LLM與人類審查結合,以提高效率,並呼籲未來在不同背景下進一步探索這些發現。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI

安全規劃介入忠實度評估工具(SPIFR)是一個自動化工具,專門用來評估自殺風險管理的安全規劃介入(SPI)質量。它利用三個大型語言模型(LLMs)分析了266個去識別化的SPI,重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現,LLaMA 3和o3-mini的表現優於GPT-4,並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力,有助於提升自殺預防策略的有效性。 PubMed DOI

這項研究發現,主流AI語言模型在評估退伍軍人自殺風險和治療建議上,表現常與專業人員不同,容易高估或低估風險,且各AI模型間差異大。雖然AI有時能與人類判斷一致,但治療建議不夠穩定,像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具,不能取代專業判斷,臨床應用前還需要更多研究和專家監督。 PubMed DOI

一個本地運作的小型語言模型(Llama-DeepSeek-R1 8B),在預測住院病人自殺風險時,表現幾乎跟大型的GPT-4o一樣好,雖然準確度略低(c-statistic 0.64 vs 0.67),但還是能有效找出高風險族群。這代表小型模型也能安全、有效地應用在自殺風險預測上,且更容易取得與擴展。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現,發現它們都容易高估風險,但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師,GPT-4o表現最好。雖然AI有潛力協助心理健康分級,但還是需要專業人員把關。 PubMed DOI

這項研究發現,像ChatGPT-4這類大型語言模型,能準確評估自殺新聞是否符合WHO指引,結果和人工審查者高度一致。代表AI有機會協助媒體負責任地報導自殺議題,能即時、大規模給記者回饋,對推動公共衛生很有幫助。 PubMed DOI