原始文章

這項研究評估了六個大型語言模型(LLMs)在識別家庭暴力、自殺及父母殺子自殺風險的能力,故事取材自台灣短篇小說《燒烤》,由六歲小女孩敘述。結果顯示,所有模型都能識別家庭暴力,但只有GPT-o1、Claude 3.5 Sonnet和Sonar Large能根據文化線索識別自殺風險。相對而言,其他模型未能正確理解母親的孤立與饒恕的文化意義,顯示LLMs在非西方文化背景下的理解不足,這對心理健康評估非常重要。 PubMed DOI


站上相關主題文章列表

人工智慧進步,如OpenAI的GPT-4,對語言任務很有幫助。研究評估GPT-4在預測心理健康危機上的表現,發現臨床醫師在主訴方面表現較佳,但加入自殺企圖歷史後,兩者表現都有改善。GPT-4有潛力匹敵臨床醫師,但仍需進一步測試,包括偏見檢查。LLMs可提升患者風險辨識,改善護理品質。 PubMed DOI

全球心理健康問題日益嚴重,現有的照護模式無法滿足需求。大型語言模型(LLMs)被視為解決方案,能在心理健康教育、評估和介入上提供幫助。本文回顧了LLMs的應用,並指出其潛在的正面影響與風險,強調需採取策略來降低風險。平衡心理健康支持的需求與LLMs的負責任開發至關重要,確保這些模型符合倫理標準,並讓有經驗的人參與開發,以減少傷害並增強其正面影響。 PubMed DOI

本研究探討生成式人工智慧(GenAI)在自殺風險評估中的表現,特別是ChatGPT-3.5和ChatGPT-4。研究發現,過去的自殺嘗試對預測風險至關重要,且ChatGPT-4能識別性別差異,顯示男性風險較高,但兩者都未將年齡視為重要因素。結果顯示這些模型在評估自殺風險上有潛力,但因其局限性及現實情境的複雜性,應謹慎應用。 PubMed DOI

這項研究探討大型語言模型(LLMs)在精神科訪談中的應用,特別針對北韓脫北者的心理健康挑戰。研究目標是確認LLMs能否有效識別精神病症狀並總結壓力源。主要任務包括提取壓力源、識別症狀及總結訪談內容。結果顯示,使用GPT-4 Turbo模型後,73個記錄片段準確關聯精神病症狀,經微調後性能提升,平均準確率達0.82。LLMs生成的摘要在連貫性和相關性上得分高,顯示其在心理健康領域的潛力。 PubMed DOI

這項研究比較了三種不同版本的BERT模型和大型語言模型(LLMs)在檢測巴西葡萄牙語文本中的自殺意念的效果。數據集包含2,691句無自殺意念和1,097句有自殺意念的句子,經心理學家標註。結果顯示,Bing/GPT-4表現最佳,準確率達98%,其次是微調過的BERTimbau-Large(96%)和BERTimbau-Base(94%)。Bard最低,僅62%。雖然模型召回率高,但研究強調尚未在臨床環境驗證,使用時需謹慎。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來識別青少年抑鬱症訪談中的心理治療結果。作者建立了一個編碼框架,能夠捕捉多樣的治療結果,並評估五個開源LLM的分類能力。實驗結果顯示,這些模型能有效分類31種結果,ROC曲線下面積得分在0.6到1.0之間,成功識別出友誼和學業表現等重要結果。研究強調了臨床數據的應用,顯示詳細編碼治療結果的可行性,並有助於量化重要結果。 PubMed DOI

自殺是重要的公共健康議題,人工智慧的進步,特別是大型語言模型(LLMs),在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究,探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示,這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力,但仍需解決倫理問題,並與心理健康專家合作。 PubMed DOI

自殺預防是全球健康的重要議題,每年約有80萬人因自殺而喪生。大型語言模型(LLMs)在數位服務中有助於自殺預防,但也帶來臨床與倫理挑戰。2024年2月的回顧研究分析了43項相關研究,發現大多數集中於自殺風險識別,並探討了LLMs在臨床應用中的潛力。研究指出,隱私和同意等倫理問題需特別注意,並強調多學科合作及高品質數據的重要性。生成性人工智慧的發展可能改善危機護理與教育,但需持續人類監督。 PubMed DOI

這項研究探討大型語言模型(LLM)在質性研究中的應用,特別是針對自殺的心理社會驗屍。研究進行了38次半結構式訪談,評估LLM在編碼和總結自殺喪失者訪談數據的能力。結果顯示,LLM與人類研究者在二元分類上有高一致性(準確率0.84),總結的評價也有80%為正面。研究建議將LLM與人類審查結合,以提高效率,並呼籲未來在不同背景下進一步探索這些發現。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 PubMed DOI