原始文章

這項研究針對自殺這一公共衛生議題,運用機器學習模型來識別有風險的個體,特別針對14至25歲的青少年。研究使用德國危機熱線的數據,開發預測自殺意念和行為的方法,並與傳統文本分類進行比較。基於變壓器的模型表現優異,達到0.89的宏觀AUC,並成功識別與自殺風險相關的語言特徵。研究結果顯示,這些模型能有效輔助臨床決策,未來可探索多模態輸入及時間性因素。 PubMed DOI


站上相關主題文章列表

研究使用大型語言模型分析Reddit上有關自殺意念的討論,發現許多常見主題,像是社會脫節感、負擔感、絕望和創傷。在心理健康子版(包括r/SuicideWatch)的290萬篇帖子中進行分析,辨識出幸福感、尋求支持和痛苦程度等獨特語言維度。研究結果支持現有自殺理論,也符合心理健康疾病的診斷分類系統。這種方法有助於深入了解線上分享的情緒和經歷,並驗證完善心理健康理論。 PubMed DOI

人工智慧進步,如OpenAI的GPT-4,對語言任務很有幫助。研究評估GPT-4在預測心理健康危機上的表現,發現臨床醫師在主訴方面表現較佳,但加入自殺企圖歷史後,兩者表現都有改善。GPT-4有潛力匹敵臨床醫師,但仍需進一步測試,包括偏見檢查。LLMs可提升患者風險辨識,改善護理品質。 PubMed DOI

這篇論文探討了基於變壓器的模型,旨在檢測社交媒體上用戶生成內容中的抑鬱症狀。研究強調了解釋性的重要性,特別是對健康專業人員而言。作者提出兩種方法:一是將分類和解釋任務分開,二是整合到同一模型中。他們還利用對話型大型語言模型(LLMs)進行上下文學習和微調,生成的自然語言解釋與症狀相符,讓臨床醫生更易理解模型輸出。評估結果顯示,能在提供可解釋的解釋的同時,達到高分類性能。 PubMed DOI

這項研究強調了了解影響自殺預防熱線有效性的因素,特別是透過文字聊天服務的重要性。研究分析了6,903位求助者的聊天內容,並訓練機器學習模型來預測結果。結果顯示,輔導員的正面肯定和參與能顯著改善求助者的自我報告分數,而使用宏指令及過早結束聊天則會產生負面影響。研究強調需要引人入勝的溝通風格,並展示了機器學習在提升熱線互動分析的潛力。 PubMed DOI

本研究探討生成式人工智慧(GenAI)在自殺風險評估中的表現,特別是ChatGPT-3.5和ChatGPT-4。研究發現,過去的自殺嘗試對預測風險至關重要,且ChatGPT-4能識別性別差異,顯示男性風險較高,但兩者都未將年齡視為重要因素。結果顯示這些模型在評估自殺風險上有潛力,但因其局限性及現實情境的複雜性,應謹慎應用。 PubMed DOI

這項研究比較了三種不同版本的BERT模型和大型語言模型(LLMs)在檢測巴西葡萄牙語文本中的自殺意念的效果。數據集包含2,691句無自殺意念和1,097句有自殺意念的句子,經心理學家標註。結果顯示,Bing/GPT-4表現最佳,準確率達98%,其次是微調過的BERTimbau-Large(96%)和BERTimbau-Base(94%)。Bard最低,僅62%。雖然模型召回率高,但研究強調尚未在臨床環境驗證,使用時需謹慎。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來識別青少年抑鬱症訪談中的心理治療結果。作者建立了一個編碼框架,能夠捕捉多樣的治療結果,並評估五個開源LLM的分類能力。實驗結果顯示,這些模型能有效分類31種結果,ROC曲線下面積得分在0.6到1.0之間,成功識別出友誼和學業表現等重要結果。研究強調了臨床數據的應用,顯示詳細編碼治療結果的可行性,並有助於量化重要結果。 PubMed DOI

自殺是重要的公共健康議題,人工智慧的進步,特別是大型語言模型(LLMs),在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究,探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示,這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力,但仍需解決倫理問題,並與心理健康專家合作。 PubMed DOI

自殺預防是全球健康的重要議題,每年約有80萬人因自殺而喪生。大型語言模型(LLMs)在數位服務中有助於自殺預防,但也帶來臨床與倫理挑戰。2024年2月的回顧研究分析了43項相關研究,發現大多數集中於自殺風險識別,並探討了LLMs在臨床應用中的潛力。研究指出,隱私和同意等倫理問題需特別注意,並強調多學科合作及高品質數據的重要性。生成性人工智慧的發展可能改善危機護理與教育,但需持續人類監督。 PubMed DOI

這篇論文探討如何利用自然語言處理(NLP)評估青少年聊天輔導服務的滿意度。研究分析了2,609名年輕用戶的數據和約140,000條訊息,訓練了兩種分類器:極端梯度提升(XGBoost)和基於變壓器的模型。XGBoost的表現較佳,AUC得分為0.69,而Longformer為0.68。研究發現,認為諮詢有幫助的用戶通常表達滿意,而拒絕提供的練習則顯示無幫助。雖然預測性能中等,作者建議進行更多隨機試驗以評估服務改進的影響,並強調簡單模型與複雜模型比較的重要性。 PubMed DOI