原始文章

這項研究開發了一個微調過的大型語言模型,能自動從Reddit家暴相關社群的女性貼文中,辨識她們的資訊需求。研究團隊用真實和AI生成的資料解決樣本不足和類別不均問題,並將貼文分成8類(如法律、安置、庇護所等)。這個模型在準確率和F1-score都比GPT-3.5、GPT-4等基準模型好,也比人工判讀快很多,有助醫療人員更快掌握家暴倖存者需求,提供即時協助。 PubMed DOI


站上相關主題文章列表

自殺預防是全球健康的重要議題,每年約有80萬人因自殺而喪生。大型語言模型(LLMs)在數位服務中有助於自殺預防,但也帶來臨床與倫理挑戰。2024年2月的回顧研究分析了43項相關研究,發現大多數集中於自殺風險識別,並探討了LLMs在臨床應用中的潛力。研究指出,隱私和同意等倫理問題需特別注意,並強調多學科合作及高品質數據的重要性。生成性人工智慧的發展可能改善危機護理與教育,但需持續人類監督。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在識別家庭暴力、自殺及父母殺子自殺風險的能力,故事取材自台灣短篇小說《燒烤》,由六歲小女孩敘述。結果顯示,所有模型都能識別家庭暴力,但只有GPT-o1、Claude 3.5 Sonnet和Sonar Large能根據文化線索識別自殺風險。相對而言,其他模型未能正確理解母親的孤立與饒恕的文化意義,顯示LLMs在非西方文化背景下的理解不足,這對心理健康評估非常重要。 PubMed DOI

安全規劃介入忠實度評估工具(SPIFR)是一個自動化工具,專門用來評估自殺風險管理的安全規劃介入(SPI)質量。它利用三個大型語言模型(LLMs)分析了266個去識別化的SPI,重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現,LLaMA 3和o3-mini的表現優於GPT-4,並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力,有助於提升自殺預防策略的有效性。 PubMed DOI

這項研究發現,現有的大型語言模型雖然能回答更年期健康問題,但目前的評估方式對於敏感醫療議題還不夠完善。作者建議應發展更專業且重視倫理的評估標準,確保AI產出的醫療資訊安全又可靠。 PubMed DOI

**重點摘要(繁體中文):** 這項研究測試大型語言模型是否能準確分析有關身心障礙權益的推文,特別是判斷情緒(正面/負面)以及辨識推文是反映社會觀點還是醫療觀點的身心障礙。研究使用了5,000則推文,結果顯示模型在這兩項任務上都有不錯的準確度。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

這項研究發現,社群媒體上關於自殺的討論常忽略弱勢族群的議題。研究團隊用AI生成補足這些缺漏主題的資料,讓機器學習模型訓練更全面。結果顯示,加入這些合成資料後,模型偵測自殺意念的準確度提升,有助於打造更包容的線上自殺風險偵測工具。 PubMed DOI

**重點整理:** 大型語言模型可以準確分類安全事件通報(例如:職場暴力、溝通失誤),協助醫療機構快速掌握安全趨勢,並透過自動化分析來提升職場安全。 PubMed

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現,發現它們都容易高估風險,但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師,GPT-4o表現最好。雖然AI有潛力協助心理健康分級,但還是需要專業人員把關。 PubMed DOI