原始文章

這項研究開發了一個微調過的大型語言模型,能自動從Reddit家暴相關社群的女性貼文中,辨識她們的資訊需求。研究團隊用真實和AI生成的資料解決樣本不足和類別不均問題,並將貼文分成8類(如法律、安置、庇護所等)。這個模型在準確率和F1-score都比GPT-3.5、GPT-4等基準模型好,也比人工判讀快很多,有助醫療人員更快掌握家暴倖存者需求,提供即時協助。 PubMed DOI


站上相關主題文章列表

經歷家庭暴力的女性常因尷尬而不敢尋求面對面幫助,反而會轉向線上社群表達情感並尋求協助。為了及時支持這些受害者,我們開發了一個微調的大型語言模型(LLM),能準確預測線上貼文中的信息需求。我們使用 LAMMA2-7B-chat 模型,並用273篇專家標註的 Reddit 貼文進行微調。評估結果顯示,模型在66.6%的案例中準確預測了信息需求,顯示其能有效識別貼文中的需求,幫助醫療提供者提供相關支持。 PubMed DOI

這項研究強調在醫療照護中評估健康社會決定因素(SDoH)的重要性,以改善病患照護並縮小健康差距。研究探討了電子健康紀錄(EHRs)中SDoH數據不足的挑戰,主要因為缺乏標準化的診斷代碼。研究團隊使用大型語言模型(如BERT和RoBERTa)來分類無家可歸、食物不安全和家庭暴力等SDoH概念,並創建合成訓練數據集。結果顯示,這些模型能有效提取SDoH資訊,幫助醫療提供者識別高風險病患,進而實施針對性干預,支持減少健康差距的努力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在識別孕婦臨床筆記中的住房不安全性方面的效果。主要發現顯示,GPT-4在識別住房不穩定案例上表現優於GPT-3.5,回憶率達0.924,超過人類抽取者的0.702。雖然GPT-4的精確度低於人類,但在去識別筆記中略有提升。研究建議,雖然手動抽取準確性較高,LLMs如GPT-4提供了可擴展且具成本效益的選擇,適合半自動化抽取,但仍需人類審查以避免錯誤解釋。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來識別青少年抑鬱症訪談中的心理治療結果。作者建立了一個編碼框架,能夠捕捉多樣的治療結果,並評估五個開源LLM的分類能力。實驗結果顯示,這些模型能有效分類31種結果,ROC曲線下面積得分在0.6到1.0之間,成功識別出友誼和學業表現等重要結果。研究強調了臨床數據的應用,顯示詳細編碼治療結果的可行性,並有助於量化重要結果。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)從兒童保護服務(CPS)的案例報告中提取結構化數據,特別是識別不同的暴力子類型。研究流程分為四個階段,並分析了來自瑞士的29,770份報告,提取了28,223個文本段落。表現最佳的模型Mixtral-8x7B在文本分類中達到87%的準確率,超過人類審查員的77%協議率。結果顯示,LLMs能有效模擬人類的編碼能力,提升CPS研究的質量,但也需注意文本分段的弱點及潛在偏見。 PubMed DOI

安全規劃介入忠實度評估工具(SPIFR)是一個自動化工具,專門用來評估自殺風險管理的安全規劃介入(SPI)質量。它利用三個大型語言模型(LLMs)分析了266個去識別化的SPI,重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現,LLaMA 3和o3-mini的表現優於GPT-4,並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力,有助於提升自殺預防策略的有效性。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

這項研究發現,社群媒體上關於自殺的討論常忽略弱勢族群的議題。研究團隊用AI生成補足這些缺漏主題的資料,讓機器學習模型訓練更全面。結果顯示,加入這些合成資料後,模型偵測自殺意念的準確度提升,有助於打造更包容的線上自殺風險偵測工具。 PubMed DOI

**重點整理:** 大型語言模型可以準確分類安全事件通報(例如:職場暴力、溝通失誤),協助醫療機構快速掌握安全趨勢,並透過自動化分析來提升職場安全。 PubMed

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現,發現它們都容易高估風險,但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師,GPT-4o表現最好。雖然AI有潛力協助心理健康分級,但還是需要專業人員把關。 PubMed DOI