原始文章

這項研究用GPT-3.5產生的合成資料訓練BERT模型,能自動從電子病歷自由文本中抓出難治型憂鬱症的關鍵預後因子。模型在真實臨床資料上辨識20個相關因子,F1分數最高達0.85。這方法有助於用日常紀錄偵測DTD,不需用到敏感資料或花錢請專家標註。 PubMed DOI


站上相關主題文章列表

自殺是重要的公共健康議題,人工智慧的進步,特別是大型語言模型(LLMs),在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究,探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示,這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力,但仍需解決倫理問題,並與心理健康專家合作。 PubMed DOI

這項研究開發了一個聊天機器人,目的是早期識別青少年的抑鬱症狀,並解決精神科服務接觸率低的問題。研究分為兩個步驟: 1. **數據收集與分析**:對53名青少年進行標準化訪談,產生4,077對問答,訓練出一個準確率高達97%的模型,能有效區分有無抑鬱症的青少年。 2. **使用Chat GPT生成數據**:為增強數據集,研究利用Chat GPT生成額外語句,發現有效的提示工程具有挑戰性,但成功策略是平衡提示長度與示例數量。 總體來看,這項研究顯示分析青少年語言模式能有效識別抑鬱症狀,而Chat GPT則是創建合成數據的好工具。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs),如BART和GPT-4,從MedHelp論壇的用戶評論中識別藥物停用事件(DDEs)。DDEs對藥物依從性和病人結果至關重要,但研究仍不多。研究人員建立了一個靈活的框架,並發布了首個開源DDE數據集,以促進後續研究。結果顯示,GPT-4o在識別根本原因上表現優異,而BART在檢測DDEs方面最有效。這項研究顯示了LLMs在分析公開數據的潛力,並鼓勵進一步探索。 PubMed DOI

這項研究探討病人自報結果量表(PROMs),特別是PHQ-9,對門診抑鬱症治療紀錄質量的影響。研究分析了18,000份臨床筆記,重點在2019至2024年期間的就診紀錄。主要發現顯示,參與者平均年齡46.3歲,大多數為女性,PHQ-9平均分數較低,只有4.8%符合中度或以上的抑鬱症狀。雖然大型語言模型(LLM)能提供一些見解,但在移除實際分數後,準確性不佳,顯示依賴PROMs可能導致精神症狀紀錄不夠全面。 PubMed DOI

這篇研究針對電子病歷中難以提取健康社會決定因素(SDoH)問題,從四家醫院建立標註資料集,涵蓋21種SDoH,並用多種模型(包含大型語言模型)進行偵測。經過指令微調的LLMs表現最佳,F1值都很高,但模型跨醫院應用仍有困難。訓練好的模型已公開在GitHub。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

研究團隊開發了一套經微調的大型語言模型,能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀,準確度(AUROC)高達0.97-0.99,優於傳統方法。這些症狀不僅能預測失智症診斷,還和腦部MRI結果有關,有助提升診斷準確率並推動相關研究。 PubMed DOI

這項研究發現,社群媒體上關於自殺的討論常忽略弱勢族群的議題。研究團隊用AI生成補足這些缺漏主題的資料,讓機器學習模型訓練更全面。結果顯示,加入這些合成資料後,模型偵測自殺意念的準確度提升,有助於打造更包容的線上自殺風險偵測工具。 PubMed DOI

這項研究用大型語言模型(LLMs)自動從電子病歷的臨床紀錄辨識失眠,準確度高於傳統BERT模型(F1分數93.0和85.7)。這個方法不只偵測失眠效果好,也有潛力應用在其他容易被忽略的疾病診斷上。 PubMed DOI