原始文章

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI


站上相關主題文章列表

這項研究指出大型語言模型(LLMs)在精神醫學研究中不僅能提升臨床應用,還能改善文獻回顧、研究設計等方面的效率。不過,仍面臨偏見、計算需求、數據隱私和內容可靠性等挑戰。這篇回顧強調謹慎監督、嚴格驗證及遵循倫理標準的重要性,期望透過解決這些問題,最大化LLMs的優勢,並推動精神醫學研究的進展。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用越來越受到重視,能提升診斷準確性和病患照護效率。本研究透過文獻計量分析,探討2021至2024年間的研究趨勢,分析超過500篇相關文章,並使用VOSviewer和CiteSpace工具進行系統性回顧。主要發現顯示,神經網絡在影像診斷和自然語言處理等方面的應用顯著增長,並識別出臨床研究、人工智慧等新興子主題。這項分析不僅概述了當前狀態,還指出未來發展的關鍵領域。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究探討開源大型語言模型(LLMs)在從電子健康紀錄(EHRs)中提取社會健康決定因素(SDoH)數據的效果。研究隨機選取200名患者,並由兩位審查者手動標記九個SDoH方面,達成93%的高一致性。結果顯示,LLMs的表現明顯優於基準模型,特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力,以提升LLMs在臨床研究中的應用,最終改善醫療結果。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在心理健康預測任務中的表現,測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術,結果顯示指令微調能顯著提升模型能力,尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外,研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這項研究探討病人自報結果量表(PROMs),特別是PHQ-9,對門診抑鬱症治療紀錄質量的影響。研究分析了18,000份臨床筆記,重點在2019至2024年期間的就診紀錄。主要發現顯示,參與者平均年齡46.3歲,大多數為女性,PHQ-9平均分數較低,只有4.8%符合中度或以上的抑鬱症狀。雖然大型語言模型(LLM)能提供一些見解,但在移除實際分數後,準確性不佳,顯示依賴PROMs可能導致精神症狀紀錄不夠全面。 PubMed DOI

這項研究開發了一種利用大型語言模型(LLMs)從電子健康紀錄(EHR)中識別健康狀況的策略,解決了手動標記的繁瑣問題。研究將2015年的心臟登記隊列與阿爾伯塔省的EHR系統結合,分析臨床筆記以檢測急性心肌梗塞、糖尿病和高血壓。結果顯示,LLM方法在敏感度和陰性預測值上優於傳統ICD代碼,且檢測趨勢穩定。這種方法有潛力提升EHR在即時疾病監測中的應用效率。 PubMed DOI

這篇回顧整理了大型語言模型在心理健康領域的應用現況,發現LLMs主要用於心理疾病篩檢、治療支援和心理健康諮詢,特別聚焦在憂鬱症偵測和自殺風險預測。整體來說,LLMs在資訊分析和回應生成上表現優於傳統方法,但不同模型各有優缺點。未來應持續技術發展並重視倫理議題。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI