原始文章

這項研究評估了多種大型語言模型(LLMs)在心理健康預測任務中的表現,測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術,結果顯示指令微調能顯著提升模型能力,尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外,研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI


站上相關主題文章列表

LLMs在精神醫學領域引起關注,如ChatGPT/GPT-4可用於預測患者風險、治療干預和材料分析。然而,採用LLMs需面對挑戰,如限制、偏見、可解釋性、隱私擔憂和錯誤信息風險。評論討論了在精神醫學實踐中使用LLMs的機會、限制和考量。 PubMed DOI

像ChatGPT這樣的大型語言模型(LLMs)在精神醫學領域有潛力搭起人工智慧與人類認知過程之間的橋樑。它們可以協助診斷心理健康問題、管理憂鬱症、評估自殺風險,並支援教育。然而,存在一些限制,例如處理複雜案例的困難和低估自殺風險。未來的研究可能會探索LLMs如何重塑精神健康照護。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動摘要心理健康諮詢會議的應用,旨在解決手動摘要對諮詢過程的影響。研究人員建立了一個名為「心理健康諮詢-組件引導對話摘要」的數據集,包含191個諮詢會議的摘要。他們評估了11個先進的LLM,結果顯示像MentalLlama、Mistral和MentalBART等模型在摘要生成上表現不錯,特別是Mistral獲得專家高評價。然而,所有模型在機會成本和感知有效性上仍有不足,顯示尚未適合臨床使用,需進一步精煉和驗證。 PubMed DOI

全球心理健康問題日益嚴重,現有的照護模式無法滿足需求。大型語言模型(LLMs)被視為解決方案,能在心理健康教育、評估和介入上提供幫助。本文回顧了LLMs的應用,並指出其潛在的正面影響與風險,強調需採取策略來降低風險。平衡心理健康支持的需求與LLMs的負責任開發至關重要,確保這些模型符合倫理標準,並讓有經驗的人參與開發,以減少傷害並增強其正面影響。 PubMed DOI

這篇系統性回顧探討大型語言模型(LLMs)在心理健康領域的應用,特別是在早期篩檢、數位介入和臨床應用的有效性。回顧分析了2017年到2024年期間的40篇文章,結果顯示LLMs能有效識別心理健康問題並提供電子健康服務,但也存在文本不一致、幻覺現象及缺乏倫理框架等風險。主要挑戰包括需要多語言專家標註的數據、內容可靠性及數據隱私等倫理問題。雖然LLMs不應取代專業服務,但作為輔助工具的潛力值得進一步研究。 PubMed DOI

這項研究探討大型語言模型(LLMs)在精神科訪談中的應用,特別針對北韓脫北者的心理健康挑戰。研究目標是確認LLMs能否有效識別精神病症狀並總結壓力源。主要任務包括提取壓力源、識別症狀及總結訪談內容。結果顯示,使用GPT-4 Turbo模型後,73個記錄片段準確關聯精神病症狀,經微調後性能提升,平均準確率達0.82。LLMs生成的摘要在連貫性和相關性上得分高,顯示其在心理健康領域的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

生成式人工智慧和大型語言模型(LLMs),如GPT-4,對臨床醫學和認知心理學影響深遠。這些模型在理解和生成語言方面表現優異,能改善臨床決策和心理諮詢。雖然LLMs在類比推理和隱喻理解上表現良好,但在因果推理和複雜規劃上仍有挑戰。本文探討LLMs的認知能力及其在心理測試中的表現,並討論其在認知心理學和精神醫學的應用、限制及倫理考量,強調進一步研究的重要性,以釋放其潛力。 PubMed DOI

安全規劃介入忠實度評估工具(SPIFR)是一個自動化工具,專門用來評估自殺風險管理的安全規劃介入(SPI)質量。它利用三個大型語言模型(LLMs)分析了266個去識別化的SPI,重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現,LLaMA 3和o3-mini的表現優於GPT-4,並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力,有助於提升自殺預防策略的有效性。 PubMed DOI