原始文章

這項研究比較多種阿拉伯語預訓練語言模型在心理健康問答分類的表現,發現 MARBERT 等 PLMs 效果明顯優於傳統方法。透過進一步微調或用 GPT-3.5 少量學習,準確率還能提升,顯示 PLMs 有助於提升阿拉伯語心理健康支援的可行性與效果。 PubMed DOI


站上相關主題文章列表

最近大型語言模型(LLMs)在心理健康護理中的對話代理(CAs)方面有了新進展,但仍面臨高品質訓練數據不足、隱私問題及低資源語言標註成本高等挑戰。研究利用社交媒體的公共討論來建立人機標註系統,並探討零樣本分類技術對四種LLMs進行文本分類,分析64,404篇俄語文本,聚焦七種心理疾病。結果顯示,微調模型能顯著提升分類準確率,並且多語言模型表現優於翻譯文本的英語模型。我們的數據集和模型已公開,助力心理健康對話代理的發展。 PubMed DOI

這項研究探討生成式人工智慧,特別是大型語言模型(LLMs)在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應,並使用PubMedQA和QuoraQA數據集,結果顯示最新的模型,尤其是GPT-3.5和Llama2,在生成醫療回應方面表現優異。研究指出,升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識,目的是提升AI驅動的醫療諮詢系統,特別是在心理健康領域的應用。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在心理健康預測任務中的表現,測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術,結果顯示指令微調能顯著提升模型能力,尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外,研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

這篇回顧整理了大型語言模型在心理健康領域的應用現況,發現LLMs主要用於心理疾病篩檢、治療支援和心理健康諮詢,特別聚焦在憂鬱症偵測和自殺風險預測。整體來說,LLMs在資訊分析和回應生成上表現優於傳統方法,但不同模型各有優缺點。未來應持續技術發展並重視倫理議題。 PubMed DOI

這項研究用150題選擇題測試GPT-3.5、GPT-4和GPT-4o的精神醫學知識,結果GPT-4和GPT-4o的正確率(84%和87.3%)明顯高於GPT-3.5(58%),而且新版模型答題更一致。重複作答的一致性能預測正確率,但模型自評信心沒什麼參考價值。整體來說,GPT-4和GPT-4o在精神醫學知識上表現可靠,有潛力應用於心理健康領域,但複雜臨床任務還需更多研究。 PubMed DOI

這篇論文比較了 GPT-3.5-Turbo、FLAN-T5 和 BERT 等大型語言模型在健康社群媒體情感分析的表現。結果顯示,LLMs 比傳統工具(像 VADER)表現更好,但準確度還有進步空間。透過調整提示語和微調,尤其是 BERT,效果會更好。研究也建議未來要在標註資料少的情況下,持續優化這些模型。 PubMed

這項研究發現,透過提示工程(prompt engineering)可以提升大型語言模型在心理治療(PST)初期階段的表現,尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升,但仍有侷限。整體來說,LLM 有潛力協助解決心理健康人力不足,推動 AI 治療服務發展。 PubMed

一份針對42國心理健康研究人員的調查發現,約七成會用大型語言模型(像是ChatGPT)來校稿或寫程式,年輕研究人員用得更多。大家覺得LLM能提升效率和品質,但對準確性、倫理和偏見還是有疑慮。多數人希望有更多訓練和明確指引,確保負責任且透明地使用這些工具。 PubMed DOI

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現,發現它們都容易高估風險,但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師,GPT-4o表現最好。雖然AI有潛力協助心理健康分級,但還是需要專業人員把關。 PubMed DOI