Using large language models for extracting and pre-annotating texts on mental health from noisy data in a low-resource language.
使用大型語言模型從低資源語言的雜訊數據中提取和預標註心理健康文本。 PeerJ Comput Sci 2024-12-09

最近大型語言模型（LLMs）在心理健康護理中的對話代理（CAs）方面有了新進展，但仍面臨高品質訓練數據不足、隱私問題及低資源語言標註成本高等挑戰。研究利用社交媒體的公共討論來建立人機標註系統，並探討零樣本分類技術對四種LLMs進行文本分類，分析64,404篇俄語文本，聚焦七種心理疾病。結果顯示，微調模型能顯著提升分類準確率，並且多語言模型表現優於翻譯文本的英語模型。我們的數據集和模型已公開，助力心理健康對話代理的發展。 PubMed DOI

Performance Assessment of Large Language Models in Medical Consultation: A Comparative Study.
大型語言模型在醫療諮詢中的表現評估：一項比較研究。 JMIR Med Inform 2025-01-07

這項研究探討生成式人工智慧，特別是大型語言模型（LLMs）在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應，並使用PubMedQA和QuoraQA數據集，結果顯示最新的模型，尤其是GPT-3.5和Llama2，在生成醫療回應方面表現優異。研究指出，升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識，目的是提升AI驅動的醫療諮詢系統，特別是在心理健康領域的應用。 PubMed DOI

Classifying Unstructured Text in Electronic Health Records for Mental Health Prediction Models: Large Language Model Evaluation Study.
電子健康紀錄中非結構化文本的分類以進行心理健康預測模型：大型語言模型評估研究。 JMIR Med Inform 2025-01-26

這項研究探討大型語言模型（LLMs）在分類與心理健康相關的電子健康紀錄（EHRs）術語的有效性，並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據，分析了因心理健康問題入院的病人EHR。結果顯示，LLM與臨床醫生在術語的廣泛分類上達成高一致性（κ=0.77），但在具體的心理健康（κ=0.62）和身體健康術語（κ=0.69）上則較低，顯示出LLM的變異性。儘管如此，研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data.
Mental-LLM：利用大型語言模型透過線上文本數據進行心理健康預測。 Proc ACM Interact Mob Wearable Ubiquitous Technol 2025-02-10

這項研究評估了多種大型語言模型（LLMs）在心理健康預測任務中的表現，測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術，結果顯示指令微調能顯著提升模型能力，尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外，研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

The Applications of Large Language Models in Mental Health: Scoping Review.
大型語言模型在心理健康領域的應用：範疇性回顧 J Med Internet Res 2025-05-05

這篇回顧整理了大型語言模型在心理健康領域的應用現況，發現LLMs主要用於心理疾病篩檢、治療支援和心理健康諮詢，特別聚焦在憂鬱症偵測和自殺風險預測。整體來說，LLMs在資訊分析和回應生成上表現優於傳統方法，但不同模型各有優缺點。未來應持續技術發展並重視倫理議題。 PubMed DOI

Assessing the Accuracy and Reliability of Large Language Models in Psychiatry Using Standardized Multiple-Choice Questions: Cross-Sectional Study.
使用標準化選擇題評估大型語言模型於精神醫學中的準確性與可靠性：橫斷面研究 J Med Internet Res 2025-05-20

這項研究用150題選擇題測試GPT-3.5、GPT-4和GPT-4o的精神醫學知識，結果GPT-4和GPT-4o的正確率（84%和87.3%）明顯高於GPT-3.5（58%），而且新版模型答題更一致。重複作答的一致性能預測正確率，但模型自評信心沒什麼參考價值。整體來說，GPT-4和GPT-4o在精神醫學知識上表現可靠，有潛力應用於心理健康領域，但複雜臨床任務還需更多研究。 PubMed DOI

Using Large Language Models for sentiment analysis of health-related social media data: empirical evaluation and practical tips.
運用大型語言模型進行健康相關社群媒體資料的情感分析：實證評估與實用建議 AMIA Annu Symp Proc 2025-05-26

這篇論文比較了 GPT-3.5-Turbo、FLAN-T5 和 BERT 等大型語言模型在健康社群媒體情感分析的表現。結果顯示，LLMs 比傳統工具（像 VADER）表現更好，但準確度還有進步空間。透過調整提示語和微調，尤其是 BERT，效果會更好。研究也建議未來要在標註資料少的情況下，持續優化這些模型。 PubMed

Toward Large Language Models as a Therapeutic Tool: Comparing Prompting Techniques to Improve GPT-Delivered Problem-Solving Therapy.
邁向將大型語言模型作為治療工具：比較提示技巧以提升GPT提供的問題解決治療效果 AMIA Annu Symp Proc 2025-05-26

這項研究發現，透過提示工程（prompt engineering）可以提升大型語言模型在心理治療（PST）初期階段的表現，尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升，但仍有侷限。整體來說，LLM 有潛力協助解決心理健康人力不足，推動 AI 治療服務發展。 PubMed

Role of large language models in mental health research: an international survey of researchers' practices and perspectives.
大型語言模型在心理健康研究中的角色：國際研究人員實務與觀點調查 BMJ Ment Health 2025-06-13

一份針對42國心理健康研究人員的調查發現，約七成會用大型語言模型（像是ChatGPT）來校稿或寫程式，年輕研究人員用得更多。大家覺得LLM能提升效率和品質，但對準確性、倫理和偏見還是有疑慮。多數人希望有更多訓練和明確指引，確保負責任且透明地使用這些工具。 PubMed DOI

Assessing the accuracy and consistency of large language models in triaging social media posts for psychological distress.
大型語言模型在篩選社群媒體貼文以評估心理困擾時的準確性與一致性評估 Psychiatry Res 2025-06-14

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現，發現它們都容易高估風險，但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師，GPT-4o表現最好。雖然AI有潛力協助心理健康分級，但還是需要專業人員把關。 PubMed DOI

原始文章

站上相關主題文章列表