Comparing the Perspectives of Generative AI, Mental Health Experts, and the General Public on Schizophrenia Recovery: Case Vignette Study.
比較生成式人工智慧、精神健康專家和一般大眾對於精神分裂症康復的觀點：案例簡介研究。 JMIR Ment Health 2024-03-28

研究比較大型語言模型（LLMs）和心理健康專業人員在評估精神分裂症患者預後能力。結果顯示，LLMs在評估接受治療的患者預後方面表現接近專業人士，但與普羅大眾看法有差異。ChatGPT-3.5較悲觀，可能影響患者治療動機。LLMs有潛力改善醫療保健，但需經驗證及整合人類專業知識。 PubMed DOI

Crisis prediction among tele-mental health patients: A large language model and expert clinician comparison.
電訪精神健康患者危機預測：大型語言模型與專家臨床醫師比較。 JMIR Ment Health 2024-06-14

人工智慧進步，如OpenAI的GPT-4，對語言任務很有幫助。研究評估GPT-4在預測心理健康危機上的表現，發現臨床醫師在主訴方面表現較佳，但加入自殺企圖歷史後，兩者表現都有改善。GPT-4有潛力匹敵臨床醫師，但仍需進一步測試，包括偏見檢查。LLMs可提升患者風險辨識，改善護理品質。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Diagnostic accuracy of large language models in psychiatry.
大型語言模型在精神科的診斷準確性。 Asian J Psychiatr 2024-08-07

這項研究探討了不同人工智慧模型在精神醫學診斷的表現，包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響，準確診斷常常困難。研究使用20個DSM-5的臨床案例，結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型，尤其在診斷精神病和雙相情感障礙方面表現突出，但在某些情況下則不佳。研究建議，人工智慧有潛力改善精神科診斷，但其他模型需進一步改進，未來應擴展數據集以增強診斷能力。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Using Large Language Models to Detect Depression From User-Generated Diary Text Data as a Novel Approach in Digital Mental Health Screening: Instrument Validation Study.
使用大型語言模型從用戶生成的日記文本數據中檢測抑鬱症：數位心理健康篩檢中的新方法及工具驗證研究。 J Med Internet Res 2024-09-18

抑鬱症對全球影響深遠，影響工作效率和殘疾率。雖然早期發現很重要，但現有的篩檢工具常缺乏客觀性。研究者正探索影像分析、血液標記及日記寫作等客觀指標。這項研究利用情感日記應用程式，評估91名參與者的日記文本，並使用GPT-3.5和GPT-4等大型語言模型進行抑鬱症檢測。結果顯示，微調後的GPT-3.5準確率達90.2%，顯示用戶生成的文本在臨床檢測抑鬱症上具潛力，未來可結合其他可測量指標進一步研究。 PubMed DOI

From open-ended to multiple-choice: evaluating diagnostic performance and consistency of ChatGPT, Google Gemini and Claude AI.
從開放式問題到選擇題：評估 ChatGPT、Google Gemini 和 Claude AI 的診斷表現與一致性。 Wiad Lek 2024-12-11

這項研究評估了四種大型語言模型（LLMs）在根據臨床案例診斷疾病的表現，包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段，第一階段僅使用案例描述，第二階段則加入答案選項。結果顯示，Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好，但Google Gemini的效能較低，需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

Large language models outperform general practitioners in identifying complex cases of childhood anxiety.
大型語言模型在識別複雜的兒童焦慮病例方面超越了全科醫生。 Digit Health 2024-12-17

這項研究探討了人工智慧（AI）語言模型在診斷兒童焦慮的有效性，並與一般醫生進行比較。研究發現，AI工具在識別焦慮症方面的成功率明顯高於醫生，特別是Claude.AI和Gemini表現最佳。雖然40%的醫生偏好在診所內處理案例，但AI通常建議轉介至專業心理或身體健康服務。整體來看，這些大型語言模型在兒童焦慮診斷上展現出相對於醫生的優勢。 PubMed DOI

Performance Assessment of Large Language Models in Medical Consultation: A Comparative Study.
大型語言模型在醫療諮詢中的表現評估：一項比較研究。 JMIR Med Inform 2025-01-07

這項研究探討生成式人工智慧，特別是大型語言模型（LLMs）在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應，並使用PubMedQA和QuoraQA數據集，結果顯示最新的模型，尤其是GPT-3.5和Llama2，在生成醫療回應方面表現優異。研究指出，升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識，目的是提升AI驅動的醫療諮詢系統，特別是在心理健康領域的應用。 PubMed DOI

Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study.
大型語言模型在評估對自殺意念的適當回應能力：比較研究。 J Med Internet Res 2025-03-07

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示，這三個模型的反應評價普遍比專家自殺學者更適當，尤其是ChatGPT的評分差異最大。異常值分析發現，Gemini的偏差比例最高。整體來看，ChatGPT的表現相當於碩士級輔導員，Claude超過受訓心理健康專業人士，而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向，但部分模型的表現已達到或超過專業水平。 PubMed DOI

原始文章

站上相關主題文章列表