Psychiatrists' experiences and opinions of generative artificial intelligence in mental healthcare: An online mixed methods survey.
精神科醫師對於心理健康護理中生成式人工智慧的經驗和意見：一項線上混合方法調查。 Psychiatry Res 2024-02-19

ChatGPT推出後，人們對基於大型語言模型的聊天機器人越來越感興趣，尤其在心理健康護理領域。研究發現，許多美國精神科醫師已開始使用ChatGPT-3.5和GPT-4.0回答臨床問題，提高文件記錄效率。大多數醫師認為患者可能會先諮詢這些工具再看醫生，並認為臨床醫師需要更多培訓。對於生成式人工智慧在臨床實踐的價值和未來職業影響，看法不盡相同。 PubMed DOI

Diagnostic accuracy of large language models in psychiatry.
大型語言模型在精神科的診斷準確性。 Asian J Psychiatr 2024-08-07

這項研究探討了不同人工智慧模型在精神醫學診斷的表現，包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響，準確診斷常常困難。研究使用20個DSM-5的臨床案例，結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型，尤其在診斷精神病和雙相情感障礙方面表現突出，但在某些情況下則不佳。研究建議，人工智慧有潛力改善精神科診斷，但其他模型需進一步改進，未來應擴展數據集以增強診斷能力。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Large language models can support generation of standardized discharge summaries - A retrospective study utilizing ChatGPT-4 and electronic health records.
大型語言模型可以支持標準化出院摘要的生成 - 一項利用 ChatGPT-4 和電子健康紀錄的回顧性研究。 Int J Med Inform 2024-10-22

這項研究比較了ChatGPT-4生成的精神科出院摘要與住院醫師撰寫的摘要質量。研究結果顯示，人類撰寫的摘要在整體質量上明顯優於AI生成的，平均評分分別為3.78和3.12。人類摘要在大多數評估項目中表現更佳，且評分者偏好人類版本。AI摘要在40%的案例中出現幻覺，且內容錯誤率較高。雖然AI生成的摘要在簡潔性和正式性上有一定表現，但仍需改進，未來可作為醫生修訂的參考。 PubMed DOI

Aligning Large Language Models for Enhancing Psychiatric Interviews Through Symptom Delineation and Summarization: Pilot Study.
透過症狀劃分與總結來增強精神科訪談的大型語言模型對齊：初步研究。 JMIR Form Res 2024-10-24

這項研究探討大型語言模型（LLMs）在精神科訪談中的應用，特別針對北韓脫北者的心理健康挑戰。研究目標是確認LLMs能否有效識別精神病症狀並總結壓力源。主要任務包括提取壓力源、識別症狀及總結訪談內容。結果顯示，使用GPT-4 Turbo模型後，73個記錄片段準確關聯精神病症狀，經微調後性能提升，平均準確率達0.82。LLMs生成的摘要在連貫性和相關性上得分高，顯示其在心理健康領域的潛力。 PubMed DOI

Generative artificial intelligence writing open notes: A mixed methods assessment of the functionality of GPT 3.5 and GPT 4.0.
生成式人工智慧撰寫開放筆記：GPT 3.5 和 GPT 4.0 功能的混合方法評估。 Digit Health 2024-11-04

這項研究探討了OpenAI的ChatGPT 3.5和GPT 4.0在生成針對病人的臨床筆記時的表現，針對2型糖尿病、重度抑鬱症和懷疑腸癌三種病症進行分析。主要發現包括：生成的筆記比原始的更長，且使用了更多的代名詞；可讀性要求較高，特別是ChatGPT 3.5；同理心表現更佳；醫學準確性方面，ChatGPT 4.0的評價較高。總體來看，雖然增強了情感和同理心，但語言複雜性也提高，可能影響醫學準確性。 PubMed DOI

Integrating large language models in mental health practice: a qualitative descriptive study based on expert interviews.
整合大型語言模型於心理健康實務：基於專家訪談的質性描述性研究。 Front Public Health 2024-11-19

這項研究探討心理健康專家對大型語言模型（如ChatGPT）整合進心理健康實務的看法，透過對21位中國專業人士的訪談，發現四個主要主題： 1. **實務改革**：LLMs可提升心理健康服務的可及性與效率。 2. **科技鴻溝**：專家擔心誤導資訊及使用者風險。 3. **整合條件**：需培訓、制定指導方針，並保持透明。 4. **未來期望**：希望合理分配工作，持續改善技術。研究顯示LLMs在心理健康領域的潛力與挑戰，為機構提供實施與管理的建議。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Large language models and psychiatry.
大型語言模型與精神醫學。 Int J Law Psychiatry 2025-02-28

生成式人工智慧和大型語言模型（LLMs），如GPT-4，對臨床醫學和認知心理學影響深遠。這些模型在理解和生成語言方面表現優異，能改善臨床決策和心理諮詢。雖然LLMs在類比推理和隱喻理解上表現良好，但在因果推理和複雜規劃上仍有挑戰。本文探討LLMs的認知能力及其在心理測試中的表現，並討論其在認知心理學和精神醫學的應用、限制及倫理考量，強調進一步研究的重要性，以釋放其潛力。 PubMed DOI

原始文章

站上相關主題文章列表