Comparing ChatGPT 3.5 and 4.0 in Low Back Pain Patient Education: Addressing Strengths Limitations, and Psychosocial Challenges.
比較 ChatGPT 3.5 和 4.0 在下背痛患者教育中的應用：應對優勢、限制及心理社會挑戰。 World Neurosurg 2025-02-14

這項研究評估了AI工具，特別是ChatGPT 3.5和4.0，在提供低背痛患者教育的效果。結果顯示，ChatGPT 4.0在回應質量上明顯優於3.5，得分分別為1.03和2.07，且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳，顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

Evaluating ChatGPT for neurocognitive disorder diagnosis: a multicenter study.
評估 ChatGPT 在神經認知障礙診斷中的應用：一項多中心研究。 Clin Neuropsychol 2025-03-17

本研究評估ChatGPT 4 Omni在診斷神經認知障礙的準確性，並與早期版本比較。研究分為兩部分，第一部分分析其與臨床醫生的診斷一致性，涉及12,922名老年人，結果顯示有一定的關聯性，但準確性仍不足以獨立使用。第二部分則使用537名老年人的數據，未顯示顯著一致性。結論指出，雖然ChatGPT 4 Omni有潛力，但仍需改進與訓練，以提升其在臨床中的應用效果。 PubMed DOI

Evaluating the agreement between ChatGPT-4 and validated questionnaires in screening for anxiety and depression in college students: a cross-sectional study.
評估 ChatGPT-4 與經驗證問卷在篩檢大學生焦慮和憂鬱症方面的一致性：一項橫斷面研究。 BMC Psychiatry 2025-04-11

這項研究評估了ChatGPT-4生成的問卷在焦慮和憂鬱評估上的有效性，並與PHQ-9和GAD-7進行比較。新問卷GPT-PHQ-9和GPT-GAD-7在200名大學生中測試，結果顯示其可靠性可接受（Cronbach's α分別為0.75和0.76），且與已驗證工具一致性良好（ICC值為0.80和0.70）。研究發現中等相關性，憂鬱和焦慮的最佳截斷分數分別為9.5和6.5，顯示高敏感性和特異性。這些結果顯示ChatGPT-4調整的問卷值得在不同族群中進一步研究。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

Assessing the Accuracy of ChatGPT in Answering Questions About Prolonged Disorders of Consciousness.
ChatGPT 回答有關長期意識障礙問題之準確性評估 Brain Sci 2025-05-01

這項研究比較了兩款 ChatGPT（4o 和 o1）在回答長期意識障礙照顧者常見問題時的表現。結果顯示，兩者大多能給出正確答案（正確率 81–97%），其中 4o 在英文臨床問題上更有同理心，準確度也稍高。o1 在義大利文回答時則更常建議諮詢醫師。雖然這些 AI 有幫助，但建議還是要再跟醫療專業人員確認。 PubMed DOI

Confirming SPSS Results With ChatGPT-4 and o3-mini Models.
使用 ChatGPT-4 與 o3-mini 模型驗證 SPSS 結果 Cureus 2025-05-12

這項研究發現，ChatGPT-4 在基礎統計分析上表現接近 SPSS，但在進階統計（如 MANOVA）會出錯；而 ChatGPT o3-mini 在相關分析和多變量檢定時，結果常不準確或誇大。整體來說，AI 工具雖有潛力，但目前還無法完全取代傳統統計軟體，特別是在複雜分析上。 PubMed DOI

Comparing ChatGPT-4 and Human Translation of an Outcome Questionnaire: A Randomized, Double-Blinded Non-inferiority Study.
ChatGPT-4 與人工翻譯結果問卷之比較：一項隨機、雙盲、非劣性研究 Cureus 2025-05-19

這項研究發現，把醫學問卷從英文翻成丹麥文時，ChatGPT-4只要經過人工審查和驗證，翻譯品質就跟傳統人工翻譯沒什麼差別。無論是可讀性、理解度還是語言表現，大家的偏好都差不多，所以AI翻譯其實可以取代傳統問卷翻譯方式。 PubMed DOI

Assessing the Accuracy and Reliability of Large Language Models in Psychiatry Using Standardized Multiple-Choice Questions: Cross-Sectional Study.
使用標準化選擇題評估大型語言模型於精神醫學中的準確性與可靠性：橫斷面研究 J Med Internet Res 2025-05-20

這項研究用150題選擇題測試GPT-3.5、GPT-4和GPT-4o的精神醫學知識，結果GPT-4和GPT-4o的正確率（84%和87.3%）明顯高於GPT-3.5（58%），而且新版模型答題更一致。重複作答的一致性能預測正確率，但模型自評信心沒什麼參考價值。整體來說，GPT-4和GPT-4o在精神醫學知識上表現可靠，有潛力應用於心理健康領域，但複雜臨床任務還需更多研究。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

ChatGPT-4o vs Psychiatrists in Responding to Common Antidepressant Concerns.
ChatGPT-4o 與精神科醫師在回應常見抗憂鬱劑疑慮上的比較 Am J Health Promot 2025-05-29

這項研究發現，ChatGPT-4o在回答抗憂鬱劑相關問題時，正確率跟有經驗的精神科醫師一樣高，回答也比較精簡，易讀性差不多。不過，醫師的說明還是比較清楚。雖然ChatGPT-4o有潛力協助病人衛教，但臨床專業還是不可取代的。 PubMed DOI

原始文章

站上相關主題文章列表