ChatGPT4's diagnostic accuracy in inpatient neurology: A retrospective cohort study.
住院神經科中 ChatGPT4 的診斷準確性：一項回顧性隊列研究。 Heliyon 2025-01-06

這項研究評估了ChatGPT-4在住院神經科的診斷準確性，並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據，CG4為51位病人生成了初步診斷和治療計畫。結果顯示，CG4的平均得分為2.57，顧問醫師為2.75，整體成功率相近（CG4為96.1%，顧問醫師為94.1%）。雖然顧問醫師的全面診斷可能性略高，但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於案例報告的神經眼科疾病診斷輔助。 J Neuroophthalmol 2025-01-09

這項研究評估了ChatGPT（包含GPT-3.5和GPT-4）在診斷神經眼科疾病的準確性，使用了22個病例。結果顯示，GPT-3.5的正確診斷率為59%，而GPT-4提升至82%。相比之下，兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5，顯示出其在臨床診斷上的潛力，但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

Evaluating the Potential of Large Language Models for Vestibular Rehabilitation Education: A Comparison of ChatGPT, Google Gemini, and Clinicians.
評估大型語言模型在前庭康復教育中的潛力：ChatGPT、Google Gemini 與臨床醫師的比較。 Phys Ther 2025-02-11

這項研究比較了 ChatGPT 和 Google Gemini 兩個大型語言模型在回答前庭康復相關問題的表現。三十位專業人士和學生參加了包含20題的前庭知識測試，結果顯示 ChatGPT 得分70%，優於 Gemini 的60%。兩者在臨床知識上表現優異，但在臨床推理方面則不佳。專家評估 ChatGPT 的回答準確性，發現45%為「全面的」，但25%完全不正確。研究建議在使用這些模型時需謹慎，並強調結合臨床專業知識的重要性，以提升病人護理。 PubMed DOI

Quality of Information Provided by Artificial Intelligence Chatbots Surrounding the Management of Vestibular Schwannomas: A Comparative Analysis Between ChatGPT-4 and Claude 2.
人工智慧聊天機器人提供的有關前庭神經瘤管理的資訊質量：ChatGPT-4 與 Claude 2 的比較分析。 Otol Neurotol 2025-02-18

這項研究評估了兩個人工智慧平台，ChatGPT-4 和 Claude 2，對前庭神經瘤管理資訊的品質。由19位側顱底外科醫生組成的評估小組使用醫療人工智慧品質評估問卷（QAMAI）來檢視36個問題的回答。結果顯示，ChatGPT-4在38.9%的問題上表現優於Claude 2，而Claude 2僅在5.6%的問題上得分較高。雖然ChatGPT-4在大多數方面表現較佳，但兩者在提供準確資訊上仍有困難，顯示患者使用這些工具時面臨錯誤資訊的風險。 PubMed DOI

Artificial intelligence (ChatGPT 4.0) vs. Human expertise for epileptic seizure and epilepsy diagnosis and classification in Adults: An exploratory study.
人工智慧 (ChatGPT 4.0) 與人類專業在成人癲癇發作及癲癇診斷與分類中的比較：一項探索性研究。 Epilepsy Behav 2025-03-13

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性，並與專家進行比較。使用37個臨床案例，結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%，但特異度較低，特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好，但在處理模糊案例時仍有困難。相比之下，人類專家的準確性更高。研究建議未來可將AI與專家結合，以提升癲癇診斷的準確性。 PubMed DOI

Evaluating ChatGPT for neurocognitive disorder diagnosis: a multicenter study.
評估 ChatGPT 在神經認知障礙診斷中的應用：一項多中心研究。 Clin Neuropsychol 2025-03-17

本研究評估ChatGPT 4 Omni在診斷神經認知障礙的準確性，並與早期版本比較。研究分為兩部分，第一部分分析其與臨床醫生的診斷一致性，涉及12,922名老年人，結果顯示有一定的關聯性，但準確性仍不足以獨立使用。第二部分則使用537名老年人的數據，未顯示顯著一致性。結論指出，雖然ChatGPT 4 Omni有潛力，但仍需改進與訓練，以提升其在臨床中的應用效果。 PubMed DOI

Ability of ChatGPT to Replace Doctors in Patient Education: Cross-Sectional Comparative Analysis of Inflammatory Bowel Disease.
ChatGPT 在病人教育中取代醫生的能力：炎症性腸病的橫斷面比較分析。 J Med Internet Res 2025-03-31

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現，特別針對炎症性腸病（IBD），並與專科醫生的回應進行比較。結果顯示，ChatGPT的整體品質評分與專科醫生相似，且在信息完整性上有明顯優勢。雖然準確性無顯著差異，但在患者和醫生共同回應時，ChatGPT表現較差。研究建議在健康信息創建和評估中，應納入患者的參與，以提升質量和相關性。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

ChatGPT-4o vs Psychiatrists in Responding to Common Antidepressant Concerns.
ChatGPT-4o 與精神科醫師在回應常見抗憂鬱劑疑慮上的比較 Am J Health Promot 2025-05-29

這項研究發現，ChatGPT-4o在回答抗憂鬱劑相關問題時，正確率跟有經驗的精神科醫師一樣高，回答也比較精簡，易讀性差不多。不過，醫師的說明還是比較清楚。雖然ChatGPT-4o有潛力協助病人衛教，但臨床專業還是不可取代的。 PubMed DOI

Comparative evaluation of the accuracy and reliability of ChatGPT versions in providing information on <i>Helicobacter pylori</i> infection.
ChatGPT 各版本在提供有關 Helicobacter pylori 感染資訊之準確性與可靠性的比較評估 Front Public Health 2025-05-30

這項研究比較了三種ChatGPT版本在回答幽門螺旋桿菌相關問題的表現。結果顯示，ChatGPT-4o答得最準確但穩定性較差，3.5版則最穩定但偶有錯誤。整體來說，AI聊天機器人能有效協助病患衛教，也能幫醫師提供可靠醫療資訊。 PubMed DOI

原始文章

站上相關主題文章列表