Evaluating Artificial Intelligence (AI)-Generated Patient Education Guides on Epilepsy: A Cross-Sectional Study of ChatGPT and Google Gemini.
評估人工智慧 (AI) 生成的癲癇患者教育指南：ChatGPT 和 Google Gemini 的橫斷面研究。 Cureus 2024-12-09

本研究比較了兩種人工智慧工具——ChatGPT和Google Gemini，在生成癲癇病人教育指南的有效性。結果顯示，兩者在多項指標上無顯著差異，但Google Gemini在理解難易度上表現較佳，特別是在全身性強直-陣攣發作、肌陣攣發作及癲癇持續狀態的回應中，且其每字音節數也較少。這顯示Google Gemini在病人教育方面更具優勢，未來需進一步提升AI工具的能力，以增進癲癇病人教育的效果。 PubMed DOI

ChatGPT4's diagnostic accuracy in inpatient neurology: A retrospective cohort study.
住院神經科中 ChatGPT4 的診斷準確性：一項回顧性隊列研究。 Heliyon 2025-01-06

這項研究評估了ChatGPT-4在住院神經科的診斷準確性，並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據，CG4為51位病人生成了初步診斷和治療計畫。結果顯示，CG4的平均得分為2.57，顧問醫師為2.75，整體成功率相近（CG4為96.1%，顧問醫師為94.1%）。雖然顧問醫師的全面診斷可能性略高，但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

Can ChatGPT 4.0 Diagnose Epilepsy? A Study on Artificial Intelligence's Diagnostic Capabilities.
ChatGPT 4.0 能否診斷癲癇？人工智慧診斷能力的研究。 J Clin Med 2025-01-25

本研究評估了大型語言模型（如ChatGPT）在癲癇診斷中的有效性，並比較了癲癇醫師與AI的診斷一致性。研究分析了597名急診患者，結果顯示神經科醫師診斷癲癇的比例為36.2%，而ChatGPT僅為18.2%。兩者之間的協議極低，Cohen's kappa值為-0.01，顯示AI在癲癇診斷上無法與人類醫師相提並論。雖然AI在識別非癲癇病例上表現較好，但仍需進一步研究以提升其診斷準確性。 PubMed DOI

Supervised machine learning compared to large language models for identifying functional seizures from medical records.
從醫療紀錄中識別功能性癲癇的監督式機器學習與大型語言模型的比較。 Epilepsia 2025-02-17

這項研究比較了功能性癲癇發作可能性評分（FSLS）與兩個大型語言模型（ChatGPT和GPT-4）在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例，FSLS的準確率為74%，而GPT-4的準確率達85%。研究發現，LLMs的預測結果在不同時間不一致，且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患，但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂，顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

The Clinical Value of ChatGPT for Epilepsy Presurgical Decision Making: Systematic Evaluation on Seizure Semiology Interpretation.
ChatGPT 在癲癇手術前決策中的臨床價值：對癲癇發作表現解釋的系統評估。 medRxiv 2025-02-20

這項研究探討了大型語言模型 ChatGPT 在解釋癲癇發作的臨床表現，以定位藥物抗性局部癲癇患者的癲癇病灶區的有效性。準確的病灶區定位對外科治療至關重要。研究比較了 ChatGPT 與癲癇專家的表現，使用了852組公開數據和184組台灣私有數據。結果顯示，ChatGPT 在額葉和顳葉的敏感性高達80-90%，且在常見病灶區的表現顯著優於專家。總體而言，ChatGPT 可成為癲癇術前評估的有用工具，未來隨著技術進步，其可靠性和有效性有望提升。 PubMed DOI

Can artificial intelligence diagnose seizures based on patients' descriptions? A study of GPT-4.
人工智慧能否根據病患的描述診斷癲癇？一項關於 GPT-4 的研究。 Epilepsia 2025-02-27

這篇論文探討了OpenAI的GPT-4在區分癲癇發作與功能性/解離性發作的能力。測試中，GPT-4在41個案例上表現出來，最初在沒有範例的情況下準確率為57%，提供一個範例後提升至64%，但更多範例並未進一步改善。相比之下，經驗豐富的神經科醫生平均達到71%的準確率。值得注意的是，在醫生一致同意的案例中，GPT-4的準確率達到81%。這顯示GPT-4的表現仍有限，但若能獲得更多臨床數據，或許能提升其診斷能力。 PubMed DOI

Compliance Evaluation with ChatGPT for diagnosis and treatment in patients brought to the ED with a Preliminary Diagnosis of Stroke.
急診室中對於初步診斷為中風患者的診斷與治療中，使用 ChatGPT 的遵從性評估。 Prehosp Emerg Care 2025-03-04

這項研究評估了ChatGPT在急診部門對懷疑中風患者的決策支持潛力，於安卡拉Etlik市立醫院進行，涵蓋512名患者。研究比較了ChatGPT在中風中心運送、大血管阻塞懷疑及治療選擇的決策，結果顯示其建議與實際結果一致性高，中風診斷敏感度達91%，靜脈內治療的高陰性預測值分別為98%和97%。雖然ChatGPT顯示出潛力，但研究強調醫師監督的重要性，建議將其作為輔助工具整合進臨床決策過程，以提升效率並確保患者安全。 PubMed DOI

Artificial intelligence (ChatGPT 4.0) vs. Human expertise for epileptic seizure and epilepsy diagnosis and classification in Adults: An exploratory study.
人工智慧 (ChatGPT 4.0) 與人類專業在成人癲癇發作及癲癇診斷與分類中的比較：一項探索性研究。 Epilepsy Behav 2025-03-13

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性，並與專家進行比較。使用37個臨床案例，結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%，但特異度較低，特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好，但在處理模糊案例時仍有困難。相比之下，人類專家的準確性更高。研究建議未來可將AI與專家結合，以提升癲癇診斷的準確性。 PubMed DOI

Transforming Neurosurgical Practice with Large Language Models: Comparative Performance of ChatGPT-Omni and Gemini in Complex Case Management.
以大型語言模型革新神經外科實務：ChatGPT-Omni 與 Gemini 在複雜病例管理中的表現比較 World Neurosurg 2025-05-22

這項研究比較ChatGPT-Omni和Gemini兩款AI在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini好，不論初次還是後續評估都領先。雖然兩者都有進步，但ChatGPT-Omni在所有神經外科情境下表現都較佳，更適合用於臨床決策和教育輔助。 PubMed DOI

Transforming neurosurgical practice with large language models: comparative performance of ChatGPT-omni and Gemini in complex case management.
以大型語言模型革新神經外科實踐：ChatGPT-omni 與 Gemini 在複雜病例管理中的表現比較 J Neurosurg Sci 2025-06-05

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀，不論初次或後續測試都拿到較高分。雖然兩者都有進步，但ChatGPT-Omni始終領先，顯示它在神經外科決策和教學上很有潛力。 PubMed DOI

原始文章

站上相關主題文章列表