The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於案例報告的神經眼科疾病診斷輔助。 J Neuroophthalmol 2025-01-09

這項研究評估了ChatGPT（包含GPT-3.5和GPT-4）在診斷神經眼科疾病的準確性，使用了22個病例。結果顯示，GPT-3.5的正確診斷率為59%，而GPT-4提升至82%。相比之下，兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5，顯示出其在臨床診斷上的潛力，但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

Can ChatGPT 4.0 Diagnose Epilepsy? A Study on Artificial Intelligence's Diagnostic Capabilities.
ChatGPT 4.0 能否診斷癲癇？人工智慧診斷能力的研究。 J Clin Med 2025-01-25

本研究評估了大型語言模型（如ChatGPT）在癲癇診斷中的有效性，並比較了癲癇醫師與AI的診斷一致性。研究分析了597名急診患者，結果顯示神經科醫師診斷癲癇的比例為36.2%，而ChatGPT僅為18.2%。兩者之間的協議極低，Cohen's kappa值為-0.01，顯示AI在癲癇診斷上無法與人類醫師相提並論。雖然AI在識別非癲癇病例上表現較好，但仍需進一步研究以提升其診斷準確性。 PubMed DOI

Neurological history both twinned and queried by generative artificial intelligence.
神經學歷史的雙重探討與生成式人工智慧的質詢。 Front Med (Lausanne) 2025-02-03

這項研究探討了使用GPT-4作為神經科學及醫學領域的病史採集工具。研究人員進行了一項觀察性試點研究，利用已發表的案例報告來獲取病史資料。研究使用三個模型來評估病史的準確性，結果顯示整體內容檢索準確率為81%。其中，頭痛的準確率為84%，中風82%，神經退行性疾病77%。雖然結果顯示這個大型語言模型能有效提取重要資訊，但仍需進一步驗證，以結合電子病歷和病人護理，發展更完善的診斷工具。 PubMed DOI

Supervised machine learning compared to large language models for identifying functional seizures from medical records.
從醫療紀錄中識別功能性癲癇的監督式機器學習與大型語言模型的比較。 Epilepsia 2025-02-17

這項研究比較了功能性癲癇發作可能性評分（FSLS）與兩個大型語言模型（ChatGPT和GPT-4）在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例，FSLS的準確率為74%，而GPT-4的準確率達85%。研究發現，LLMs的預測結果在不同時間不一致，且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患，但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂，顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Artificial intelligence (ChatGPT 4.0) vs. Human expertise for epileptic seizure and epilepsy diagnosis and classification in Adults: An exploratory study.
人工智慧 (ChatGPT 4.0) 與人類專業在成人癲癇發作及癲癇診斷與分類中的比較：一項探索性研究。 Epilepsy Behav 2025-03-13

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性，並與專家進行比較。使用37個臨床案例，結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%，但特異度較低，特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好，但在處理模糊案例時仍有困難。相比之下，人類專家的準確性更高。研究建議未來可將AI與專家結合，以提升癲癇診斷的準確性。 PubMed DOI

Leveraging pretrained language models for seizure frequency extraction from epilepsy evaluation reports.
利用預訓練語言模型從癲癇評估報告中提取癲癇發作頻率。 NPJ Digit Med 2025-04-14

這項研究專注於從非結構化的臨床敘述中提取癲癇發作頻率的結構化資訊，對評估治療和病人安全非常重要。研究人員針對兩個任務進行研究：識別發作頻率的短語和提取相關屬性。他們微調了多個模型，包括BERT和生成性大型語言模型如GPT-4。結果顯示，GPT-4在所有任務中表現最佳，發作頻率短語的精確度達86.61%，屬性提取達90.23%。這強調了微調生成模型在臨床文本資訊提取上的有效性。 PubMed DOI

Artificial intelligence in sleep medicine: assessing the diagnostic precision of ChatGPT-4.
睡眠醫學中的人工智慧：評估 ChatGPT-4 的診斷準確性 J Clin Sleep Med 2025-04-23

這項研究用19個真實案例測試ChatGPT-4診斷睡眠障礙的能力，結果顯示它能正確辨識約63%的鑑別診斷和近79%的最終診斷，對簡單案例表現較好。雖然有潛力協助診斷，但遇到複雜案例時準確率會下降，臨床應用前還需再改進和驗證。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於病例報告，ChatGPT 協助診斷神經眼科疾病 J Neuroophthalmol 2025-08-20

這項研究用22個神經眼科病例，比較ChatGPT（GPT-3.5和GPT-4）和兩位專科醫師的診斷能力。GPT-3.5正確率59%，GPT-4有82%，醫師則是86%。GPT-4的表現已經接近專科醫師，顯示AI有潛力協助診斷複雜眼腦疾病，尤其在缺乏專科醫師的地區。不過，臨床應用前還需要更多驗證安全性與可靠性。 PubMed DOI

原始文章

站上相關主題文章列表