Evaluation of the accuracy and readability of ChatGPT-4 and Google Gemini in providing information on retinal detachment: a multicenter expert comparative study.
關於視網膜脫落資訊的 ChatGPT-4 和 Google Gemini 準確性及可讀性的評估：一項多中心專家比較研究。 Int J Retina Vitreous 2024-09-02

這項研究評估了兩個大型語言模型，ChatGPT-4 和 Google Gemini，針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題，並由十位專家評分。結果顯示，Google Gemini 較易理解，但 ChatGPT-4 在正確答案上表現更佳，尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini，且在簡單和困難問題上都獲得更高評分。整體而言，這兩個 AI 工具有效提供準確的醫療資訊，建議可增強醫療護理。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Comparison of Gemini Advanced and ChatGPT 4.0's Performances on the Ophthalmology Resident Ophthalmic Knowledge Assessment Program (OKAP) Examination Review Question Banks.
Gemini Advanced 與 ChatGPT 4.0 在眼科住院醫師眼科知識評估計畫 (OKAP) 考試複習題庫上的表現比較。 Cureus 2024-10-18

這項研究系統性評估了兩個語言學習模型，ChatGPT-4.0 和 Google Bard 的 Gemini Advanced，在眼科問題的回答表現。使用眼科知識評估計畫的題庫，測試了260道選擇題。結果顯示，ChatGPT-4.0 在文字問題上的準確率為57.14%，高於 Gemini Advanced 的46.72%；在簡單問題上，ChatGPT-4.0 得分68.99%，而 Gemini Advanced 為49.61%。在圖像問題上，ChatGPT-4.0 的正確率為39.58%，Gemini Advanced 為33.33%。研究結論認為，ChatGPT-4.0 在眼科選擇題上表現較佳，顯示其在醫學教育中的潛力，但仍需進一步評估其可靠性。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於案例報告的神經眼科疾病診斷輔助。 J Neuroophthalmol 2025-01-09

這項研究評估了ChatGPT（包含GPT-3.5和GPT-4）在診斷神經眼科疾病的準確性，使用了22個病例。結果顯示，GPT-3.5的正確診斷率為59%，而GPT-4提升至82%。相比之下，兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5，顯示出其在臨床診斷上的潛力，但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

Accuracy of ChatGPT 3.5, 4.0, 4o and Gemini in diagnosing oral potentially malignant lesions based on clinical case reports and image recognition.
基於臨床案例報告和影像識別，ChatGPT 3.5、4.0、4o 和 Gemini 在診斷口腔潛在惡性病變的準確性。 Med Oral Patol Oral Cir Bucal 2025-01-26

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變（OPMLs）的準確性，特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示，GPT 4o在文本診斷中表現最佳，正確回答27個案例，其次是GPT 4.0、3.5和Gemini。在影像識別方面，GPT 4o也優於Gemini。不過，這些模型的準確性仍未達到專家水平，顯示出中等到良好的協議程度。研究指出，雖然人工智慧在診斷OPMLs上有潛力，但整合進臨床實踐時需謹慎。 PubMed DOI

Using ChatGPT-4 in visual field test assessment.
使用 ChatGPT-4 進行視野測試評估。 Clin Exp Optom 2025-02-12

這項研究評估了ChatGPT-4在解讀視野測試的有效性，對於診斷青光眼等眼科疾病非常重要。分析了30份視野測試報告，結果顯示ChatGPT-4在識別測試名稱、模式和全球視野指數方面表現優異，準確率分別為100%、90%和96.7%。不過，在解讀偏差圖和灰階圖的準確率較低，分別為66.7%和30%。此外，正確分類測試為「正常」或提出診斷建議的成功率僅有33.3%。這顯示出ChatGPT-4在數據解讀上有潛力，但在複雜的視覺解釋和診斷建議上仍有待加強。 PubMed DOI

Accuracy of Artificial Intelligence Versus Clinicians in Real-Life Case Scenarios of Retinopathy of Prematurity.
人工智慧與臨床醫生在早產兒視網膜病實際案例情境中的準確性比較。 Cureus 2025-03-10

這項研究評估了ChatGPT在處理早產兒視網膜病（ROP）案例時的準確性，並與臨床醫師進行比較。參與者包括13位醫師，涵蓋經驗較少的訓練生和資深專家，針對10個案例進行評估。結果顯示，ChatGPT的準確率達90%，超過訓練生的77.5%，而專家的準確率為96%。臨床醫師與ChatGPT的回應一致性高，Cohen's kappa值為0.80，顯示ChatGPT在ROP案例中可作為有價值的工具，若能優化提示，準確性可能進一步提升。 PubMed DOI

Performance of DeepSeek, Qwen 2.5 MAX, and ChatGPT Assisting in Diagnosis of Corneal Eye Diseases, Glaucoma, and Neuro-Ophthalmology Diseases Based on Clinical Case Reports.
DeepSeek、Qwen 2.5 MAX 和 ChatGPT 在基於臨床案例報告診斷角膜眼病、青光眼及神經眼科疾病中的表現。 medRxiv 2025-04-01

這項研究評估了多種人工智慧模型在眼科疾病診斷的表現，包括DeepSeek。研究分析了53份來自愛荷華大學的病例報告，並將其輸入四個AI系統進行比較。結果顯示，ChatGPT-01的準確率最高，達84.9%，特別是在神經眼科方面表現優異。DeepSeek和ChatGPT-4.0的準確率約79.2%，而Qwens最低，僅64.2%。研究強調AI在眼科的輔助潛力，並建議結合人類專家的判斷以提升診斷準確性。 PubMed DOI

Chat GPT vs an experienced ophthalmologist: evaluating chatbot writing performance in ophthalmology.
Chat GPT 與經驗豐富的眼科醫師：評估聊天機器人在眼科寫作表現。 Eye (Lond) 2025-04-01

本研究評估了ChatGPT在眼科領域撰寫科學引言的能力，並與經驗豐富的眼科醫師進行比較。十位專家在不知情的情況下評估了ChatGPT和人類撰寫的引言，準確率為57.7%。錯誤分類率在不同子專科中差異顯著，眼整形的錯誤率最高。評估指標顯示，ChatGPT生成的引言與人類撰寫的並無顯著差異，近一半的引言無法區分。這顯示ChatGPT在眼科科學內容生成上有顯著進步，未來應探討其在學術寫作中的潛力與倫理影響。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於病例報告，ChatGPT 協助診斷神經眼科疾病 J Neuroophthalmol 2025-08-20

這項研究用22個神經眼科病例，比較ChatGPT（GPT-3.5和GPT-4）和兩位專科醫師的診斷能力。GPT-3.5正確率59%，GPT-4有82%，醫師則是86%。GPT-4的表現已經接近專科醫師，顯示AI有潛力協助診斷複雜眼腦疾病，尤其在缺乏專科醫師的地區。不過，臨床應用前還需要更多驗證安全性與可靠性。 PubMed DOI

原始文章

站上相關主題文章列表