Evaluation of the accuracy and readability of ChatGPT-4 and Google Gemini in providing information on retinal detachment: a multicenter expert comparative study.
關於視網膜脫落資訊的 ChatGPT-4 和 Google Gemini 準確性及可讀性的評估：一項多中心專家比較研究。 Int J Retina Vitreous 2024-09-02

這項研究評估了兩個大型語言模型，ChatGPT-4 和 Google Gemini，針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題，並由十位專家評分。結果顯示，Google Gemini 較易理解，但 ChatGPT-4 在正確答案上表現更佳，尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini，且在簡單和困難問題上都獲得更高評分。整體而言，這兩個 AI 工具有效提供準確的醫療資訊，建議可增強醫療護理。 PubMed DOI

Examining the competence of artificial intelligence programs in neuro-ophthalmological disorders and analyzing their comparative superiority.
檢視人工智慧程式在神經眼科疾病中的能力及分析其比較優越性。 Oman J Ophthalmol 2024-12-09

這項研究評估了三款人工智慧聊天機器人—ChatGPT、Bing 和 Bard—在神經眼科疾病方面的知識。研究使用了美國眼科醫學會2022-2023年神經眼科書籍中的40個問題，結果顯示：ChatGPT的正確率為52.5%、Bing為55%、Bard為65%。統計分析顯示它們之間的表現差異不顯著（P = 0.489）。雖然這些AI能快速提供資訊，但回答不一定準確，因此使用時需謹慎。 PubMed DOI

Retinal Imaging Analysis Performed By ChatGPT-4o And Gemini Advanced: The Turning Point Of The Revolution?
ChatGPT-4o 和 Gemini Advanced 進行的視網膜影像分析：革命的轉折點？ Retina 2024-12-23

一項研究評估了聊天機器人GPT-4o和Gemini Advanced在視網膜疾病診斷的能力，分析了50個OCT/OCTA案例。結果顯示，ChatGPT-4o正確診斷了31個案例（62%），明顯優於Gemini Advanced的16個（p=0.0048）。Gemini Advanced在24%的案例中未能提供回應，且兩者都經常誤診黃斑水腫。ChatGPT-4o在外科視網膜問題和醫療視網膜疾病的診斷準確率較高。總體而言，ChatGPT-4o在影像診斷上表現更佳，但仍有改進空間。 PubMed DOI

Artificial Doctors: Performance of Chatbots as a Tool for Patient Education on Keratoconus.
人工醫生：聊天機器人在角膜圓錐症患者教育中的表現。 Eye Contact Lens 2025-01-09

這項研究評估了 ChatGPT、Bard 和 Copilot 在回答圓錐角膜患者問題的效果，並與美國眼科學會（AAO）網站進行比較。研究分析了二十個問題的準確性、可理解性、可行性和可讀性。結果顯示，Bard 在準確性和可理解性上表現最佳，超過了 ChatGPT、Copilot 和 AAO 網站；而 Bard 和 ChatGPT 的回應在可行性上也優於 AAO 網站，但 AAO 的可讀性得分較高。整體而言，研究指出聊天機器人能有效支持圓錐角膜患者教育，可能減少不必要的就診，並提升患者認知。 PubMed DOI

Assessing chatbots ability to produce leaflets on cataract surgery: Bing AI, chatGPT 3.5, chatGPT 4o, ChatSonic, Google Bard, Perplexity and Pi.
評估聊天機器人製作白內障手術宣傳單的能力：Bing AI、chatGPT 3.5、chatGPT 4、ChatSonic、Google Bard、Perplexity 和 Pi。 J Cataract Refract Surg 2025-01-31

這項研究評估了七款熱門聊天機器人生成的白內障手術病人資訊手冊的品質，包括Bing AI、ChatGPT 3.5、ChatGPT 4、ChatSonic、Google Bard、Perplexity和Pi。研究發現，ChatSonic的回應品質最佳，其次是Bing AI和Perplexity，而ChatGPT 3.5的表現最差，還包含錯誤資訊。Bing AI、ChatSonic和Perplexity提供了可靠的參考資料，顯示出在醫療資訊提供上，聊天機器人的品質和可靠性差異明顯，特別是ChatSonic在眼科病人教育方面的潛力。 PubMed DOI

The performance of ChatGPT-4 and Bing Chat in frequently asked questions about glaucoma.
ChatGPT-4 和 Bing Chat 在青光眼常見問題中的表現。 Eur J Ophthalmol 2025-02-20

這項研究評估了ChatGPT-4和Bing Chat對34個青光眼常見問題的回應，重點在適當性、準確性和可讀性。結果顯示，ChatGPT-4的適當回應比例為88.2%，高於Bing Chat的79.2%。兩者在準確性上差異不大，ChatGPT-4略高（3.86），Bing Chat為3.70。可讀性方面，兩者的回應對一般美國成年人來說都較難理解，ChatGPT-4的字數平均為316.5，明顯高於Bing Chat的61.6字。總體而言，雖然兩者都提供適當回應，但ChatGPT-4的回應較複雜且可讀性較低。 PubMed DOI

Evaluating the Efficacy of Artificial Intelligence-Driven Chatbots in Addressing Queries on Vernal Conjunctivitis.
評估人工智慧驅動的聊天機器人在解答春季結膜炎相關問題上的效能。 Cureus 2025-03-31

春季角結膜炎（VKC）是一種常見的過敏性眼病，病人教育對於管理此病至關重要。研究評估了 Google Gemini Advanced 聊天機器人在回答與 VKC 相關問題的準確性和可靠性。結果顯示，該 AI 工具的回應準確率高達86.4%，且評估者間一致性良好（Cronbach's alpha = 0.92）。雖然在一般查詢中表現優異，但在複雜治療指導上仍需改進。總體而言，Google Gemini Advanced 是一個可靠的病人教育工具，但專家監督仍然重要，未來需進一步研究以提升其臨床應用能力。 PubMed DOI

Performance of DeepSeek, Qwen 2.5 MAX, and ChatGPT Assisting in Diagnosis of Corneal Eye Diseases, Glaucoma, and Neuro-Ophthalmology Diseases Based on Clinical Case Reports.
DeepSeek、Qwen 2.5 MAX 和 ChatGPT 在基於臨床案例報告診斷角膜眼病、青光眼及神經眼科疾病中的表現。 medRxiv 2025-04-01

這項研究評估了多種人工智慧模型在眼科疾病診斷的表現，包括DeepSeek。研究分析了53份來自愛荷華大學的病例報告，並將其輸入四個AI系統進行比較。結果顯示，ChatGPT-01的準確率最高，達84.9%，特別是在神經眼科方面表現優異。DeepSeek和ChatGPT-4.0的準確率約79.2%，而Qwens最低，僅64.2%。研究強調AI在眼科的輔助潛力，並建議結合人類專家的判斷以提升診斷準確性。 PubMed DOI

Artificial Intelligence vs. Human Cognition: A Comparative Analysis of ChatGPT and Candidates Sitting the European Board of Ophthalmology Diploma Examination.
人工智慧與人類認知：ChatGPT 與參加歐洲眼科醫學會文憑考試考生的比較分析 Vision (Basel) 2025-04-23

這項研究發現，ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯，平均得分64.4%，但在單一最佳答案題型只拿到28.4%，明顯輸給人類考生。它在資訊查找上較強，但知識整合能力較弱。整體來說，ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

Comparison of ChatGPT-4, Microsoft Copilot, and Google Gemini for Pediatric Ophthalmology Questions.
ChatGPT-4、Microsoft Copilot 與 Google Gemini 在小兒眼科問題上的比較 J Pediatr Ophthalmol Strabismus 2025-05-27

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現，Copilot正確率最高（74%），也最容易閱讀。雖然這些AI對學習有幫助，但答案不一定完全正確，使用時還是要多加留意。 PubMed DOI

原始文章

站上相關主題文章列表