Exploring the Role of ChatGPT-4, BingAI, and Gemini as Virtual Consultants to Educate Families about Retinopathy of Prematurity.
探討 ChatGPT-4、BingAI 和 Gemini 作為虛擬顧問，在教育家庭有關早產兒視網膜病變的角色。 Children (Basel) 2024-06-27

對於早產兒視網膜病變（ROP）相關問題，經評估後發現ChatGPT-4表現最好，回答最準確可靠；BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜，但提供詳盡可信賴的回答。總括而言，這些模型通常提供正確資訊。 PubMed DOI

Comparison of Gemini Advanced and ChatGPT 4.0's Performances on the Ophthalmology Resident Ophthalmic Knowledge Assessment Program (OKAP) Examination Review Question Banks.
Gemini Advanced 與 ChatGPT 4.0 在眼科住院醫師眼科知識評估計畫 (OKAP) 考試複習題庫上的表現比較。 Cureus 2024-10-18

這項研究系統性評估了兩個語言學習模型，ChatGPT-4.0 和 Google Bard 的 Gemini Advanced，在眼科問題的回答表現。使用眼科知識評估計畫的題庫，測試了260道選擇題。結果顯示，ChatGPT-4.0 在文字問題上的準確率為57.14%，高於 Gemini Advanced 的46.72%；在簡單問題上，ChatGPT-4.0 得分68.99%，而 Gemini Advanced 為49.61%。在圖像問題上，ChatGPT-4.0 的正確率為39.58%，Gemini Advanced 為33.33%。研究結論認為，ChatGPT-4.0 在眼科選擇題上表現較佳，顯示其在醫學教育中的潛力，但仍需進一步評估其可靠性。 PubMed DOI

A Performance Evaluation of Large Language Models in Keratoconus: A Comparative Study of ChatGPT-3.5, ChatGPT-4.0, Gemini, Copilot, Chatsonic, and Perplexity.
Keratoconus 中大型語言模型的性能評估：ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity 的比較研究。 J Clin Med 2024-11-09

本研究評估了六款流行聊天機器人（ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity）在提供圓錐角膜資訊的可靠性。使用 mDISCERN 和全球質量評分（GQS）指標進行評估，結果顯示大部分網站的責任性較低，且可讀性普遍偏高。Gemini 和 Copilot 的表現最佳，顯示出較高的可靠性和質量，但仍需改善以符合病人的健康素養需求。 PubMed DOI

Retinal Imaging Analysis Performed By ChatGPT-4o And Gemini Advanced: The Turning Point Of The Revolution?
ChatGPT-4o 和 Gemini Advanced 進行的視網膜影像分析：革命的轉折點？ Retina 2024-12-23

一項研究評估了聊天機器人GPT-4o和Gemini Advanced在視網膜疾病診斷的能力，分析了50個OCT/OCTA案例。結果顯示，ChatGPT-4o正確診斷了31個案例（62%），明顯優於Gemini Advanced的16個（p=0.0048）。Gemini Advanced在24%的案例中未能提供回應，且兩者都經常誤診黃斑水腫。ChatGPT-4o在外科視網膜問題和醫療視網膜疾病的診斷準確率較高。總體而言，ChatGPT-4o在影像診斷上表現更佳，但仍有改進空間。 PubMed DOI

Readability and Appropriateness of Responses Generated by ChatGPT 3.5, ChatGPT 4.0, Gemini, and Microsoft Copilot for FAQs in Refractive Surgery.
屈光手術常見問題中 ChatGPT 3.5、ChatGPT 4.0、Gemini 和 Microsoft Copilot 生成回應的可讀性與適當性。 Turk J Ophthalmol 2025-01-02

這項研究評估了四款大型語言模型（LLM）聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性，並用五種指標測量可讀性。結果顯示，ChatGPT 3.5 正確率為 45%，ChatGPT 4.0 為 52.5%，Gemini 表現最佳，達 87.5%，Copilot 則為 60%。所有機器人的可讀性都很困難，理解需具大學學位。儘管如此，Gemini 提供的答案最為適當，且可讀性較佳。總體而言，這些聊天機器人仍可能產生不當回應，且閱讀上有挑戰。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Evaluating the Accuracy of Gemini 2.0 Advanced and ChatGPT 4o in Cataract Knowledge: A Performance Analysis Using Brazilian Council of Ophthalmology Board Exam Questions.
評估 Gemini 2.0 Advanced 和 ChatGPT 4o 在白內障知識上的準確性：使用巴西眼科醫學會考試問題的表現分析。 Cureus 2025-03-27

這項研究評估了大型語言模型（LLMs），特別是Gemini 2.0 Advanced和ChatGPT-4o，在回答巴西眼科醫學考試中與白內障相關問題的準確性。分析了221道選擇題，結果顯示Gemini的準確率為85.45%和80.91%，而ChatGPT的得分為80.00%和84.09%。評估者之間的協議程度中等，Gemini的Cohen's kappa值為0.514，ChatGPT為0.431。整體而言，這兩個模型展現了高準確性，顯示出在醫學教育上的潛力，但仍需進一步改進和驗證。 PubMed DOI

Evaluating the Accuracy and Readability of ChatGPT-4o's Responses to Patient-Based Questions about Keratoconus.
評估 ChatGPT-4o 對於有關圓錐角膜的病人問題的回應準確性和可讀性。 Ophthalmic Epidemiol 2025-03-28

這項研究評估了大型語言模型ChatGPT-4o對圓錐角膜相關問題的回答準確性與可讀性。研究中，兩位眼科醫生對ChatGPT-4o的30個回答進行評分，結果顯示平均準確性為4.48分，評分一致性良好。然而，回答的可讀性較高，SMOG分數為15.49，FKGL為14.95，FRE為27.41，顯示一般民眾理解上有困難。雖然ChatGPT-4o的回答準確，但語言複雜性可能影響理解，建議未來改進以提升可及性。 PubMed DOI

Comparison of ChatGPT-4, Microsoft Copilot, and Google Gemini for Pediatric Ophthalmology Questions.
ChatGPT-4、Microsoft Copilot 與 Google Gemini 在小兒眼科問題上的比較 J Pediatr Ophthalmol Strabismus 2025-05-27

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現，Copilot正確率最高（74%），也最容易閱讀。雖然這些AI對學習有幫助，但答案不一定完全正確，使用時還是要多加留意。 PubMed DOI

原始文章

站上相關主題文章列表