Assessing the Responses of Large Language Models (ChatGPT-4, Gemini, and Microsoft Copilot) to Frequently Asked Questions in Breast Imaging: A Study on Readability and Accuracy.
評估大型語言模型（ChatGPT-4、Gemini 和 Microsoft Copilot）對乳房影像學常見問題的回應：可讀性和準確性研究。 Cureus 2024-05-10

研究比較了ChatGPT-4、Gemini和Microsoft Copilot在回答乳房影像問題時的易讀性和準確性。雖然ChatGPT-4更準確，但Gemini和Microsoft Copilot更容易理解。在醫療保健中，準確性和易讀性同樣重要，強調了在使用人工智慧技術時需要持續改進和監督。 PubMed DOI

Comparing Vision-Capable Models, GPT-4 and Gemini, With GPT-3.5 on Taiwan's Pulmonologist Exam.
比較具視覺能力的模型 GPT-4 和 Gemini 與 GPT-3.5 在台灣肺科醫師考試中的表現。 Cureus 2024-08-26

這項研究評估了先進大型語言模型（LLMs）在醫學考試中的視覺能力，特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試（肺部與重症醫學）的表現，並以僅處理文本的GPT-3.5為基準。結果顯示，GPT-4的表現持續優於Gemini和GPT-3.5，經常超過60的及格門檻，接近人類考生的水準。相對而言，Gemini的表現較低，而GPT-3.5得分最低，顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

Comparison of Gemini Advanced and ChatGPT 4.0's Performances on the Ophthalmology Resident Ophthalmic Knowledge Assessment Program (OKAP) Examination Review Question Banks.
Gemini Advanced 與 ChatGPT 4.0 在眼科住院醫師眼科知識評估計畫 (OKAP) 考試複習題庫上的表現比較。 Cureus 2024-10-18

這項研究系統性評估了兩個語言學習模型，ChatGPT-4.0 和 Google Bard 的 Gemini Advanced，在眼科問題的回答表現。使用眼科知識評估計畫的題庫，測試了260道選擇題。結果顯示，ChatGPT-4.0 在文字問題上的準確率為57.14%，高於 Gemini Advanced 的46.72%；在簡單問題上，ChatGPT-4.0 得分68.99%，而 Gemini Advanced 為49.61%。在圖像問題上，ChatGPT-4.0 的正確率為39.58%，Gemini Advanced 為33.33%。研究結論認為，ChatGPT-4.0 在眼科選擇題上表現較佳，顯示其在醫學教育中的潛力，但仍需進一步評估其可靠性。 PubMed DOI

Evaluating the reliability of the responses of large language models to keratoconus-related questions.
評估大型語言模型對圓錐角膜相關問題的回答可靠性。 Clin Exp Optom 2024-10-24

這項研究評估了三個大型語言模型（LLMs）——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜（KCN）相關問題的表現。研究者提出五十個問題，並由三位眼科醫生評分。結果顯示，ChatGPT-4 的表現最佳，100% 的回答得分在 3 分以上，且有 74% 的回答獲得「強烈同意」。相比之下，Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高，但可讀性較低，整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

Assessing the Responses of Large Language Models (ChatGPT-4, Claude 3, Gemini, and Microsoft Copilot) to Frequently Asked Questions in Retinopathy of Prematurity: A Study on Readability and Appropriateness.
評估大型語言模型（ChatGPT-4、Claude 3、Gemini 和 Microsoft Copilot）對早產兒視網膜病常見問題的回應：可讀性和適當性的研究。 J Pediatr Ophthalmol Strabismus 2024-10-28

這項研究評估了四個大型語言模型（LLMs）對父母詢問早產兒視網膜病（ROP）的回應。整理了60個常見問題，三位專家評估其回應的適當性和完整性。研究發現，ChatGPT-4的適當性得分最高（100%），但文本結構較複雜，需大學程度理解。相對而言，Gemini被認為最易讀，而Microsoft Copilot在可讀性指標上表現優異。總體來看，ChatGPT-4提供最準確的回應，但可能讓某些父母難以理解，Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

Evaluation of Responses to Questions About Keratoconus Using ChatGPT-4.0, Google Gemini and Microsoft Copilot: A Comparative Study of Large Language Models on Keratoconus.
使用 ChatGPT-4.0、Google Gemini 和 Microsoft Copilot 評估對於圓錐角膜問題的回答：大型語言模型在圓錐角膜上的比較研究。 Eye Contact Lens 2024-12-04

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot，針對圓錐角膜患者的問題回答效果。兩位眼科醫生使用5點李克特量表評估25個常見問題的回答，並用DISCERN量表和可讀性指標來檢視其可靠性。結果顯示，ChatGPT-4.0的表現最佳，92%的回答獲得「同意」或「強烈同意」，在準確性和細節上表現優異。不同模型間有顯著差異（P<0.001），雖然ChatGPT-4.0的回答較複雜，但仍被認為可靠且準確。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Evaluating the Accuracy of Gemini 2.0 Advanced and ChatGPT 4o in Cataract Knowledge: A Performance Analysis Using Brazilian Council of Ophthalmology Board Exam Questions.
評估 Gemini 2.0 Advanced 和 ChatGPT 4o 在白內障知識上的準確性：使用巴西眼科醫學會考試問題的表現分析。 Cureus 2025-03-27

這項研究評估了大型語言模型（LLMs），特別是Gemini 2.0 Advanced和ChatGPT-4o，在回答巴西眼科醫學考試中與白內障相關問題的準確性。分析了221道選擇題，結果顯示Gemini的準確率為85.45%和80.91%，而ChatGPT的得分為80.00%和84.09%。評估者之間的協議程度中等，Gemini的Cohen's kappa值為0.514，ChatGPT為0.431。整體而言，這兩個模型展現了高準確性，顯示出在醫學教育上的潛力，但仍需進一步改進和驗證。 PubMed DOI

原始文章

站上相關主題文章列表