Assessing the Responses of Large Language Models (ChatGPT-4, Gemini, and Microsoft Copilot) to Frequently Asked Questions in Breast Imaging: A Study on Readability and Accuracy.
評估大型語言模型（ChatGPT-4、Gemini 和 Microsoft Copilot）對乳房影像學常見問題的回應：可讀性和準確性研究。 Cureus 2024-05-10

研究比較了ChatGPT-4、Gemini和Microsoft Copilot在回答乳房影像問題時的易讀性和準確性。雖然ChatGPT-4更準確，但Gemini和Microsoft Copilot更容易理解。在醫療保健中，準確性和易讀性同樣重要，強調了在使用人工智慧技術時需要持續改進和監督。 PubMed DOI

Exploring the Role of ChatGPT-4, BingAI, and Gemini as Virtual Consultants to Educate Families about Retinopathy of Prematurity.
探討 ChatGPT-4、BingAI 和 Gemini 作為虛擬顧問，在教育家庭有關早產兒視網膜病變的角色。 Children (Basel) 2024-06-27

對於早產兒視網膜病變（ROP）相關問題，經評估後發現ChatGPT-4表現最好，回答最準確可靠；BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜，但提供詳盡可信賴的回答。總括而言，這些模型通常提供正確資訊。 PubMed DOI

Evaluation of the accuracy and readability of ChatGPT-4 and Google Gemini in providing information on retinal detachment: a multicenter expert comparative study.
關於視網膜脫落資訊的 ChatGPT-4 和 Google Gemini 準確性及可讀性的評估：一項多中心專家比較研究。 Int J Retina Vitreous 2024-09-02

這項研究評估了兩個大型語言模型，ChatGPT-4 和 Google Gemini，針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題，並由十位專家評分。結果顯示，Google Gemini 較易理解，但 ChatGPT-4 在正確答案上表現更佳，尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini，且在簡單和困難問題上都獲得更高評分。整體而言，這兩個 AI 工具有效提供準確的醫療資訊，建議可增強醫療護理。 PubMed DOI

Evaluating the reliability of the responses of large language models to keratoconus-related questions.
評估大型語言模型對圓錐角膜相關問題的回答可靠性。 Clin Exp Optom 2024-10-24

這項研究評估了三個大型語言模型（LLMs）——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜（KCN）相關問題的表現。研究者提出五十個問題，並由三位眼科醫生評分。結果顯示，ChatGPT-4 的表現最佳，100% 的回答得分在 3 分以上，且有 74% 的回答獲得「強烈同意」。相比之下，Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高，但可讀性較低，整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

Evaluation of Responses to Questions About Keratoconus Using ChatGPT-4.0, Google Gemini and Microsoft Copilot: A Comparative Study of Large Language Models on Keratoconus.
使用 ChatGPT-4.0、Google Gemini 和 Microsoft Copilot 評估對於圓錐角膜問題的回答：大型語言模型在圓錐角膜上的比較研究。 Eye Contact Lens 2024-12-04

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot，針對圓錐角膜患者的問題回答效果。兩位眼科醫生使用5點李克特量表評估25個常見問題的回答，並用DISCERN量表和可讀性指標來檢視其可靠性。結果顯示，ChatGPT-4.0的表現最佳，92%的回答獲得「同意」或「強烈同意」，在準確性和細節上表現優異。不同模型間有顯著差異（P<0.001），雖然ChatGPT-4.0的回答較複雜，但仍被認為可靠且準確。 PubMed DOI

Benchmarking the performance of large language models in uveitis: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, Google Gemini, and Anthropic Claude3.
大規模語言模型在葡萄膜炎中的性能基準：ChatGPT-3.5、ChatGPT-4.0、Google Gemini 和 Anthropic Claude3 的比較分析。 Eye (Lond) 2024-12-17

這項研究評估了四種大型語言模型（LLMs），包括ChatGPT（3.5和4.0版）、Google Gemini和Claude 3，針對葡萄膜炎的臨床問題進行回答。三位專家評估了27個問題的準確性、全面性和可讀性。結果顯示，Claude 3和ChatGPT 4的準確性明顯高於Gemini，Claude 3獲得最高的「優秀」評分（96.3%）。ChatGPT 4在全面性上也優於Gemini，而Gemini在可讀性方面表現最佳。總體來看，Claude 3和ChatGPT 4是提升患者對葡萄膜炎護理理解的有效工具。 PubMed DOI

Acceptability and readability of ChatGPT-4 based responses for frequently asked questions about strabismus and amblyopia.
ChatGPT-4 回應斜視和弱視常見問題的可接受性和可讀性。 J Fr Ophtalmol 2024-12-21

針對斜視和弱視的問題，ChatGPT-4的回應評估顯示，97%的回答是可接受的。這項研究由小兒眼科醫師獨立評估，並使用可讀性工具進行分析。雖然大部分回應都合格，但有3%的回應被認為不完整，且沒有發現不可接受的內容。不過，這些回應的可讀性較高，需具備大學程度的教育才能理解，顯示出ChatGPT-4在準確性上表現良好，但在可讀性上仍需改進，以便讓一般民眾和醫療專業人員更容易理解。 PubMed DOI

Readability and Appropriateness of Responses Generated by ChatGPT 3.5, ChatGPT 4.0, Gemini, and Microsoft Copilot for FAQs in Refractive Surgery.
屈光手術常見問題中 ChatGPT 3.5、ChatGPT 4.0、Gemini 和 Microsoft Copilot 生成回應的可讀性與適當性。 Turk J Ophthalmol 2025-01-02

這項研究評估了四款大型語言模型（LLM）聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性，並用五種指標測量可讀性。結果顯示，ChatGPT 3.5 正確率為 45%，ChatGPT 4.0 為 52.5%，Gemini 表現最佳，達 87.5%，Copilot 則為 60%。所有機器人的可讀性都很困難，理解需具大學學位。儘管如此，Gemini 提供的答案最為適當，且可讀性較佳。總體而言，這些聊天機器人仍可能產生不當回應，且閱讀上有挑戰。 PubMed DOI

The Ability of Large Language Models to Generate Patient Information Materials for Retinopathy of Prematurity: Evaluation of Readability, Accuracy, and Comprehensiveness.
大型語言模型生成早產兒視網膜病患者資訊材料的能力：可讀性、準確性和全面性的評估。 Turk J Ophthalmol 2025-01-02

這項研究評估了土耳其眼科協會針對早產兒視網膜病變的病患教育材料可讀性，並與大型語言模型（如GPT-4.0、GPT-4o mini和Gemini）生成的內容進行比較。結果顯示，TOA的材料可讀性超過六年級，而GPT-4.0和Gemini則更易讀。經調整後，GPT-4.0的可讀性改善，且在準確性和全面性上得分最高，Gemini則最低。研究指出，GPT-4.0在創建可及的病患教育材料上有潛力，但使用LLMs時需考慮地區醫療差異和資訊準確性。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

原始文章

站上相關主題文章列表