Exploring the Role of ChatGPT-4, BingAI, and Gemini as Virtual Consultants to Educate Families about Retinopathy of Prematurity.
探討 ChatGPT-4、BingAI 和 Gemini 作為虛擬顧問，在教育家庭有關早產兒視網膜病變的角色。 Children (Basel) 2024-06-27

對於早產兒視網膜病變（ROP）相關問題，經評估後發現ChatGPT-4表現最好，回答最準確可靠；BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜，但提供詳盡可信賴的回答。總括而言，這些模型通常提供正確資訊。 PubMed DOI

Evaluation of the accuracy and readability of ChatGPT-4 and Google Gemini in providing information on retinal detachment: a multicenter expert comparative study.
關於視網膜脫落資訊的 ChatGPT-4 和 Google Gemini 準確性及可讀性的評估：一項多中心專家比較研究。 Int J Retina Vitreous 2024-09-02

這項研究評估了兩個大型語言模型，ChatGPT-4 和 Google Gemini，針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題，並由十位專家評分。結果顯示，Google Gemini 較易理解，但 ChatGPT-4 在正確答案上表現更佳，尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini，且在簡單和困難問題上都獲得更高評分。整體而言，這兩個 AI 工具有效提供準確的醫療資訊，建議可增強醫療護理。 PubMed DOI

Comparing the Ability of Google and ChatGPT to Accurately Respond to Oculoplastics-Related Patient Questions and Generate Customized Oculoplastics Patient Education Materials.
比較 Google 和 ChatGPT 在準確回答眼整形相關病人問題及生成客製化眼整形病人教育材料的能力。 Clin Ophthalmol 2024-09-26

這項研究比較了Google和ChatGPT在回答眼部整形手術常見問題的準確性和可讀性，並評估ChatGPT製作客製化病患教育材料的能力。結果顯示，ChatGPT的回答可讀性較高，平均年級水平為15.6，顯著高於Google的10.0。準確性方面，ChatGPT達93%，也優於Google的78%。此外，ChatGPT能有效調整內容至較低的閱讀水平，仍保持準確性。總體來看，ChatGPT在提供準確資訊和病患教育方面展現出良好潛力，有助於提升病患對眼科護理的理解。 PubMed DOI

A Performance Evaluation of Large Language Models in Keratoconus: A Comparative Study of ChatGPT-3.5, ChatGPT-4.0, Gemini, Copilot, Chatsonic, and Perplexity.
Keratoconus 中大型語言模型的性能評估：ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity 的比較研究。 J Clin Med 2024-11-09

本研究評估了六款流行聊天機器人（ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity）在提供圓錐角膜資訊的可靠性。使用 mDISCERN 和全球質量評分（GQS）指標進行評估，結果顯示大部分網站的責任性較低，且可讀性普遍偏高。Gemini 和 Copilot 的表現最佳，顯示出較高的可靠性和質量，但仍需改善以符合病人的健康素養需求。 PubMed DOI

Readability and Appropriateness of Responses Generated by ChatGPT 3.5, ChatGPT 4.0, Gemini, and Microsoft Copilot for FAQs in Refractive Surgery.
屈光手術常見問題中 ChatGPT 3.5、ChatGPT 4.0、Gemini 和 Microsoft Copilot 生成回應的可讀性與適當性。 Turk J Ophthalmol 2025-01-02

這項研究評估了四款大型語言模型（LLM）聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性，並用五種指標測量可讀性。結果顯示，ChatGPT 3.5 正確率為 45%，ChatGPT 4.0 為 52.5%，Gemini 表現最佳，達 87.5%，Copilot 則為 60%。所有機器人的可讀性都很困難，理解需具大學學位。儘管如此，Gemini 提供的答案最為適當，且可讀性較佳。總體而言，這些聊天機器人仍可能產生不當回應，且閱讀上有挑戰。 PubMed DOI

Accuracy and Readability of ChatGPT Responses to Patient-Centric Strabismus Questions.
ChatGPT 對以患者為中心的斜視問題的回答準確性和可讀性。 J Pediatr Ophthalmol Strabismus 2025-02-19

這項研究評估了ChatGPT在斜視醫療方面的準確性與可讀性，使用了免費版（3.5）和付費版（4.0）。共提出34個問題，並在加州和佛羅里達州的三個時間點進行評估。結果顯示，64%的回應被認為是「可接受的」，但根據版本和地點有所不同。佛羅里達州的回應更可能被評為「不準確且可能有害」。整體來看，雖然大部分回應可接受，但準確性和可讀性仍需提升，以增強對斜視家長和病患的實用性。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Comparison of performance of artificial intelligence tools in answering emergency medicine question pool: ChatGPT 4.0, Google Gemini and Microsoft Copilot.
人工智慧工具於急診醫學題庫作答表現之比較：ChatGPT 4.0、Google Gemini 與 Microsoft Copilot Pak J Med Sci 2025-04-28

這項研究比較了三款AI聊天機器人在土耳其醫學專科考試急診醫學題目的表現，發現 Copilot 錯誤率最低，Gemini 錯誤率最高。三款AI在創傷、外科、燒燙傷和小兒題目表現較差，遇到機率題時錯誤率也會增加。雖然AI能輔助學習，但不建議當作醫學考試的主要讀書工具。 PubMed DOI

Comperative analysis of three chatbot responses on pediatric primary nocturnal enuresis.
三種聊天機器人對於小兒原發性夜間遺尿症回應的比較分析 J Pediatr Urol 2025-05-12

這項研究發現，ChatGPT-4o在回答小兒夜間遺尿常見問題時，正確率最高（92.5%），表現優於Gemini和Copilot。雖然ChatGPT-4o在簡單醫療問題上很可靠，但AI建議還是要搭配醫師專業判斷使用。 PubMed DOI

AI Chatbots in Pediatric Orthopedics: How Accurate Are Their Answers to Parents' Questions on Bowlegs and Knock Knees?
兒童骨科中的 AI 聊天機器人：它們對家長關於 O 型腿與 X 型腿問題的回答有多準確？ Healthcare (Basel) 2025-06-13

這項研究比較了三款AI聊天機器人回答兒童O型腿和X型腿問題的表現。結果發現，ChatGPT和Gemini的答案比Copilot更正確、內容也更完整，但三者在表達清楚度和錯誤資訊風險上差不多。整體來說，AI可以協助提供健康資訊，但在兒科醫療領域，專家審核還是很重要。 PubMed DOI

原始文章

站上相關主題文章列表