A comparative analysis of GPT-3.5 and GPT-4.0 on a multiple-choice ophthalmology question bank: A study on artificial intelligence developments.
GPT-3.5 與 GPT-4.0 在多選眼科題庫上的比較分析：人工智慧發展的研究。 Rom J Ophthalmol 2025-02-12

這項研究評估了ChatGPT-4.0和ChatGPT-3.5在回答眼科問題準備庫中的多選題表現。隨機選取520道問題，結果顯示GPT-4.0正確率為78.46%（408道），而GPT-3.5為64.15%（333道），兩者差異具統計意義（p=0.0195）。GPT-4.0在所有子群分析中均優於GPT-3.5，顯示其在處理複雜醫學數據的能力更強。研究強調AI在醫學領域的潛力，並建議需有監考等措施以確保線上測試的完整性。呼籲進一步研究AI在臨床決策中的應用。 PubMed DOI

Performance of popular large language models in glaucoma patient education: A randomized controlled study.
流行大型語言模型在青光眼患者教育中的表現：一項隨機對照研究。 Adv Ophthalmol Pract Res 2025-03-31

這項研究探討了四個大型語言模型（LLMs）——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答，並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動，並與醫生一起評分，標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示，Baichuan 2 和 ChatGPT-4.0 表現最佳，且兩者在患者和醫生評估中無顯著差異，結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

Performance of DeepSeek, Qwen 2.5 MAX, and ChatGPT Assisting in Diagnosis of Corneal Eye Diseases, Glaucoma, and Neuro-Ophthalmology Diseases Based on Clinical Case Reports.
DeepSeek、Qwen 2.5 MAX 和 ChatGPT 在基於臨床案例報告診斷角膜眼病、青光眼及神經眼科疾病中的表現。 medRxiv 2025-04-01

這項研究評估了多種人工智慧模型在眼科疾病診斷的表現，包括DeepSeek。研究分析了53份來自愛荷華大學的病例報告，並將其輸入四個AI系統進行比較。結果顯示，ChatGPT-01的準確率最高，達84.9%，特別是在神經眼科方面表現優異。DeepSeek和ChatGPT-4.0的準確率約79.2%，而Qwens最低，僅64.2%。研究強調AI在眼科的輔助潛力，並建議結合人類專家的判斷以提升診斷準確性。 PubMed DOI

Comparative performance analysis of global and chinese-domain large language models for myopia.
全球與中國域大型語言模型在近視方面的比較性能分析。 Eye (Lond) 2025-04-13

這項研究評估了全球大型語言模型（LLMs）和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等，還有華佗GPT、MedGPT等中文模型。共評估39個問題，專家用3分制評分。結果顯示，ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳，且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看，無論是全球還是中文模型，都能有效解決近視問題，特別是全球模型表現優異。 PubMed DOI

Can OpenAI's New o1 Model Outperform Its Predecessors in Common Eye Care Queries?
OpenAI 新款 o1 模型在常見眼科問題的表現能超越前代模型嗎？ Ophthalmol Sci 2025-04-28

最新研究發現，OpenAI 的 o1 模型在回答眼科難題時，正確性和可讀性都比 ChatGPT-4 更好，和 ChatGPT-4o 差不多。不過，o1 在眼部症狀相關問題的完整性還是比較弱。總結來說，o1 整體表現優於 ChatGPT-4，但和 ChatGPT-4o 差異不大。 PubMed DOI

Large language model comparisons between English and Chinese query performance for cardiovascular prevention.
英語與中文查詢在心血管預防領域中大型語言模型表現之比較 Commun Med (Lond) 2025-05-16

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現，ChatGPT-4.0 英文答題最準確且自我覺察，中文則是 ERNIE 表現較好。不過，所有模型在中文表現都稍差，顯示有語言偏差。這提醒我們，AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

DeepSeek vs ChatGPT: a comparison study of their performance in answering prostate cancer radiotherapy questions in multiple languages.
DeepSeek 與 ChatGPT：多語言前列腺癌放射治療問答表現之比較研究 Am J Clin Exp Urol 2025-05-22

這項研究發現，DeepSeek 在用中文回答前列腺癌放射治療問題時，表現明顯優於 ChatGPT，尤其在基礎知識和治療照護方面更突出；但用英文時，兩者差異不大。這顯示選擇語言優化的 AI 模型很重要，但專家審查仍不可或缺。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

Evaluating Large Language Models in Ptosis-Related inquiries: A Cross-Lingual Study.
重語言模型於Ptosis相關問題的評估：一項跨語言研究 Transl Vis Sci Technol 2025-07-16

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現，發現GPT-4o在英文回答最優，Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢，但臨床應用前還需更多驗證和調整，顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI

Large Language Models Use in Dry Eye Disease: Perplexity AI versus ChatGPT4.
大型語言模型在乾眼症中的應用：Perplexity AI 與 ChatGPT4 之比較 Semin Ophthalmol 2025-08-19

ChatGPT4 和 Perplexity AI 回答乾眼症常見問題的表現差不多，整體品質中等，各方面分數也有落差。ChatGPT4 在提出研究點子上稍微優秀。這兩款 AI 也許能在門診協助病患衛教，但還是需要專家把關，且在研究點子或文獻搜尋方面都不太可靠。 PubMed DOI

原始文章

站上相關主題文章列表