Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Assessing the possibility of using large language models in ocular surface diseases.
評估大型語言模型在眼表疾病中的應用可能性。 Int J Ophthalmol 2025-01-20

這項研究評估了五個大型語言模型（LLMs）在回答眼表疾病相關問題的表現，包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題，涵蓋角膜炎等主題。結果顯示，ChatGPT-4的準確性和可信度最佳，成功率為59%，但仍有28%的錯誤率。PaLM2在答案準確性上表現良好，相關係數達0.8。整體而言，這些模型在醫學教育和臨床實踐中展現了潛力，特別是ChatGPT-4的表現尤為突出。 PubMed DOI

Evaluation of large language models for providing educational information in orthokeratology care.
大型語言模型在提供正規角膜塑形護理教育資訊中的評估。 Cont Lens Anterior Eye 2025-02-12

這項研究探討大型語言模型（LLMs）在教育患者有關矯正角膜塑形術的有效性。研究人員建立了24個相關問題的題庫，並使用GPT-4、Qwen-72B和Yi-34B生成中文回應。評估透過線上平台及眼科醫生和父母的主觀評價進行。主要發現包括： - Qwen-72B的回應最短。 - GPT-4的可讀性較低。 - 三個LLM在安全性、相關性等方面無顯著差異。 - 父母對所有LLM評價高，GPT-4在幫助性和滿意度上最佳。 - Qwen-72B的整體分數最高。總體而言，GPT-4和Qwen-72B提供準確的資訊，但仍需改進以提升精確度。 PubMed DOI

Evaluating the Efficacy of Large Language Models in Guiding Treatment Decisions for Pediatric Refractive Error.
評估大型語言模型在指導兒童屈光不正治療決策中的有效性。 Ophthalmol Ther 2025-02-22

這項研究評估了三個大型語言模型—ChatGPT-3.5、ChatGPT-4o 和文心一言—在分析兒童近視治療的有效性。研究使用100份兒童病歷，模型評估介入必要性並建議治療方案。結果顯示，ChatGPT-4o 的準確率達90%，GQS為4.4，表現優於其他模型，尤其在處理不完整數據時更佳。總體而言，ChatGPT-4o 展現出卓越的準確性和臨床安全性，可能成為兒童眼科的有用決策支持工具，但仍需專家監督。 PubMed DOI

Large Language Models in Ophthalmology: A Review of Publications from Top Ophthalmology Journals.
眼科中的大型語言模型：來自頂尖眼科期刊的出版物回顧。 Ophthalmol Sci 2025-03-21

這項研究回顧了大型語言模型（LLMs）在眼科的應用，特別是高排名期刊的相關文章，共分析了101篇研究，主要來自美國、英國和加拿大。研究指出，LLMs在醫學教育、臨床協助、研究及病人教育中有顯著貢獻，但也引發了對表現不一致、偏見及倫理問題的擔憂。作者強調持續改進AI的重要性，並呼籲建立倫理指導方針及跨學科合作，以應對這些挑戰，展現LLMs在眼科的潛力與限制。 PubMed DOI

Using large language models as decision support tools in emergency ophthalmology.
在急診眼科中使用大型語言模型作為決策支持工具。 Int J Med Inform 2025-03-27

這項研究評估了先進的大型語言模型（LLMs），如GPT-4、GPT-4o和Llama-3-70b，作為急診眼科決策支持工具的效果，並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例，兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示，人類專家的平均得分為3.72，GPT-4為3.52，Llama-3-70b為3.48，而GPT-4o得分最低，為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

Performance of popular large language models in glaucoma patient education: A randomized controlled study.
流行大型語言模型在青光眼患者教育中的表現：一項隨機對照研究。 Adv Ophthalmol Pract Res 2025-03-31

這項研究探討了四個大型語言模型（LLMs）——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答，並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動，並與醫生一起評分，標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示，Baichuan 2 和 ChatGPT-4.0 表現最佳，且兩者在患者和醫生評估中無顯著差異，結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

Evaluating multimodal ChatGPT for emergency decision-making of ocular trauma cases.
評估多模態 ChatGPT 在眼外傷案例緊急決策中的應用。 Front Cell Dev Biol 2025-04-11

這項研究評估了ChatGPT在急診環境中對眼部創傷的診斷及手術需求的有效性。分析了52個來自寧波眼科醫院的案例，使用GPT-3.5和GPT-4.0進行中英文分析，並結合眼部照片來評估表現。結果顯示，僅用文字的診斷準確率為GPT-3.5的80.77%-88.46%和GPT-4.0的94.23%-98.08%。但當加入圖像時，GPT-4.0的準確率降至63.46%。研究指出，雖然ChatGPT能協助急診醫生，但其對臨床圖像的理解能力仍需加強。 PubMed DOI

Coherent Interpretation of Entire Visual Field Test Reports Using a Multimodal Large Language Model (ChatGPT).
使用多模態大型語言模型（ChatGPT）對整份視野檢查報告進行一致性解讀 Vision (Basel) 2025-04-23

這項研究發現，ChatGPT-4o在讀取青光眼視野檢查報告的數值和文字資料時表現很準確，能正確判斷檢查可靠度和整體診斷，但在分辨視野缺損的類型和位置時容易搞混，尤其是上下方。整體來說，AI分析文字和數據比影像更強，但還有進步空間。 PubMed DOI

Multimodal large language models as assistance for evaluation of thyroid-associated ophthalmopathy.
多模態大型語言模型作為評估甲狀腺相關眼病（thyroid-associated ophthalmopathy）的輔助工具 Comput Biol Med 2025-05-02

這項研究發現，ChatGPT-4o 能準確用 CAS 評估甲狀腺相關眼病變的活動度，不論是看文字還是照片都行，表現比傳統 CNN 模型和 Gemini Advanced 更好，ROC-AUC 分數超高（0.974、0.990）。它還能自動做出簡單的網頁版 CAS 計算器，完全不用寫程式。不過，樣本數偏少，還沒在臨床實際驗證，未來還需要更多研究確認。 PubMed DOI

原始文章

站上相關主題文章列表