Assessment of a Large Language Model's Responses to Questions and Cases About Glaucoma and Retina Management.
評估大型語言模型光學神經病變和視網膜管理問題的回答。 JAMA Ophthalmol 2024-02-25

大型語言模型（LLMs）正在改變醫學診斷和治療，提供高準確度，超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應，發現LLM在診斷上表現優異，甚至勝過專家，顯示其在眼科診斷上的潛力。 PubMed DOI

Utility of artificial intelligence-based large language models in ophthalmic care.
人工智慧大型語言模型在眼科護理中的應用價值。 Ophthalmic Physiol Opt 2024-04-08

眼科護理中，LLMs像ChatGPT引起關注。研究指出在病人資訊、臨床診斷和眼科問題上有幫助。LLM表現受到迭代、提示和領域的影響。ChatGPT-4在眼科考試、症狀分類和提供資訊方面表現良好。LLMs有潛力，但在專業領域表現不盡理想。需要進一步研究，不可完全依賴人工智慧。設定標準並評估LLMs在臨床環境中的成功應用至關重要。 PubMed DOI

A Qualitative Evaluation of ChatGPT4 and PaLM2's Response to Patient's Questions Regarding Age-Related Macular Degeneration.
對於患者關於年齡相關性黃斑變性問題的 ChatGPT4 和 PaLM2 回應的質性評估。 Diagnostics (Basel) 2024-07-27

這篇論文探討了兩個大型語言模型（LLMs），ChatGPT4 和 PaLM2，對於年齡相關黃斑變性（AMD）患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題，並讓這兩個模型及三位眼科醫生回答。結果顯示，ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2，顯示出這些模型在患者教育上的潛力，但仍需謹慎使用，不能取代專業醫療建議。 PubMed DOI

Benchmarking four large language models' performance of addressing Chinese patients' inquiries about dry eye disease: A two-phase study.
評估四個大型語言模型在解答中國患者對乾眼症詢問的表現：一項兩階段研究。 Heliyon 2024-08-08

這項研究評估了四個大型語言模型（LLMs）在生成中國患者對乾眼症問題的回應表現。研究分為兩個階段，第一階段由六位眼科醫生根據正確性、完整性、可讀性、有用性和安全性對回應進行評分。結果顯示，GPT-4在各方面表現最佳，但可讀性較低。第二階段中，46位患者向GPT-4和Baichuan 2提問，發現GPT-4的完整性較高，但Baichuan 2的回應更易理解。整體而言，這些模型在提供乾眼症相關資訊上展現了潛力，對中國患者意義重大。 PubMed DOI

Evaluating the effectiveness of large language models in patient education for conjunctivitis.
評估大型語言模型在結膜炎患者教育中的有效性。 Br J Ophthalmol 2024-08-30

這項研究評估了大型語言模型（LLMs）在回答結膜炎相關問題的有效性，於復旦大學眼耳鼻喉醫院進行。研究分為兩階段，第一階段四個LLM（GPT-4、Qwen、Baichuan 2和PaLM 2）回答22個問題，專家評估其正確性、完整性等。結果顯示GPT-4表現最佳，Qwen在有用性和安全性上也不錯。第二階段中，30名結膜炎患者與GPT-4或Qwen互動，滿意度高。研究結論認為LLMs能提升患者教育，但需改善個性化和複雜性處理能力。 PubMed DOI

Evaluating the reliability of the responses of large language models to keratoconus-related questions.
評估大型語言模型對圓錐角膜相關問題的回答可靠性。 Clin Exp Optom 2024-10-24

這項研究評估了三個大型語言模型（LLMs）——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜（KCN）相關問題的表現。研究者提出五十個問題，並由三位眼科醫生評分。結果顯示，ChatGPT-4 的表現最佳，100% 的回答得分在 3 分以上，且有 74% 的回答獲得「強烈同意」。相比之下，Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高，但可讀性較低，整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

Assessment of Large Language Models in Cataract Care Information Provision: A Quantitative Comparison.
大型語言模型在白內障護理資訊提供中的評估：定量比較。 Ophthalmol Ther 2024-11-08

白內障是失明的主要原因之一，許多人在線上尋求醫療建議，但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題，評估了不同大型語言模型（LLMs）的回應準確性與完整性。結果顯示，ChatGPT-4o和Google Bard在準確性上表現優異，ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力，特別是在預防方面，並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

Comparison of Large Language Models in Diagnosis and Management of Challenging Clinical Cases.
大型語言模型在挑戰性臨床案例診斷與管理中的比較。 Clin Ophthalmol 2024-11-18

這項研究比較了十五個大型語言模型（LLMs）在處理眼科案例的表現，測試來自《JAMA Ophthalmology》的二十個案例。結果顯示，這些模型的平均得分為19，三個模型（ChatGPT 3.5、Claude Pro和Copilot Pro）表現優於平均，其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平，對一般人來說較難理解，但對眼科醫生則可接受。研究認為，雖然LLMs的準確性不足以單獨用於病人護理，但在協助醫生方面顯示出潛力，特別是訂閱制模型。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Performance of popular large language models in glaucoma patient education: A randomized controlled study.
流行大型語言模型在青光眼患者教育中的表現：一項隨機對照研究。 Adv Ophthalmol Pract Res 2025-03-31

這項研究探討了四個大型語言模型（LLMs）——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答，並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動，並與醫生一起評分，標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示，Baichuan 2 和 ChatGPT-4.0 表現最佳，且兩者在患者和醫生評估中無顯著差異，結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

原始文章

站上相關主題文章列表