Assessment of a Large Language Model's Responses to Questions and Cases About Glaucoma and Retina Management.
評估大型語言模型光學神經病變和視網膜管理問題的回答。 JAMA Ophthalmol 2024-02-25

大型語言模型（LLMs）正在改變醫學診斷和治療，提供高準確度，超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應，發現LLM在診斷上表現優異，甚至勝過專家，顯示其在眼科診斷上的潛力。 PubMed DOI

Utility of artificial intelligence-based large language models in ophthalmic care.
人工智慧大型語言模型在眼科護理中的應用價值。 Ophthalmic Physiol Opt 2024-04-08

眼科護理中，LLMs像ChatGPT引起關注。研究指出在病人資訊、臨床診斷和眼科問題上有幫助。LLM表現受到迭代、提示和領域的影響。ChatGPT-4在眼科考試、症狀分類和提供資訊方面表現良好。LLMs有潛力，但在專業領域表現不盡理想。需要進一步研究，不可完全依賴人工智慧。設定標準並評估LLMs在臨床環境中的成功應用至關重要。 PubMed DOI

Large language models approach expert-level clinical knowledge and reasoning in ophthalmology: A head-to-head cross-sectional study.
大型語言模型在眼科領域接近專家級臨床知識和推理：一項面對面的橫斷面研究。 PLOS Digit Health 2024-04-17

研究發現，GPT-4在眼科領域表現優異，得到眼科醫師認可。這顯示先進語言模型在提供醫療建議上有潛力，尤其在眼科專家有限的情況下。 PubMed DOI

Assessment of Large Language Models in Cataract Care Information Provision: A Quantitative Comparison.
大型語言模型在白內障護理資訊提供中的評估：定量比較。 Ophthalmol Ther 2024-11-08

白內障是失明的主要原因之一，許多人在線上尋求醫療建議，但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題，評估了不同大型語言模型（LLMs）的回應準確性與完整性。結果顯示，ChatGPT-4o和Google Bard在準確性上表現優異，ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力，特別是在預防方面，並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

Comparison of Large Language Models in Diagnosis and Management of Challenging Clinical Cases.
大型語言模型在挑戰性臨床案例診斷與管理中的比較。 Clin Ophthalmol 2024-11-18

這項研究比較了十五個大型語言模型（LLMs）在處理眼科案例的表現，測試來自《JAMA Ophthalmology》的二十個案例。結果顯示，這些模型的平均得分為19，三個模型（ChatGPT 3.5、Claude Pro和Copilot Pro）表現優於平均，其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平，對一般人來說較難理解，但對眼科醫生則可接受。研究認為，雖然LLMs的準確性不足以單獨用於病人護理，但在協助醫生方面顯示出潛力，特別是訂閱制模型。 PubMed DOI

Use of Online Large Language Model Chatbots in Cornea Clinics.
角膜診所中使用線上大型語言模型聊天機器人。 Cornea 2024-12-03

這項研究評估了幾種大型語言模型（LLM）聊天機器人的表現，包括ChatGPT、Writesonic、Google Bard和Bing Chat，針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示，ChatGPT在準確性和全面性上表現最佳，得分3.35（滿分4分），而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險，顯示信息安全可靠。研究強調LLM在眼科的潛力，但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Assessing the possibility of using large language models in ocular surface diseases.
評估大型語言模型在眼表疾病中的應用可能性。 Int J Ophthalmol 2025-01-20

這項研究評估了五個大型語言模型（LLMs）在回答眼表疾病相關問題的表現，包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題，涵蓋角膜炎等主題。結果顯示，ChatGPT-4的準確性和可信度最佳，成功率為59%，但仍有28%的錯誤率。PaLM2在答案準確性上表現良好，相關係數達0.8。整體而言，這些模型在醫學教育和臨床實踐中展現了潛力，特別是ChatGPT-4的表現尤為突出。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Using large language models as decision support tools in emergency ophthalmology.
在急診眼科中使用大型語言模型作為決策支持工具。 Int J Med Inform 2025-03-27

這項研究評估了先進的大型語言模型（LLMs），如GPT-4、GPT-4o和Llama-3-70b，作為急診眼科決策支持工具的效果，並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例，兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示，人類專家的平均得分為3.72，GPT-4為3.52，Llama-3-70b為3.48，而GPT-4o得分最低，為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

原始文章

站上相關主題文章列表