A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Assessment of Large Language Models in Cataract Care Information Provision: A Quantitative Comparison.
大型語言模型在白內障護理資訊提供中的評估：定量比較。 Ophthalmol Ther 2024-11-08

白內障是失明的主要原因之一，許多人在線上尋求醫療建議，但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題，評估了不同大型語言模型（LLMs）的回應準確性與完整性。結果顯示，ChatGPT-4o和Google Bard在準確性上表現優異，ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力，特別是在預防方面，並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Assessing the possibility of using large language models in ocular surface diseases.
評估大型語言模型在眼表疾病中的應用可能性。 Int J Ophthalmol 2025-01-20

這項研究評估了五個大型語言模型（LLMs）在回答眼表疾病相關問題的表現，包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題，涵蓋角膜炎等主題。結果顯示，ChatGPT-4的準確性和可信度最佳，成功率為59%，但仍有28%的錯誤率。PaLM2在答案準確性上表現良好，相關係數達0.8。整體而言，這些模型在醫學教育和臨床實踐中展現了潛力，特別是ChatGPT-4的表現尤為突出。 PubMed DOI

"Comparative analysis of large language models against the NHS 111 online triaging for emergency ophthalmology".
「大型語言模型與 NHS 111 線上急診眼科分診的比較分析」 Eye (Lond) 2025-01-21

這項研究評估了多種大型語言模型（LLMs）在處理眼科緊急情況的表現，並與英國國民健康服務（NHS）111的系統進行比較。研究涵蓋21個緊急情境問題，測試的模型包括ChatGPT-3.5、Google Bard、Bing Chat和ChatGPT-4.0。結果顯示，93%的LLM回應至少得分為「良好」，顯示它們提供的資訊正確且無重大錯誤。整體來看，這些模型在提供即時資訊和指導方面，顯示出作為有效工具的潛力，能提升患者護理及醫療可及性。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Large Language Models in Ophthalmology: A Review of Publications from Top Ophthalmology Journals.
眼科中的大型語言模型：來自頂尖眼科期刊的出版物回顧。 Ophthalmol Sci 2025-03-21

這項研究回顧了大型語言模型（LLMs）在眼科的應用，特別是高排名期刊的相關文章，共分析了101篇研究，主要來自美國、英國和加拿大。研究指出，LLMs在醫學教育、臨床協助、研究及病人教育中有顯著貢獻，但也引發了對表現不一致、偏見及倫理問題的擔憂。作者強調持續改進AI的重要性，並呼籲建立倫理指導方針及跨學科合作，以應對這些挑戰，展現LLMs在眼科的潛力與限制。 PubMed DOI

Using large language models as decision support tools in emergency ophthalmology.
在急診眼科中使用大型語言模型作為決策支持工具。 Int J Med Inform 2025-03-27

這項研究評估了先進的大型語言模型（LLMs），如GPT-4、GPT-4o和Llama-3-70b，作為急診眼科決策支持工具的效果，並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例，兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示，人類專家的平均得分為3.72，GPT-4為3.52，Llama-3-70b為3.48，而GPT-4o得分最低，為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Diagnostic Performance of Publicly Available Large Language Models in Corneal Diseases: A Comparison with Human Specialists.
公開大型語言模型在角膜疾病診斷表現之評估：與人類專科醫師的比較 Diagnostics (Basel) 2025-05-28

這項研究發現，GPT-4.o 在診斷角膜疾病的準確率最高（80%），但還是比不上人類角膜專科醫師（92.5%）。雖然 GPT-4.o 等大型語言模型有潛力，但在複雜病例上表現不穩定，目前只能當作輔助工具，臨床決策還是得靠專家判斷。 PubMed DOI

原始文章

站上相關主題文章列表