Assessing the possibility of using large language models in ocular surface diseases.
評估大型語言模型在眼表疾病中的應用可能性。 Int J Ophthalmol 2025-01-20

這項研究評估了五個大型語言模型（LLMs）在回答眼表疾病相關問題的表現，包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題，涵蓋角膜炎等主題。結果顯示，ChatGPT-4的準確性和可信度最佳，成功率為59%，但仍有28%的錯誤率。PaLM2在答案準確性上表現良好，相關係數達0.8。整體而言，這些模型在醫學教育和臨床實踐中展現了潛力，特別是ChatGPT-4的表現尤為突出。 PubMed DOI

Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models.
大型語言模型在葡萄膜炎和眼部炎症管理中的比較：ChatGPT-4o、Google Gemini 1.5 Pro、Microsoft Copilot Pro 與眼科醫生的比較研究。 J Fr Ophtalmol 2025-03-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現，並與眼科醫生進行比較。研究隨機選取100個問題，結果顯示LLMs的正確回答率為80%至81%，而眼科醫生為72%。儘管LLMs的準確率較高，但統計分析顯示它們之間及與人類醫生之間並無顯著差異，因此無法證明LLMs在此領域的優越性。 PubMed DOI

Large Language Models in Ophthalmology: A Review of Publications from Top Ophthalmology Journals.
眼科中的大型語言模型：來自頂尖眼科期刊的出版物回顧。 Ophthalmol Sci 2025-03-21

這項研究回顧了大型語言模型（LLMs）在眼科的應用，特別是高排名期刊的相關文章，共分析了101篇研究，主要來自美國、英國和加拿大。研究指出，LLMs在醫學教育、臨床協助、研究及病人教育中有顯著貢獻，但也引發了對表現不一致、偏見及倫理問題的擔憂。作者強調持續改進AI的重要性，並呼籲建立倫理指導方針及跨學科合作，以應對這些挑戰，展現LLMs在眼科的潛力與限制。 PubMed DOI

Using large language models as decision support tools in emergency ophthalmology.
在急診眼科中使用大型語言模型作為決策支持工具。 Int J Med Inform 2025-03-27

這項研究評估了先進的大型語言模型（LLMs），如GPT-4、GPT-4o和Llama-3-70b，作為急診眼科決策支持工具的效果，並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例，兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示，人類專家的平均得分為3.72，GPT-4為3.52，Llama-3-70b為3.48，而GPT-4o得分最低，為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

Can off-the-shelf visual large language models detect and diagnose ocular diseases from retinal photographs?
現成的視覺大型語言模型能否從視網膜照片中檢測和診斷眼科疾病？ BMJ Open Ophthalmol 2025-04-07

這項研究評估了流行的視覺大型語言模型（VLLMs），特別是OpenAI的GPT-4V和Google的Gemini，對於從視網膜影像中識別眼病的表現。研究使用了44張來自新加坡眼病流行病學研究的視網膜照片。結果顯示，GPT-4V在預設模式下的檢測準確率最高，達97.1%，但所有模型在提供診斷描述的質量上普遍較差。研究強調了專業VLLMs在醫療領域的必要性，以及人類監督在臨床眼科中的重要性。 PubMed DOI

Multimodal Performance of GPT-4 in Complex Ophthalmology Cases.
GPT-4 在複雜眼科病例中的多模態表現 J Pers Med 2025-04-25

這項研究發現，GPT-4在診斷複雜眼科病例時，如果只有圖片沒文字，準確率會明顯下降；但有圖片說明時，表現就會提升。整體來說，GPT-4的表現和部分眼科醫師差不多，但還不及最頂尖的專家。顯示它目前在眼科影像判讀上還有進步空間，但未來有潛力成為臨床輔助工具。 PubMed DOI

Large language models for dermatological image interpretation - a comparative study.
皮膚科影像判讀之大型語言模型比較研究 Diagnosis (Berl) 2025-05-27

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現，GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大，有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說，這些模型在皮膚科影像判讀有潛力，但目前還有不少限制，未來需結合臨床資料才能更可靠。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Image-Based Diagnostic Performance of LLMs vs CNNs for Oral Lichen Planus: Example-Guided and Differential Diagnosis.
口腔扁平苔癬的影像診斷表現：大型語言模型（LLMs）與卷積神經網路（CNNs）的比較—以範例引導與鑑別診斷為例 Int Dent J 2025-06-07

這項研究發現，雖然像Gemini 1.5和GPT-4o這類具電腦視覺功能的大型語言模型表現不錯，但在診斷口腔扁平苔癬時，整體表現還是比傳統CNN差。目前CNN仍是臨床OLP影像診斷的首選，LLMs還不適合直接應用於臨床。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

原始文章

站上相關主題文章列表