ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於案例報告的神經眼科疾病診斷輔助。 J Neuroophthalmol 2025-01-09

這項研究評估了ChatGPT（包含GPT-3.5和GPT-4）在診斷神經眼科疾病的準確性，使用了22個病例。結果顯示，GPT-3.5的正確診斷率為59%，而GPT-4提升至82%。相比之下，兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5，顯示出其在臨床診斷上的潛力，但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

A comparative analysis of GPT-3.5 and GPT-4.0 on a multiple-choice ophthalmology question bank: A study on artificial intelligence developments.
GPT-3.5 與 GPT-4.0 在多選眼科題庫上的比較分析：人工智慧發展的研究。 Rom J Ophthalmol 2025-02-12

這項研究評估了ChatGPT-4.0和ChatGPT-3.5在回答眼科問題準備庫中的多選題表現。隨機選取520道問題，結果顯示GPT-4.0正確率為78.46%（408道），而GPT-3.5為64.15%（333道），兩者差異具統計意義（p=0.0195）。GPT-4.0在所有子群分析中均優於GPT-3.5，顯示其在處理複雜醫學數據的能力更強。研究強調AI在醫學領域的潛力，並建議需有監考等措施以確保線上測試的完整性。呼籲進一步研究AI在臨床決策中的應用。 PubMed DOI

Using large language models as decision support tools in emergency ophthalmology.
在急診眼科中使用大型語言模型作為決策支持工具。 Int J Med Inform 2025-03-27

這項研究評估了先進的大型語言模型（LLMs），如GPT-4、GPT-4o和Llama-3-70b，作為急診眼科決策支持工具的效果，並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例，兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示，人類專家的平均得分為3.72，GPT-4為3.52，Llama-3-70b為3.48，而GPT-4o得分最低，為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

Can off-the-shelf visual large language models detect and diagnose ocular diseases from retinal photographs?
現成的視覺大型語言模型能否從視網膜照片中檢測和診斷眼科疾病？ BMJ Open Ophthalmol 2025-04-07

這項研究評估了流行的視覺大型語言模型（VLLMs），特別是OpenAI的GPT-4V和Google的Gemini，對於從視網膜影像中識別眼病的表現。研究使用了44張來自新加坡眼病流行病學研究的視網膜照片。結果顯示，GPT-4V在預設模式下的檢測準確率最高，達97.1%，但所有模型在提供診斷描述的質量上普遍較差。研究強調了專業VLLMs在醫療領域的必要性，以及人類監督在臨床眼科中的重要性。 PubMed DOI

Evaluating multimodal ChatGPT for emergency decision-making of ocular trauma cases.
評估多模態 ChatGPT 在眼外傷案例緊急決策中的應用。 Front Cell Dev Biol 2025-04-11

這項研究評估了ChatGPT在急診環境中對眼部創傷的診斷及手術需求的有效性。分析了52個來自寧波眼科醫院的案例，使用GPT-3.5和GPT-4.0進行中英文分析，並結合眼部照片來評估表現。結果顯示，僅用文字的診斷準確率為GPT-3.5的80.77%-88.46%和GPT-4.0的94.23%-98.08%。但當加入圖像時，GPT-4.0的準確率降至63.46%。研究指出，雖然ChatGPT能協助急診醫生，但其對臨床圖像的理解能力仍需加強。 PubMed DOI

Multimodal Performance of GPT-4 in Complex Ophthalmology Cases.
GPT-4 在複雜眼科病例中的多模態表現 J Pers Med 2025-04-25

這項研究發現，GPT-4在診斷複雜眼科病例時，如果只有圖片沒文字，準確率會明顯下降；但有圖片說明時，表現就會提升。整體來說，GPT-4的表現和部分眼科醫師差不多，但還不及最頂尖的專家。顯示它目前在眼科影像判讀上還有進步空間，但未來有潛力成為臨床輔助工具。 PubMed DOI

Image Recognition Performance of GPT-4V(ision) and GPT-4o in Ophthalmology: Use of Images in Clinical Questions.
GPT-4V(ision) 與 GPT-4o 在眼科影像辨識的表現：臨床問題中影像應用之探討 Clin Ophthalmol 2025-05-13

這項研究比較GPT-4、GPT-4V和GPT-4o三種AI在眼科診斷題的表現，發現多模態的GPT-4o準確率最高（77.1%），明顯優於其他模型，也比一般大眾好。結果顯示，結合圖片能大幅提升AI診斷能力，多模態AI在醫療應用上很有潛力。 PubMed DOI

Multimodal LLMs for retinal disease diagnosis via OCT: few-shot versus single-shot learning.
利用多模態大型語言模型（LLMs）透過OCT進行視網膜疾病診斷：少量學習（few-shot）與單次學習（single-shot）的比較 Ther Adv Ophthalmol 2025-05-22

這項研究發現，GPT-4o 和 Claude Sonnet 3.5 這兩款AI模型，經過少量範例訓練後，診斷OCT影像的準確率最高可達73%。雖然還不如專業深度學習模型，但在日常眼科診斷、特別是判斷正常個案時，已展現輔助潛力。未來需更多研究結合影像和臨床資料來提升表現。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於病例報告，ChatGPT 協助診斷神經眼科疾病 J Neuroophthalmol 2025-08-20

這項研究用22個神經眼科病例，比較ChatGPT（GPT-3.5和GPT-4）和兩位專科醫師的診斷能力。GPT-3.5正確率59%，GPT-4有82%，醫師則是86%。GPT-4的表現已經接近專科醫師，顯示AI有潛力協助診斷複雜眼腦疾病，尤其在缺乏專科醫師的地區。不過，臨床應用前還需要更多驗證安全性與可靠性。 PubMed DOI

原始文章

站上相關主題文章列表