Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Multimodal machine learning enables AI chatbot to diagnose ophthalmic diseases and provide high-quality medical responses.
多模態機器學習使 AI 聊天機器人能夠診斷眼科疾病並提供高品質的醫療回應。 NPJ Digit Med 2025-01-27

這項研究探討了使用ChatGPT驅動的智能眼科多模態互動診斷系統（IOMIDS），幫助患者自我診斷和分診。IOMIDS結合文字輸入及來自裂隙燈和智慧型手機的影像數據，評估病史並診斷眼科疾病。研究在三個醫療中心進行，涵蓋10個子專科和50種疾病，分析了15,640個數據。結果顯示，文字加智慧型手機的模型達到最高診斷準確率，顯示基於聊天機器人的人工智慧在眼科自我診斷和分診上有潛力。該臨床試驗已註冊於NCT05930444。 PubMed DOI

Integrated visual and text-based analysis of ophthalmology clinical cases using a large language model.
使用大型語言模型進行眼科臨床案例的整合視覺與文本分析。 Sci Rep 2025-02-10

最近生成式人工智慧的進展，特別是像GPT-4 V這樣的多模態模型，顯示出在分析視覺和文本數據方面的潛力，對醫療保健，尤其是眼科，可能帶來重大影響。本研究評估了GPT-4 V在診斷眼部疾病的能力，結果顯示提供臨床背景能顯著提升診斷準確性。沒有背景時，GPT-4 V的正確率為47.5%，有背景時提升至67.5%。這顯示GPT-4 V能有效整合視覺與文本信息，對改善眼科病患護理有潛力。 PubMed DOI

Can off-the-shelf visual large language models detect and diagnose ocular diseases from retinal photographs?
現成的視覺大型語言模型能否從視網膜照片中檢測和診斷眼科疾病？ BMJ Open Ophthalmol 2025-04-07

這項研究評估了流行的視覺大型語言模型（VLLMs），特別是OpenAI的GPT-4V和Google的Gemini，對於從視網膜影像中識別眼病的表現。研究使用了44張來自新加坡眼病流行病學研究的視網膜照片。結果顯示，GPT-4V在預設模式下的檢測準確率最高，達97.1%，但所有模型在提供診斷描述的質量上普遍較差。研究強調了專業VLLMs在醫療領域的必要性，以及人類監督在臨床眼科中的重要性。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Multimodal Performance of GPT-4 in Complex Ophthalmology Cases.
GPT-4 在複雜眼科病例中的多模態表現 J Pers Med 2025-04-25

這項研究發現，GPT-4在診斷複雜眼科病例時，如果只有圖片沒文字，準確率會明顯下降；但有圖片說明時，表現就會提升。整體來說，GPT-4的表現和部分眼科醫師差不多，但還不及最頂尖的專家。顯示它目前在眼科影像判讀上還有進步空間，但未來有潛力成為臨床輔助工具。 PubMed DOI

Image Recognition Performance of GPT-4V(ision) and GPT-4o in Ophthalmology: Use of Images in Clinical Questions.
GPT-4V(ision) 與 GPT-4o 在眼科影像辨識的表現：臨床問題中影像應用之探討 Clin Ophthalmol 2025-05-13

這項研究比較GPT-4、GPT-4V和GPT-4o三種AI在眼科診斷題的表現，發現多模態的GPT-4o準確率最高（77.1%），明顯優於其他模型，也比一般大眾好。結果顯示，結合圖片能大幅提升AI診斷能力，多模態AI在醫療應用上很有潛力。 PubMed DOI

Diagnostic Performance of Publicly Available Large Language Models in Corneal Diseases: A Comparison with Human Specialists.
公開大型語言模型在角膜疾病診斷表現之評估：與人類專科醫師的比較 Diagnostics (Basel) 2025-05-28

這項研究發現，GPT-4.o 在診斷角膜疾病的準確率最高（80%），但還是比不上人類角膜專科醫師（92.5%）。雖然 GPT-4.o 等大型語言模型有潛力，但在複雜病例上表現不穩定，目前只能當作輔助工具，臨床決策還是得靠專家判斷。 PubMed DOI

Performance of a novel multimodal large language model in ınterpreting meibomian glands quantitatively and qualitatively.
新型多模態大型語言模型於定量與定性解讀瞼板腺的表現 Int Ophthalmol 2025-05-28

Claude 3.5 Sonnet 是多模態大型語言模型，這次用來分析160張瞼板腺攝影，評分腺體脫落程度並偵測形態異常。它在腺體流失分級的準確率高達85–97.5%，能正確辨識所有人工標記的異常，還能發現人工漏掉的細微問題，顯示有潛力成為眼科影像判讀和教學的好幫手。 PubMed DOI

Multi-Modal AI for Multi-Label Retinal Disease Prediction Using OCT and Fundus Images: A Hybrid Approach.
多模態 AI 結合 OCT 與眼底影像於多標籤視網膜疾病預測之混合式方法 Sensors (Basel) 2025-07-30

這篇論文提出 VisionTrack 多模態 AI 系統，能整合影像、臨床資料和醫療報告，提升視網膜疾病診斷的準確度。系統結合 CNN、GNN 和 LLM 技術，在公開資料集上測試表現優異，展現早期偵測和個人化眼科照護的應用潛力。 PubMed DOI

原始文章

站上相關主題文章列表