Multimodal large language models address clinical queries in laryngeal cancer surgery: a comparative evaluation of image interpretation across different models.
多模態大型語言模型在喉癌手術中解決臨床問題：不同模型之間影像解讀的比較評估。 Int J Surg 2025-01-27

這項研究探討六種多模態大型語言模型（MLLMs）在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像，提出1084個臨床問題來評估模型表現，並由兩位醫師獨立評估。結果顯示，Claude 3.5 Sonnet的準確率最高，達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯，最佳商業模型的表現比其他模型高出19個百分點。研究指出，雖然MLLMs在手術決策支持上有潛力，但仍需針對特定需求進行開發，並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

Benchmarking Vision Capabilities of Large Language Models in Surgical Examination Questions.
大型語言模型在外科檢查問題中的視覺能力基準評估。 J Surg Educ 2025-02-09

最近的研究探討大型語言模型（LLMs）在臨床決策和考試問題回答的有效性，特別是視覺語言模型（VLMs）的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示，所有LLMs在文本問題中均達及格，但只有GPT-4在圖像問題中超過及格，表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現，顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI

Integrated visual and text-based analysis of ophthalmology clinical cases using a large language model.
使用大型語言模型進行眼科臨床案例的整合視覺與文本分析。 Sci Rep 2025-02-10

最近生成式人工智慧的進展，特別是像GPT-4 V這樣的多模態模型，顯示出在分析視覺和文本數據方面的潛力，對醫療保健，尤其是眼科，可能帶來重大影響。本研究評估了GPT-4 V在診斷眼部疾病的能力，結果顯示提供臨床背景能顯著提升診斷準確性。沒有背景時，GPT-4 V的正確率為47.5%，有背景時提升至67.5%。這顯示GPT-4 V能有效整合視覺與文本信息，對改善眼科病患護理有潛力。 PubMed DOI

Textual Proficiency and Visual Deficiency: A Comparative Study of Large Language Models and Radiologists in MRI Artifact Detection and Correction.
文本能力與視覺缺陷：大型語言模型與放射科醫生在 MRI 伪影檢測與修正中的比較研究。 Acad Radiol 2025-02-12

這項研究評估大型語言模型（LLMs）在檢測和修正MRI伪影的表現，並與放射科醫生進行比較。研究分為三個階段： 1. 第一階段中，六個LLMs和五位放射科醫生回答42個文本問題，LLMs表現優於醫生，ChatGPT o1-preview得分最高。 2. 第二階段，放射科醫生評估100張含伪影的MRI影像，醫生的表現明顯優於LLMs，資深醫生準確率高。 3. 第三階段在1.5個月後重新評估，檢查回應一致性。結果顯示，LLMs在文本任務中表現佳，但在視覺解釋上仍有挑戰，建議作為教育工具或輔助系統使用。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Multimodal Performance of GPT-4 in Complex Ophthalmology Cases.
GPT-4 在複雜眼科病例中的多模態表現 J Pers Med 2025-04-25

這項研究發現，GPT-4在診斷複雜眼科病例時，如果只有圖片沒文字，準確率會明顯下降；但有圖片說明時，表現就會提升。整體來說，GPT-4的表現和部分眼科醫師差不多，但還不及最頂尖的專家。顯示它目前在眼科影像判讀上還有進步空間，但未來有潛力成為臨床輔助工具。 PubMed DOI

Image Recognition Performance of GPT-4V(ision) and GPT-4o in Ophthalmology: Use of Images in Clinical Questions.
GPT-4V(ision) 與 GPT-4o 在眼科影像辨識的表現：臨床問題中影像應用之探討 Clin Ophthalmol 2025-05-13

這項研究比較GPT-4、GPT-4V和GPT-4o三種AI在眼科診斷題的表現，發現多模態的GPT-4o準確率最高（77.1%），明顯優於其他模型，也比一般大眾好。結果顯示，結合圖片能大幅提升AI診斷能力，多模態AI在醫療應用上很有潛力。 PubMed DOI

Multimodal LLMs for retinal disease diagnosis via OCT: few-shot versus single-shot learning.
利用多模態大型語言模型（LLMs）透過OCT進行視網膜疾病診斷：少量學習（few-shot）與單次學習（single-shot）的比較 Ther Adv Ophthalmol 2025-05-22

這項研究發現，GPT-4o 和 Claude Sonnet 3.5 這兩款AI模型，經過少量範例訓練後，診斷OCT影像的準確率最高可達73%。雖然還不如專業深度學習模型，但在日常眼科診斷、特別是判斷正常個案時，已展現輔助潛力。未來需更多研究結合影像和臨床資料來提升表現。 PubMed DOI

Large language models for dermatological image interpretation - a comparative study.
皮膚科影像判讀之大型語言模型比較研究 Diagnosis (Berl) 2025-05-27

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現，GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大，有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說，這些模型在皮膚科影像判讀有潛力，但目前還有不少限制，未來需結合臨床資料才能更可靠。 PubMed DOI

原始文章

站上相關主題文章列表