Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Consistent Performance of GPT-4o in Rare Disease Diagnosis Across Nine Languages and 4967 Cases.
GPT-4o 在九種語言和 4967 例罕見疾病診斷中的一致表現。 medRxiv 2025-03-10

大型語言模型（LLMs）如GPT-4o在醫療應用，特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例，涵蓋378種遺傳疾病，並翻譯HPO術語，生成多語言提示。結果顯示，GPT-4o在英語中正確識別排名第一的診斷達19.8%，而在八種非英語語言中，正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力，並得到多方支持，推進LLMs在醫療領域的合作努力。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

A Medical Multimodal Large Language Model for Pediatric Pneumonia.
用於兒童肺炎的醫學多模態大型語言模型 IEEE J Biomed Health Inform 2025-05-12

小兒肺炎診斷困難，影響幼童生命。P2Med-MLLM是一款結合文字和醫學影像分析的AI模型，能協助醫師更快更準確診斷與治療。實測結果顯示，這個模型比現有方法更有效率，有助於提升醫療品質並拯救更多孩子的生命。 PubMed DOI

Multimodal LLMs for retinal disease diagnosis via OCT: few-shot versus single-shot learning.
利用多模態大型語言模型（LLMs）透過OCT進行視網膜疾病診斷：少量學習（few-shot）與單次學習（single-shot）的比較 Ther Adv Ophthalmol 2025-05-22

這項研究發現，GPT-4o 和 Claude Sonnet 3.5 這兩款AI模型，經過少量範例訓練後，診斷OCT影像的準確率最高可達73%。雖然還不如專業深度學習模型，但在日常眼科診斷、特別是判斷正常個案時，已展現輔助潛力。未來需更多研究結合影像和臨床資料來提升表現。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Large language models for dermatological image interpretation - a comparative study.
皮膚科影像判讀之大型語言模型比較研究 Diagnosis (Berl) 2025-05-27

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現，GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大，有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說，這些模型在皮膚科影像判讀有潛力，但目前還有不少限制，未來需結合臨床資料才能更可靠。 PubMed DOI

Performance evaluation of large language models in pediatric nephrology clinical decision support: a comprehensive assessment.
大型語言模型於兒童腎臟科臨床決策支援之表現評估：全面性評估 Pediatr Nephrol 2025-06-03

這項研究發現，雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳，正確率達86.9%，但所有模型都會出現幻覺，甚至可能給出危險建議。即使用專業資料微調，推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作，還不適合獨立臨床應用，未來需加強可靠性與可解釋性。 PubMed DOI

Paediatric rare diseases: Can large language models assist off-label prescribing?
兒科罕見疾病：大型語言模型能協助非適應症用藥處方嗎？ Br J Clin Pharmacol 2025-07-16

這項研究比較四種大型語言模型（LLM）在協助罕見兒童疾病藥物超適應症資訊檢索的表現，發現GPT-4o表現最好，優於Scopus AI。雖然有時LLM給的參考文獻品質甚至比人類還高，但結果會因查詢內容不同而有落差。LLM能加快資訊搜尋，但還是需要專業人員審核，確保正確性。 PubMed DOI

原始文章

站上相關主題文章列表