Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

PhenoAlign: A Hybrid Data-Knowledge-Driven Approach for Precisely Aligning Phenotype Information in Medical Texts.
PhenoAlign：一種混合數據-知識驅動的方法，用於精確對齊醫學文本中的表現型信息。 IEEE J Biomed Health Inform 2025-03-03

這項研究針對醫學文本中的表型資訊進行精確對齊，旨在提升智能醫療應用，如檢索相似病患案例。作者提出了表型語義結構單元（PhenoSSU）及自動提取演算法，並探索多種對齊策略，發現數據驅動的方法效果最佳。基於BERT的模型對短語型PhenoSSU有效，而知識基礎方法則適合邏輯型PhenoSSU。最終開發的PhenoAlign工具在金標準測試集上表現優異，F1分數達0.820，顯示其在病患照護和醫學研究中的潛力。 PubMed DOI

High Throughput Phenotyping of Physician Notes with Large Language and Hybrid NLP Models.
醫師筆記的高通量表型分析：大型語言模型與混合自然語言處理模型。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-05

深度表型學透過本體方式全面描述患者的徵兆與症狀，為了分析電子健康紀錄中的醫生筆記，需採用高通量方法。過去三十年已有進展，本研究展示大型語言模型與混合自然語言處理（NLP）模型的有效性，結合詞向量與機器學習分類器，達成高準確率。結果顯示，大型語言模型有潛力成為臨床徵兆與症狀深度表型學的主要技術，特別是在醫生筆記中記錄的資訊上。 PubMed DOI

Consistent Performance of GPT-4o in Rare Disease Diagnosis Across Nine Languages and 4967 Cases.
GPT-4o 在九種語言和 4967 例罕見疾病診斷中的一致表現。 medRxiv 2025-03-10

大型語言模型（LLMs）如GPT-4o在醫療應用，特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例，涵蓋378種遺傳疾病，並翻譯HPO術語，生成多語言提示。結果顯示，GPT-4o在英語中正確識別排名第一的診斷達19.8%，而在八種非英語語言中，正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力，並得到多方支持，推進LLMs在醫療領域的合作努力。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

AI approaches for phenotyping Alzheimer's disease and related dementias using electronic health records.
利用電子健康紀錄以AI方法進行Alzheimer's disease及相關失智症的表現型分析 Alzheimers Dement (N Y) 2025-04-28

目前用醫療理賠資料來判斷阿茲海默症和相關失智症，其實準確度不太理想。這篇研究用AI文字分類模型（像深度學習和大型語言模型）來分析電子病歷，結果發現Llama 2這種LLM模型表現最好，準確度明顯贏過傳統方法（AUC 0.95比0.85）。其他AI模型也比傳統方法優。這顯示用AI分析病歷有助於更準確找出ADRD病人，但還需要更多資料驗證。 PubMed DOI

The application of Large Language Models to the phenotype-based prioritization of causative genes in rare disease patients.
大型語言模型應用於罕見疾病患者以表現型為基礎的致病基因優先排序 Sci Rep 2025-04-29

大型語言模型（LLMs）能根據病人表現型有效排序相關基因，表現不輸甚至優於傳統生物資訊方法。LLMs 有潛力協助罕見遺傳疾病診斷，提升準確度並簡化流程，成為未來診斷新選擇。 PubMed DOI

Specialized Large Language Model Outperforms Neurologists at Complex Diagnosis in Blinded Case-Based Evaluation.
專業大型語言模型於盲測病例評估中在複雜診斷表現優於神經科醫師 Brain Sci 2025-05-01

一款專為神經科設計的 AI（GPT-4 Turbo，經 Neura 運作），在模擬診斷中表現比現職神經科醫師更好，準確率高達 86%，反應時間也大幅縮短到 30 秒內，還能提供可靠、可查證的資訊。這證明針對特定領域設計的 AI，有機會成為臨床神經科的高效輔助工具。 PubMed DOI

PhenoDP: leveraging deep learning for phenotype-based case reporting, disease ranking, and symptom recommendation.
PhenoDP：運用深度學習於表現型為基礎的病例報告、疾病排序與症狀推薦 Genome Med 2025-06-06

**重點整理：** PhenoDP 是一套用於孟德爾遺傳疾病診斷的深度學習工具包，可以產生以病患為中心的臨床摘要、精確排序疾病，並推薦額外症狀來提升診斷準確率。它的表現優於現有工具，並且以開源軟體免費提供。 PubMed DOI

原始文章

站上相關主題文章列表