Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Large language models to identify advance care planning in patients with advanced cancer.
大型語言模型在晚期癌症患者中識別預立醫療計劃。 J Pain Symptom Manage 2024-11-25

這項研究評估大型語言模型（LLMs）在識別晚期癌症患者的預立醫療計畫（ACP）文件的有效性。研究在達納法伯癌症中心進行，將LLM的表現與傳統手動查閱和自然語言處理（NLP）方法比較。使用GPT-4，研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好，整體準確率介於0.81到0.91之間，特別在複雜主題上優於NLP。雖然精確度略低，但LLM的假陽性對臨床管理仍具相關性，建議進一步研究以增強此方法。 PubMed DOI

Evaluating Large Language Models in extracting cognitive exam dates and scores.
評估大型語言模型在提取認知考試日期和分數方面的表現。 PLOS Digit Health 2024-12-11

這項研究強調大型語言模型（LLMs）在臨床任務中的可靠性，特別是針對認知測試（如MMSE和CDR）的信息提取。經過分析135,307份臨床筆記，最終使用765份進行比較，結果顯示ChatGPT（GPT-4）在準確率、敏感性和精確度上均優於LlaMA-2。研究指出，ChatGPT在減少錯誤和幻覺方面表現較佳，並可能改善癡呆症的識別與治療。總之，這強調了對LLMs進行嚴格評估的重要性，以便更好地整合到醫療實踐中。 PubMed DOI

Dementia Care Research and Psychosocial Factors.
癡呆症照護研究與心理社會因素。 Alzheimers Dement 2025-01-09

這項研究評估了兩個大型語言模型（LLMs），ChatGPT 和 Llama2，在提取與認知測試相關的臨床筆記資訊的表現。研究使用了765份臨床筆記，結果顯示ChatGPT在提取迷你心理狀態檢查（MMSE）和認知癡呆評分（CDR）方面的準確率均優於Llama2。特別是在MMSE的準確率上，ChatGPT達83%，而Llama2僅66.4%。此外，ChatGPT在敏感性和真陰性率上也表現更佳。研究強調了大型語言模型在癡呆研究中的潛力及其評估的重要性。 PubMed DOI

Developing Topics.
發展主題。 Alzheimers Dement 2025-01-09

癡呆症的診斷在全球醫療中面臨挑戰，主要因為其複雜性及電子健康紀錄的不一致性。傳統診斷方法可能會漏掉或錯誤識別病例，因此需要改進工具。本研究探討人工智慧（AI）及大型語言模型（LLMs）在提升癡呆症檢測的潛力。研究結果顯示，使用GPT-4的患者紀錄聚合方法達到最高準確率0.86，顯示大型語言模型能顯著改善癡呆症診斷的準確性，優於傳統方法。 PubMed DOI

Integrating NLP and LLMs to discover biomarkers and mechanisms in Alzheimer's disease.
整合 NLP 和 LLMs 以發現阿茲海默症中的生物標記和機制。 SLAS Technol 2025-02-23

阿茲海默症是一種漸進性的神經系統疾病，影響全球數百萬人，導致認知能力下降和記憶喪失。傳統診斷方法難以早期檢測。本研究提出一種新方法，結合自然語言處理和大型語言模型，利用GenBERT來識別阿茲海默症的生物標記。透過整合臨床數據，GenBERT在早期預測方面表現優異，準確率達98.30%，並顯示出高敏感性和特異性，為阿茲海默症的早期診斷提供了可靠工具，可能改變未來的檢測與治療策略。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

AI approaches for phenotyping Alzheimer's disease and related dementias using electronic health records.
利用電子健康紀錄以AI方法進行Alzheimer's disease及相關失智症的表現型分析 Alzheimers Dement (N Y) 2025-04-28

目前用醫療理賠資料來判斷阿茲海默症和相關失智症，其實準確度不太理想。這篇研究用AI文字分類模型（像深度學習和大型語言模型）來分析電子病歷，結果發現Llama 2這種LLM模型表現最好，準確度明顯贏過傳統方法（AUC 0.95比0.85）。其他AI模型也比傳統方法優。這顯示用AI分析病歷有助於更準確找出ADRD病人，但還需要更多資料驗證。 PubMed DOI

CD-Tron: Leveraging large clinical language model for early detection of cognitive decline from electronic health records.
CD-Tron：運用大型臨床語言模型從電子健康紀錄早期偵測認知衰退 J Biomed Inform 2025-05-04

這項研究開發的 CD-Tron 臨床語言模型，能在 MCI 診斷前，從超過 2,000 名病患的電子病歷中，早期偵測認知衰退。CD-Tron 表現比傳統模型更好，準確率和敏感度都很高，還能用 SHAP 值解釋預測結果，提升臨床透明度，展現語言模型在醫療早期偵測的潛力。 PubMed DOI

High-Throughput Phenotyping of the Symptoms of Alzheimer Disease and Related Dementias Using Large Language Models: Cross-Sectional Study.
使用大型語言模型進行阿茲海默症及相關失智症症狀的高通量表現型分析：橫斷面研究 JMIR AI 2025-06-03

研究團隊開發了一套經微調的大型語言模型，能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀，準確度（AUROC）高達0.97-0.99，優於傳統方法。這些症狀不僅能預測失智症診斷，還和腦部MRI結果有關，有助提升診斷準確率並推動相關研究。 PubMed DOI

原始文章

站上相關主題文章列表