Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Developing an ICD-10 Coding Assistant: Pilot Study Using RoBERTa and GPT-4 for Term Extraction and Description-Based Code Selection.
開發 ICD-10 編碼助手：使用 RoBERTa 和 GPT-4 進行術語提取和基於描述的編碼選擇的初步研究。 JMIR Form Res 2025-02-12

這項研究探討了如何利用大型語言模型GPT-4來協助醫療編碼員進行ICD-10編碼。研究目的是透過關鍵詞識別來增強編碼過程，並採用檢索增強生成（RAG）方法。使用的CodiEsp-X數據集包含1000個西班牙臨床案例及其編碼，並創建了專注於關鍵詞的CodiEsp-X-lead數據集。雖然關鍵詞提取的F1分數達到0.80，但整體可解釋性F1分數僅為0.305，顯示出編碼分配的效果不佳。未來研究應著重於改善系統與醫療編碼員的工作流程對接，以提高準確性。 PubMed DOI

Leveraging large language models for knowledge-free weak supervision in clinical natural language processing.
利用大型語言模型在臨床自然語言處理中進行無知識的弱監督學習。 Sci Rep 2025-03-11

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據，但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型，但效果仍不如傳統監督方法。我們提出一種新方法，結合LLMs的微調與弱監督，僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據，並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試，結果顯示僅用10個金標準筆記，模型F1分數超越PubMedBERT，提升幅度達4.7-47.9%。使用50個金標準筆記時，性能可與完全微調系統相媲美。 PubMed DOI

Enhancing Large Language Models for Clinical Decision Support by Incorporating Clinical Practice Guidelines.
通過納入臨床實踐指導增強大型語言模型在臨床決策支持中的應用。 Proc (IEEE Int Conf Healthc Inform) 2025-03-17

這項研究探討如何利用臨床實踐指導（CPGs）來強化大型語言模型（LLMs），以改善針對 COVID-19 的門診治療決策。研究開發了三種整合 CPGs 的方法：二元決策樹、程式輔助圖形構建和思考鏈少量提示，並以零樣本提示作為基準。結果顯示，所有 LLMs 在有 CPG 增強的情況下表現優於零樣本提示，特別是二元決策樹在自動評估中表現最佳。這顯示出帶有 CPG 的 LLMs 能提供更準確的治療建議，未來應用潛力廣泛。 PubMed DOI

Leveraging large language models to mimic domain expert labeling in unstructured text-based electronic healthcare records in non-english languages.
利用大型語言模型模擬非英語語言中無結構文本電子健康紀錄的領域專家標註。 BMC Med Inform Decis Mak 2025-04-01

大數據與人工智慧在醫療保健中結合，特別是透過電子健康紀錄（EHR）的分析，能顯著提升診斷準確性。然而，處理大量非結構化數據是一大挑戰。本研究探討大型語言模型（LLMs）在分類含排版錯誤的EHR文本的有效性。研究以哈哲特佩大學的兒科急診室數據為例，經微調的GPT-3模型在識別呼吸道感染病例上達到99.88%準確率，顯著優於預訓練模型的78.54%。結果顯示，微調的LLMs能高效分類非結構化EHR數據，提升醫療數據處理的效率與可靠性。 PubMed DOI

Integrating large language models with human expertise for disease detection in electronic health records.
將大型語言模型與人類專業知識整合以進行電子健康紀錄中的疾病檢測。 Comput Biol Med 2025-04-08

這項研究開發了一種利用大型語言模型（LLMs）從電子健康紀錄（EHR）中識別健康狀況的策略，解決了手動標記的繁瑣問題。研究將2015年的心臟登記隊列與阿爾伯塔省的EHR系統結合，分析臨床筆記以檢測急性心肌梗塞、糖尿病和高血壓。結果顯示，LLM方法在敏感度和陰性預測值上優於傳統ICD代碼，且檢測趨勢穩定。這種方法有潛力提升EHR在即時疾病監測中的應用效率。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在真實醫院環境中運用大型語言模型於癌症登記編碼之可行性研究 Pac Symp Biocomput 2025-04-29

這項研究發現，只要善用提示工程技巧，即使沒特別微調，公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後，肺癌個案的編碼準確率大幅提升，顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

Fine-tuning open-source large language models to improve their performance on radiation oncology tasks: A feasibility study to investigate their potential clinical applications in radiation oncology.
微調開源大型語言模型以提升其在放射腫瘤學任務中的表現：探討其於放射腫瘤學臨床應用潛力的可行性研究 Med Phys 2025-07-16

這項研究用7,903筆放射腫瘤科資料微調LLaMA2-7B和Mistral-7B模型，提升它們在治療建議、治療選擇和ICD-10診斷預測三大任務的表現。微調後模型的準確度和臨床相關性都明顯進步，超過六成AI產生的治療方案被醫師認可，顯示未來在臨床應用上很有潛力。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表