Assessing Retrieval-Augmented Large Language Model Performance in Emergency Department ICD-10-CM Coding Compared to Human Coders.
評估檢索增強大型語言模型在急診部門 ICD-10-CM 編碼中的表現，與人類編碼員相比。 medRxiv 2024-11-01

這項研究探討增強檢索生成（RAG）的大型語言模型（LLMs）在急診科臨床紀錄中生成ICD-10-CM代碼的有效性，並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據，發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者，且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B，經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI

Benchmarking Large Language Models for Extraction of International Classification of Diseases Codes from Clinical Documentation.
從臨床文檔中提取國際疾病分類代碼的大型語言模型基準測試。 medRxiv 2024-11-28

這項研究評估大型語言模型（LLMs）在從非結構化住院病歷中提取ICD-10-CM代碼的效果，並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等，共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼，平均每份病歷4個。雖然LLMs的中位數代碼數量較高，GPT-4表現最佳，但與人類編碼員的符合率仍然較低，顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在實際醫院環境中使用大型語言模型進行高效癌症登記編碼：可行性研究。 Pac Symp Biocomput 2024-12-13

癌症案例報告的主要挑戰在於手動審查大量報告的繁瑣過程。目前的做法多依賴基於規則的系統或自訂的監督學習模型來預測診斷代碼。雖然這些方法有潛力，但在實際應用中可能受到偏見影響。我們針對肺癌進行的可行性研究中，開發了一個檢索增強生成（RAG）系統，利用大型語言模型（LLMs）進行癌症登記編碼。結果顯示，未微調的LLMs也能有效運作，且透過提示工程可顯著提升表現，為癌症登記員提供了提高效率與準確性的有力工具。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Comparative analysis of generative LLMs for labeling entities in clinical notes.
臨床筆記中標註實體的生成式 LLMs 比較分析。 Genomics Inform 2025-02-06

這篇論文評估了不同微調的生成大型語言模型（LLMs）在臨床領域的零樣本命名實體識別（NER）表現。研究在第八屆生物醫學聯結註解黑客松進行，重點分析Llama 2和Mistral模型，並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示，經過指示微調的模型在實體識別上表現優於聊天微調和基本模型，且在要求簡單輸出結構時表現也有所提升。 PubMed DOI

Developing an ICD-10 Coding Assistant: Pilot Study Using RoBERTa and GPT-4 for Term Extraction and Description-Based Code Selection.
開發 ICD-10 編碼助手：使用 RoBERTa 和 GPT-4 進行術語提取和基於描述的編碼選擇的初步研究。 JMIR Form Res 2025-02-12

這項研究探討了如何利用大型語言模型GPT-4來協助醫療編碼員進行ICD-10編碼。研究目的是透過關鍵詞識別來增強編碼過程，並採用檢索增強生成（RAG）方法。使用的CodiEsp-X數據集包含1000個西班牙臨床案例及其編碼，並創建了專注於關鍵詞的CodiEsp-X-lead數據集。雖然關鍵詞提取的F1分數達到0.80，但整體可解釋性F1分數僅為0.305，顯示出編碼分配的效果不佳。未來研究應著重於改善系統與醫療編碼員的工作流程對接，以提高準確性。 PubMed DOI

How to leverage large language models for automatic ICD coding.
如何利用大型語言模型進行自動 ICD 編碼。 Comput Biol Med 2025-03-15

這項研究探討自動ICD編碼的挑戰，對保險理賠和疾病研究非常重要。由於臨床筆記複雜且變化多，手動編碼常常慢且易出錯。為了提升大型語言模型（LLMs）的表現，作者提出了一個微調框架，結合標籤注意機制、醫學知識注入及知識驅動的抽樣。實驗結果顯示，這個框架在MIMIC-III-50數據集上表現優於傳統微調方法，特別是在編碼器-解碼器模型中，準確率和F1分數都有顯著提升。 PubMed DOI

Enhancing Bidirectional Encoder Representations From Transformers (BERT) With Frame Semantics to Extract Clinically Relevant Information From German Mammography Reports: Algorithm Development and Validation.
結合框架語意增強 Bidirectional Encoder Representations From Transformers (BERT) 以萃取德文乳房攝影報告中的臨床相關資訊：演算法開發與驗證 J Med Internet Res 2025-04-25

這項研究用BERT語言模型結合框架語意學，能自動從德文乳房攝影報告中擷取並結構化資訊。經過醫院資料微調後，系統能準確辨識多種事實和實體，表現比Llama 3.3更好。這方法可客製化、保護隱私且易於解釋，有助推動放射科結構化報告。未來建議在不同資料集驗證其泛用性。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在真實醫院環境中運用大型語言模型於癌症登記編碼之可行性研究 Pac Symp Biocomput 2025-04-29

這項研究發現，只要善用提示工程技巧，即使沒特別微調，公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後，肺癌個案的編碼準確率大幅提升，顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

原始文章

站上相關主題文章列表