Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Evaluating Large Language Models for Automated CPT Code Prediction in Endovascular Neurosurgery.
評估大型語言模型在血管內神經外科自動 CPT 代碼預測中的應用。 J Med Syst 2025-01-24

這項研究評估了三個大型語言模型（LLMs）—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語（CPT）代碼的效果。分析了30份手術記錄後，AtlasGPT 表現最佳，正確識別35.3%的 CPT 代碼，ChatGPT 緊隨其後，正確率為35.1%，而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出，雖然這些模型能部分識別 CPT 代碼，但進一步訓練可提升準確性，並可能降低醫療成本。 PubMed DOI

Developing an ICD-10 Coding Assistant: Pilot Study Using RoBERTa and GPT-4 for Term Extraction and Description-Based Code Selection.
開發 ICD-10 編碼助手：使用 RoBERTa 和 GPT-4 進行術語提取和基於描述的編碼選擇的初步研究。 JMIR Form Res 2025-02-12

這項研究探討了如何利用大型語言模型GPT-4來協助醫療編碼員進行ICD-10編碼。研究目的是透過關鍵詞識別來增強編碼過程，並採用檢索增強生成（RAG）方法。使用的CodiEsp-X數據集包含1000個西班牙臨床案例及其編碼，並創建了專注於關鍵詞的CodiEsp-X-lead數據集。雖然關鍵詞提取的F1分數達到0.80，但整體可解釋性F1分數僅為0.305，顯示出編碼分配的效果不佳。未來研究應著重於改善系統與醫療編碼員的工作流程對接，以提高準確性。 PubMed DOI

Assessing AI Accuracy in Generating CPT Codes From Surgical Operative Notes.
評估人工智慧在從外科手術記錄中生成 CPT 代碼的準確性。 J Craniofac Surg 2025-03-24

這項研究探討大型語言模型（LLMs），特別是ChatGPT和Gemini，在根據手術記錄生成當前程序術語（CPT）代碼的有效性。分析了10個案例，將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似，準確性無顯著差異。Gemini的正確回應率稍高（30%對20%），而ChatGPT則有更多部分正確的回應（50%對40%）。研究指出，AI有潛力提升編碼準確性並減少醫療帳單的行政負擔，未來將探討其在其他外科領域的應用。 PubMed DOI

GPT-4 in Clinical Practice: Assessing Its Capability for Symptom Extraction from Cancer Patient Notes.
GPT-4 在臨床實踐中的應用：評估其從癌症病人筆記中提取症狀的能力。 Stud Health Technol Inform 2025-04-09

這項研究評估了GPT-4o在MIMIC-III數據集中提取病人症狀和體徵的能力，強調準確提取對診斷和治療的重要性。研究測試了兩個溫度設定（1和0.3），發現較高的溫度（1）能產生多樣化的輸出，平均精確度達79%，特異性96%，但變異性大。相對而言，較低的溫度（0.3）則輸出較保守，平均精確度僅45%。儘管有變異性，最佳溫度下的高召回率和特異性顯示，GPT-4可能成為臨床提取症狀和體徵的有用輔助工具。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

Evaluating Large Language Model's accuracy in current procedural terminology coding given operative note templates across various plastic surgery sub-specialties.
針對不同整形外科次專科手術紀錄範本，評估大型語言模型於Current Procedural Terminology (CPT) 編碼的準確性 J Plast Reconstr Aesthet Surg 2025-05-14

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現，結果發現三者準確率都很低（最高僅19.2%）。Gemini在美學手術較佳，Copilot則在一般重建手術表現較好，但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確，仍需人工審核。 PubMed DOI

Generative AI Demonstrated Difficulty Reasoning on Nursing Flowsheet Data.
生成式 AI 在護理紀錄表（Nursing Flowsheet）資料推理上表現困難 AMIA Annu Symp Proc 2025-05-26

研究發現，GPT-4在解讀護理紀錄表時，雖有潛力減輕紀錄負擔，但常遺漏重要資訊，表現不如護理專家。專家不僅更精確，還能補充背景說明。整體來說，AI還需加強訓練和驗證，才能真正協助臨床工作，避免增加醫護人員負擔。 PubMed

Feasibility of Automated Precharting using GPT-4 in New Specialty Referrals.
使用 GPT-4 於新專科轉診自動化預先建檔的可行性 AMIA Jt Summits Transl Sci Proc 2025-06-12

**重點摘要：** 這項研究顯示，GPT-4 可以準確自動化新耳鼻喉科轉診的預先病歷整理，在測試中與醫師的意見有 95% 的一致率。這個工具在實際診間中也獲得不錯的回饋，不過使用者覺得它節省的時間比預期的還要少。這次採用的設計策略，未來也可以作為自動化病歷摘要工具的參考。 PubMed

Exploring the medical ethical limitations of GPT-4 in clinical decision-making scenarios: a pilot survey.
GPT-4 在臨床決策情境中醫學倫理限制之探討：初步調查 Front Public Health 2025-06-13

這項研究發現，GPT-4在臨床倫理兩難情境下，能給出明確且積極的建議，與倫理原則的符合度高達86%。不過，遇到墮胎或代理孕母等議題時表現較弱，最低僅60%。雖然GPT-4有助於臨床決策，但偶爾會出錯或無法完全遵守倫理標準，實際應用上還是有侷限。 PubMed DOI

原始文章

站上相關主題文章列表