原始文章

這項研究探討增強檢索生成(RAG)的大型語言模型(LLMs)在急診科臨床紀錄中生成ICD-10-CM代碼的有效性,並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據,發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者,且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B,經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI


站上相關主題文章列表

研究目的是評估使用RAG和LLMs(如GPT模型)來改善急診分流流程,提升護理一致性。通過模擬情境測試,發現搭配RAG的GPT-3.5模型在分流準確性上表現優異,可達70%正確率,並將低分流率降至8%。整合這兩者可提高急診評估的精確性和一致性,但仍需在實際醫療環境中驗證。 PubMed DOI

這項研究探討使用 GPT-3.5 生成醫療文件並附上 ICD-10 代碼,以增強低資源標籤數據。研究人員從 MIMIC-IV 數據集中生成了 9,606 份出院摘要,專注於不常見的代碼,並將這些數據與基線訓練集結合,創建增強數據集來訓練神經編碼模型。結果顯示,雖然數據增強略微降低整體模型表現,但對生成代碼的表現有所提升。儘管 GPT-3.5 能識別 ICD-10 代碼,但在處理真實數據時仍面臨挑戰,生成文件在多樣性和深度上需改進。 PubMed DOI

這項研究探討利用自然語言處理(NLP)來自動化ICD-10-CM編碼系統,以提升基於自由文本的出院摘要編碼效率與準確性。研究以高雄醫學大學中和紀念醫院的病人出院摘要為數據集,開發了基於GPT-2模型的AI輔助編碼系統,並整合進專家工作流程中。結果顯示,該系統在編碼準確性上表現良好,F1分數達0.667,且與專家之間的協議程度也相對較高,顯示出其在提升醫療編碼效率的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在從非結構化住院病歷中提取ICD-10-CM代碼的效果,並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等,共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼,平均每份病歷4個。雖然LLMs的中位數代碼數量較高,GPT-4表現最佳,但與人類編碼員的符合率仍然較低,顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在從病人筆記中提取ICD-10-CM代碼的表現,並與人類編碼員進行比較。結果顯示,人類編碼員提取了165個代碼,而LLMs提取的數量明顯更多,Llama 2-70b以658個代碼領先。GPT-4與人類的協議百分比最高,但整體協議程度極低。Claude 3在主要診斷方面表現最佳。研究指出,LLMs在提取過程中存在不一致,整體表現仍不及人類編碼員。 PubMed DOI

癌症案例報告的主要挑戰在於手動審查大量報告的繁瑣過程。目前的做法多依賴基於規則的系統或自訂的監督學習模型來預測診斷代碼。雖然這些方法有潛力,但在實際應用中可能受到偏見影響。我們針對肺癌進行的可行性研究中,開發了一個檢索增強生成(RAG)系統,利用大型語言模型(LLMs)進行癌症登記編碼。結果顯示,未微調的LLMs也能有效運作,且透過提示工程可顯著提升表現,為癌症登記員提供了提高效率與準確性的有力工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI

這項研究探討了如何利用大型語言模型GPT-4來協助醫療編碼員進行ICD-10編碼。研究目的是透過關鍵詞識別來增強編碼過程,並採用檢索增強生成(RAG)方法。使用的CodiEsp-X數據集包含1000個西班牙臨床案例及其編碼,並創建了專注於關鍵詞的CodiEsp-X-lead數據集。雖然關鍵詞提取的F1分數達到0.80,但整體可解釋性F1分數僅為0.305,顯示出編碼分配的效果不佳。未來研究應著重於改善系統與醫療編碼員的工作流程對接,以提高準確性。 PubMed DOI

這篇文章探討了一項研究,分析檢索增強生成(RAG)如何提升大型語言模型(LLMs)在放射學的表現。RAG 讓 LLMs 能夠即時訪問更新的知識庫,無需微調即可生成準確答案。研究中使用了來自 *RadioGraphics* 的 3,689 篇文章作為數據庫,並評估了五種 LLMs 在192道放射學考題中的表現。結果顯示,RAG 顯著提升了 GPT-4 和 Command R+ 的得分,特別是在與 *RadioGraphics* 相關的問題上,成功檢索並引用了相關資料。整體而言,RAG 在放射學任務中展現了提升 LLM 能力的潛力。 PubMed DOI