原始文章

這項研究發現,GPT-4自動分配醫療收費代碼的正確率偏低,僅約2到3成,無論是根據代碼描述還是實際門診紀錄。雖然GPT-4有潛力,但目前還無法精確處理醫療收費代碼的複雜細節,實務應用上還有很大進步空間。 PubMed DOI


站上相關主題文章列表

這項研究探討使用 GPT-3.5 生成醫療文件並附上 ICD-10 代碼,以增強低資源標籤數據。研究人員從 MIMIC-IV 數據集中生成了 9,606 份出院摘要,專注於不常見的代碼,並將這些數據與基線訓練集結合,創建增強數據集來訓練神經編碼模型。結果顯示,雖然數據增強略微降低整體模型表現,但對生成代碼的表現有所提升。儘管 GPT-3.5 能識別 ICD-10 代碼,但在處理真實數據時仍面臨挑戰,生成文件在多樣性和深度上需改進。 PubMed DOI

這項研究探討增強檢索生成(RAG)的大型語言模型(LLMs)在急診科臨床紀錄中生成ICD-10-CM代碼的有效性,並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據,發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者,且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B,經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI

這項研究探討了OpenAI的ChatGPT 3.5和GPT 4.0在生成針對病人的臨床筆記時的表現,針對2型糖尿病、重度抑鬱症和懷疑腸癌三種病症進行分析。主要發現包括:生成的筆記比原始的更長,且使用了更多的代名詞;可讀性要求較高,特別是ChatGPT 3.5;同理心表現更佳;醫學準確性方面,ChatGPT 4.0的評價較高。總體來看,雖然增強了情感和同理心,但語言複雜性也提高,可能影響醫學準確性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在從非結構化住院病歷中提取ICD-10-CM代碼的效果,並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等,共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼,平均每份病歷4個。雖然LLMs的中位數代碼數量較高,GPT-4表現最佳,但與人類編碼員的符合率仍然較低,顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

這項研究評估了GPT-4在分析來自美國、哥倫比亞、新加坡和義大利的醫療筆記的有效性。研究收集了56份去識別化的醫療筆記,75%為英語,13%為義大利語,13%為西班牙語。每份筆記附有14個問題,GPT-4的回答由兩位獨立醫師驗證。結果顯示,GPT-4的回答在79%的案例中獲得一致認同,西班牙語(88%)和義大利語(84%)的認同率高於英語(77%)。這顯示GPT-4在多語言醫療筆記分析中具備潛力,能提升臨床工作流程。 PubMed DOI

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI

這項研究探討了如何利用大型語言模型GPT-4來協助醫療編碼員進行ICD-10編碼。研究目的是透過關鍵詞識別來增強編碼過程,並採用檢索增強生成(RAG)方法。使用的CodiEsp-X數據集包含1000個西班牙臨床案例及其編碼,並創建了專注於關鍵詞的CodiEsp-X-lead數據集。雖然關鍵詞提取的F1分數達到0.80,但整體可解釋性F1分數僅為0.305,顯示出編碼分配的效果不佳。未來研究應著重於改善系統與醫療編碼員的工作流程對接,以提高準確性。 PubMed DOI

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現,結果發現三者準確率都很低(最高僅19.2%)。Gemini在美學手術較佳,Copilot則在一般重建手術表現較好,但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確,仍需人工審核。 PubMed DOI

研究發現,GPT-4在解讀護理紀錄表時,雖有潛力減輕紀錄負擔,但常遺漏重要資訊,表現不如護理專家。專家不僅更精確,還能補充背景說明。整體來說,AI還需加強訓練和驗證,才能真正協助臨床工作,避免增加醫護人員負擔。 PubMed

這項研究發現,GPT-4在臨床倫理兩難情境下,能給出明確且積極的建議,與倫理原則的符合度高達86%。不過,遇到墮胎或代理孕母等議題時表現較弱,最低僅60%。雖然GPT-4有助於臨床決策,但偶爾會出錯或無法完全遵守倫理標準,實際應用上還是有侷限。 PubMed DOI