原始文章

這項研究發現,GPT-4自動分配醫療收費代碼的正確率偏低,僅約2到3成,無論是根據代碼描述還是實際門診紀錄。雖然GPT-4有潛力,但目前還無法精確處理醫療收費代碼的複雜細節,實務應用上還有很大進步空間。 PubMed DOI


站上相關主題文章列表

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語(CPT)代碼的效果。分析了30份手術記錄後,AtlasGPT 表現最佳,正確識別35.3%的 CPT 代碼,ChatGPT 緊隨其後,正確率為35.1%,而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出,雖然這些模型能部分識別 CPT 代碼,但進一步訓練可提升準確性,並可能降低醫療成本。 PubMed DOI

這項研究探討了如何利用大型語言模型GPT-4來協助醫療編碼員進行ICD-10編碼。研究目的是透過關鍵詞識別來增強編碼過程,並採用檢索增強生成(RAG)方法。使用的CodiEsp-X數據集包含1000個西班牙臨床案例及其編碼,並創建了專注於關鍵詞的CodiEsp-X-lead數據集。雖然關鍵詞提取的F1分數達到0.80,但整體可解釋性F1分數僅為0.305,顯示出編碼分配的效果不佳。未來研究應著重於改善系統與醫療編碼員的工作流程對接,以提高準確性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Gemini,在根據手術記錄生成當前程序術語(CPT)代碼的有效性。分析了10個案例,將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似,準確性無顯著差異。Gemini的正確回應率稍高(30%對20%),而ChatGPT則有更多部分正確的回應(50%對40%)。研究指出,AI有潛力提升編碼準確性並減少醫療帳單的行政負擔,未來將探討其在其他外科領域的應用。 PubMed DOI

這項研究評估了GPT-4o在MIMIC-III數據集中提取病人症狀和體徵的能力,強調準確提取對診斷和治療的重要性。研究測試了兩個溫度設定(1和0.3),發現較高的溫度(1)能產生多樣化的輸出,平均精確度達79%,特異性96%,但變異性大。相對而言,較低的溫度(0.3)則輸出較保守,平均精確度僅45%。儘管有變異性,最佳溫度下的高召回率和特異性顯示,GPT-4可能成為臨床提取症狀和體徵的有用輔助工具。 PubMed DOI

用ICD-10資料微調大型語言模型後,自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%;應用在臨床紀錄上,精確匹配率達69.2%,分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現,結果發現三者準確率都很低(最高僅19.2%)。Gemini在美學手術較佳,Copilot則在一般重建手術表現較好,但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確,仍需人工審核。 PubMed DOI

研究發現,GPT-4在解讀護理紀錄表時,雖有潛力減輕紀錄負擔,但常遺漏重要資訊,表現不如護理專家。專家不僅更精確,還能補充背景說明。整體來說,AI還需加強訓練和驗證,才能真正協助臨床工作,避免增加醫護人員負擔。 PubMed

**重點摘要:** 這項研究顯示,GPT-4 可以準確自動化新耳鼻喉科轉診的預先病歷整理,在測試中與醫師的意見有 95% 的一致率。這個工具在實際診間中也獲得不錯的回饋,不過使用者覺得它節省的時間比預期的還要少。這次採用的設計策略,未來也可以作為自動化病歷摘要工具的參考。 PubMed

這項研究發現,GPT-4在臨床倫理兩難情境下,能給出明確且積極的建議,與倫理原則的符合度高達86%。不過,遇到墮胎或代理孕母等議題時表現較弱,最低僅60%。雖然GPT-4有助於臨床決策,但偶爾會出錯或無法完全遵守倫理標準,實際應用上還是有侷限。 PubMed DOI