原始文章

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI


站上相關主題文章列表

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

使用ChatGPT分析臨床報告可幫助醫護人員提供更好的病患照護。研究比較了ChatGPT和人工審查員在辨識關鍵疾病條件上的表現,發現ChatGPT對抑鬱症和重度吸菸有較強的敏感性,對癌症的特異性也高。然而,在辨識家族心臟病史和癌症相關微妙信息方面仍有進步空間,未來研究可望提升ChatGPT在提取醫學資訊方面的能力。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別顱面外科手術的CPT代碼的有效性,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時,尤其在專業編碼人員短缺的情況下,研究旨在評估這些AI模型的效率和準確性。結果顯示,雖然整體準確性差異不大,但ChatGPT 4.0在複雜代碼上表現較佳,而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔,並提升CPT編碼的資源效率,支持將其整合進臨床流程。 PubMed DOI

這項研究探討使用 GPT-3.5 生成醫療文件並附上 ICD-10 代碼,以增強低資源標籤數據。研究人員從 MIMIC-IV 數據集中生成了 9,606 份出院摘要,專注於不常見的代碼,並將這些數據與基線訓練集結合,創建增強數據集來訓練神經編碼模型。結果顯示,雖然數據增強略微降低整體模型表現,但對生成代碼的表現有所提升。儘管 GPT-3.5 能識別 ICD-10 代碼,但在處理真實數據時仍面臨挑戰,生成文件在多樣性和深度上需改進。 PubMed DOI

這項研究探討增強檢索生成(RAG)的大型語言模型(LLMs)在急診科臨床紀錄中生成ICD-10-CM代碼的有效性,並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據,發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者,且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B,經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在從非結構化住院病歷中提取ICD-10-CM代碼的效果,並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等,共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼,平均每份病歷4個。雖然LLMs的中位數代碼數量較高,GPT-4表現最佳,但與人類編碼員的符合率仍然較低,顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在從病人筆記中提取ICD-10-CM代碼的表現,並與人類編碼員進行比較。結果顯示,人類編碼員提取了165個代碼,而LLMs提取的數量明顯更多,Llama 2-70b以658個代碼領先。GPT-4與人類的協議百分比最高,但整體協議程度極低。Claude 3在主要診斷方面表現最佳。研究指出,LLMs在提取過程中存在不一致,整體表現仍不及人類編碼員。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI