原始文章

跌倒是醫院常見的不良事件,對患者及醫療系統影響深遠。本研究旨在利用大型語言模型(LLMs)自動編碼住院跌倒記錄,提取跌倒地點及受傷情況。研究分析了187條跌倒事件,使用GPT-4-turbo模型進行數據分類,結果顯示模型在地點和受傷檢測上表現優異,準確率均超過0.913及0.953。結論指出,GPT模型能有效從未優化文本中提取信息,顯示其在臨床風險管理中的潛力。 PubMed DOI


站上相關主題文章列表

為了照顧病人並節省成本,檢測手術後跌倒是相當重要的。透過大型語言模型,可以自動化這個過程,並在兩個醫療系統中顯示出很有希望的結果。Mixtral-8×7B zero-shot模型表現最佳,顯示了在跌倒檢測和預防方面LLM的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

本研究評估大型語言模型(LLM),特別是GPT-4,是否能有效分析介入放射學(IR)微波消融裝置的安全事件數據。研究收集了2011年至2023年的安全數據,並由人類審核者進行分類。GPT-4的分類準確率在訓練集達96.0%,驗證集86.4%,測試集87.3%。最終生成的摘要與人類解讀相似,顯示LLM在處理IR安全數據方面的潛力,成為臨床醫生的有用工具。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究探討增強檢索生成(RAG)的大型語言模型(LLMs)在急診科臨床紀錄中生成ICD-10-CM代碼的有效性,並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據,發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者,且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B,經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI

傷害是全球健康的重要議題,具高發病率與死亡率。有效的傷害監測對預防至關重要,但通常需耗費大量資源。本研究專注於利用大型語言模型(LLMs)從急診部的臨床筆記中提取傷害相關資訊。研究使用了來自兩所城市學術醫院的數據,評估Llama-2模型在提取傷害機制、地點、活動、意圖和嚴重性方面的準確性。結果顯示,Llama-2模型在各項任務中表現優於BERT模型,顯示出其在傷害監測與預防中的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI

這項研究開發了一種計算方法,利用臨床語言模型來檢測醫療環境中的跌倒事件,並改善自我報告系統。研究分析了34,480份來自三家醫院的護理筆記和病人安全報告,並使用BERT和GPT-4模型進行測試。結果顯示,經過微調的BERT模型表現最佳,F1分數達0.98。研究指出,結合臨床語言模型與自我報告能顯著提升跌倒事件的識別率,解決91%的報告不足問題,並減輕護理人員的負擔。 PubMed DOI