原始文章

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷,來偵測手術部位感染。28位病人中,LLM準確率達93%,敏感度100%,特異度86%。模型多半能和醫師一樣早,甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢,但臨床應用前還需更多研究驗證。 PubMed DOI


站上相關主題文章列表

Rodriguez-Nava 等人進行了一項概念驗證研究,探討如何利用安全的大型語言模型(LLM)來獲得醫療數據的批准。他們的研究專注於回顧性識別中心靜脈導管相關血流感染(CLABSIs),這是一種特定的醫療相關感染(HAI),並使用真實病人的數據進行監測。研究結果顯示,LLMs 有潛力顯著提升 HAI 監測的效率,並能部分自動化或簡化這個過程。 PubMed DOI

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI

敗血症是一種因免疫反應不當而引起的嚴重疾病,死亡率高且併發症多。早期檢測和治療對病人預後至關重要,但現有模型常忽略臨床筆記中的重要資訊。本研究提出COMPOSER-LLM,一個開源的大型語言模型,能與COMPOSER模型協同工作,提升早期敗血症預測準確性。測試中,COMPOSER-LLM的敏感性達72.1%,假警報率低,顯示出優於原模型的表現,並強調了其臨床應用潛力。這標誌著醫療分析的一大進步。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

這項研究發現,ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯,但在隔離措施和壓瘡辨識上有失誤。整體來說,LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

這項研究發現,Llama-3 8B 雖然模型較小,但在從病歷擷取臨床徵象、預測早期敗血症的表現,幾乎和較大的 Mixtral 8x7B 一樣好。兩者都整合進 COMPOSER-LLM 系統,準確率相近。這代表運算效率高的小模型,也很適合資源有限的醫療現場使用。 PubMed DOI

這篇研究提出COMPOSER-LLM,把大型語言模型和現有敗血症預測工具結合,能同時分析結構化數據和臨床紀錄文字。實測2,500名病人,結果顯示新系統比傳統模型更準確,敏感度高、誤報少。即使有誤判,很多病人其實也有感染,證明這方法在臨床上很有幫助。整合LLM能更有效利用電子病歷,提升敗血症早期預測。 PubMed DOI

一項涵蓋13家醫院的研究發現,GPT-4-Turbo這種大型語言模型在判斷病人是否有近期長照機構接觸史時,準確度跟人工差不多甚至更高,速度快25倍、成本省20倍,還能抓出人工審查的錯誤。這代表AI能有效從醫療紀錄中擷取重要資訊,幫助提升感染控制和醫院作業效率。 PubMed DOI

這項研究發現,公開的大型語言模型(像Llama 3.3)即使沒經過特定任務訓練,只要給定結果定義,在辨識電子病歷中的goals-of-care討論時,表現跟傳統BERT模型一樣好。這代表新一代語言模型能省下大量訓練資料和成本,讓臨床研究更簡單有效率。 PubMed DOI

這項研究比較傳統NLP方法和大型語言模型(像Llama 3)在擷取手術紀錄資訊的表現。結果顯示,Llama 3的準確度明顯高於其他方法,尤其在加入更多上下文後表現更好。不過,模型在分辨手術時序和語意細節上還有待加強。整體來說,LLM有潛力協助自動化手術紀錄審查,但臨床應用前還需進一步優化。 PubMed DOI