原始文章

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI


站上相關主題文章列表

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究探討大型語言模型(LLMs)在從非結構化放射報告中提取臨床數據的效果,專注於七種肺部疾病。研究分析了1,800份報告,並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示,所有模型的準確率都很高,特別是GPT-4的表現最佳,敏感性和特異性均達到優秀水準。這些結果顯示,LLMs,尤其是GPT-4,可能成為醫生進行病歷審查的有效替代方案,提升非結構化放射數據的提取能力。 PubMed DOI

這項研究提出了一個框架,利用Meta的Llama-3-8B大型語言模型來檢測法語電子健康紀錄中的痛風。由於“goutte”有多重含義,準確檢測變得困難。研究比較了該模型與傳統的正則表達式方法,使用700段來自瑞士日內瓦大學醫院的EHR資料。結果顯示,該模型在痛風檢測上達到92.7%的正確預測率和95.4%的整體準確率,並在600段鈣焦磷酸鹽沉積病的資料上也表現良好,達94.1%準確率。這顯示LLM在非英語EHR中識別疾病的潛力,有助於改善臨床試驗的病人招募。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數為0.833,表現最佳,而GPT-3.5為0.796。微調改善了GPT-3.5的表現,並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見,但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

這項研究開發了一種利用大型語言模型(LLMs)從電子健康紀錄(EHR)中識別健康狀況的策略,解決了手動標記的繁瑣問題。研究將2015年的心臟登記隊列與阿爾伯塔省的EHR系統結合,分析臨床筆記以檢測急性心肌梗塞、糖尿病和高血壓。結果顯示,LLM方法在敏感度和陰性預測值上優於傳統ICD代碼,且檢測趨勢穩定。這種方法有潛力提升EHR在即時疾病監測中的應用效率。 PubMed DOI

肺栓塞(PE)是一種危險的病症,需迅速診斷以降低死亡率。手動從放射科報告中提取PE診斷非常耗時,因此本研究探討使用GPT-4o模型自動化提取。研究開發了兩種方法:微調的Clinical Longformer和基於GPT-4o的提取器。結果顯示,GPT-4o在敏感性和F1分數上均優於Clinical Longformer,並在實際應用中保持高準確度。這顯示GPT-4o能有效簡化臨床流程,提升PE診斷的效率,改善病患結果。 PubMed DOI

這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

開源大型語言模型能準確擷取心臟超音波報告的重點資料,像是瓣膜疾病嚴重度和人工瓣膜有無,對建立大規模資料庫和疾病監控很有幫助。經過優化後,像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%,但處理速度較慢。小型模型判斷嚴重度較不準,但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說,LLMs自動化擷取資料很有潛力,但要兼顧準確和效率。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI