原始文章

這篇研究發現,針對不同臨床紀錄類型設計的NLP模型,在預測住院死亡風險上,比傳統方法和34種大型語言模型(LLMs)都更準確。雖然LLMs在其他領域很強,但在這個任務上表現不佳,顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在臨床筆記段落識別的應用,旨在克服傳統監督方法的限制。研究將段落識別設為問答任務,並評估不同的LLMs,結果顯示GPT-4的F1分數最高,達到0.77,表現優異。最佳的開源模型Tulu2-70b得分為0.64,與GPT-3.5相當。研究指出,雖然微調模型在大數據集上表現穩定,但增加段落識別範例能提升性能。總體而言,LLMs,特別是GPT-4,已接近實際應用於臨床筆記段落識別,並可透過微調進一步改善。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究探討大型語言模型(LLM)生成的急診醫學交接筆記,針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行,分析了1,600份病人紀錄。結果顯示,LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記,但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時,醫生參與的重要性,並提供了評估病人安全的框架。 PubMed DOI

大型語言模型(LLMs)在臨床環境中有潛力,但在提供可靠的預測概率上常遇挑戰,這對透明度和知情決策很重要。研究顯示,明確提示生成的概率在六個開源LLMs和五個醫療數據集上表現不如隱含概率,尤其在小型LLMs和不平衡數據集上更明顯。這強調了謹慎解讀結果的必要性,並呼籲開發更好的概率估計方法及進一步研究,以提升LLMs在臨床應用的可行性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在預測病人術後風險的應用,分析了2018至2021年間的84,875份術前臨床筆記。結果顯示,LLMs在預測準確度上顯著優於傳統技術,AUROC提升了38.3%,AUPRC增長33.2%。透過自我監督微調,AUROC和AUPRC分別再增長3.2%和1.5%。加入標籤後,AUROC和AUPRC也有進一步提升。這些結果顯示LLMs在術後風險預測中具備重要應用潛力。 PubMed DOI

這份技術說明介紹大型語言模型(如 GPT-4、Qwen-Chat)如何分析電子病歷,協助快速評估病患、預測敗血症及自動產生加護病房出院摘要。內容也說明如何用 DashScope API 把 LLMs 整合進臨床流程,並提供實用指引,幫助醫師和研究人員提升照護品質與推動個人化醫療。 PubMed DOI

這項研究比較三種AI模型預測急性心肌梗塞病患一年內死亡率的準確度。結果顯示,傳統人工神經網路(SWEDEHEART-AI)表現最好,預測能力優於兩個大型語言模型(Qwen-2和Llama-3)。雖然LLM有潛力,但目前在臨床風險預測上還不如傳統模型,未來還需加強其準確度與校正能力。 PubMed DOI

這項研究利用大型語言模型(LLMs)把電子健康紀錄(EHR)結構化資料轉成自然語言,並應用在疾病預測。LLMs分別扮演「預測者」和「評論者」兩種角色,負責預測結果和給予改進建議。結果顯示,在樣本數少的情況下,這種方法的預測表現不輸傳統監督式學習,對醫療應用很有發展潛力。 PubMed

**重點摘要:** 這項研究測試了兩個大型語言模型(LLMs),用來從真實的臨床紀錄自動產生出院摘要,並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多,顯示LLMs有潛力協助醫師準備出院摘要,進而減輕臨床醫師的行政工作負擔。 PubMed DOI

這項研究發現,把大型語言模型(LLM)結合檢索增強生成(RAG)技術,能更準確預測病患30天內的術後死亡率和ASA分級,尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法,顯示這種AI工具有助於臨床決策輔助,未來在醫療現場很有應用潛力。 PubMed DOI