原始文章

這項研究比較傳統NLP方法和大型語言模型(像Llama 3)在擷取手術紀錄資訊的表現。結果顯示,Llama 3的準確度明顯高於其他方法,尤其在加入更多上下文後表現更好。不過,模型在分辨手術時序和語意細節上還有待加強。整體來說,LLM有潛力協助自動化手術紀錄審查,但臨床應用前還需進一步優化。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在預測病人術後風險的應用,分析了2018至2021年間的84,875份術前臨床筆記。結果顯示,LLMs在預測準確度上顯著優於傳統技術,AUROC提升了38.3%,AUPRC增長33.2%。透過自我監督微調,AUROC和AUPRC分別再增長3.2%和1.5%。加入標籤後,AUROC和AUPRC也有進一步提升。這些結果顯示LLMs在術後風險預測中具備重要應用潛力。 PubMed DOI

本研究探討了深度學習模型在預測晚期上皮性卵巢癌患者手術結果的有效性,特別是使用非結構化的手術筆記。評估了RoBERTa和GatorTron兩個模型,結果顯示GatorTron在大多數任務中表現優於RoBERTa,顯示專為醫療設計的模型在理解醫療語言上有明顯優勢。不過,兩者在預測術後併發症和住院時間時仍面臨挑戰,顯示手術文本不足以全面反映術後恢復的複雜性。這些發現對提升患者護理質量的醫療AI系統發展至關重要。 PubMed DOI

這項研究用GPT-4o和Llama3.3等大型語言模型,測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示,這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀,有機會讓癌症登記流程更快、更可靠,提升公共衛生和臨床照護品質。 PubMed DOI

這項研究發現,開源大型語言模型(LLMs)能準確從電子病歷的病理報告中,萃取癌症和異型增生等重要診斷,連複雜案例也適用。只用簡單「是/否」提示,在美國退伍軍人健康管理局資料庫中,診斷準確率超過93%。這方法不但省資源、設定簡單,還能大規模應用,對臨床和研究都很有幫助。 PubMed DOI

這項研究用開源大型語言模型(像LLaMA3)自動產生德文出院摘要,並請醫師評估品質。結果顯示,AI生成的摘要資訊算完整,但常漏掉重要細節或出現錯誤,尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰,建議未來要用更多資料和微調模型,才能提升表現。 PubMed DOI

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現,結果發現三者準確率都很低(最高僅19.2%)。Gemini在美學手術較佳,Copilot則在一般重建手術表現較好,但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確,仍需人工審核。 PubMed DOI

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷,來偵測手術部位感染。28位病人中,LLM準確率達93%,敏感度100%,特異度86%。模型多半能和醫師一樣早,甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢,但臨床應用前還需更多研究驗證。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

這項研究發現,把大型語言模型(LLM)結合檢索增強生成(RAG)技術,能更準確預測病患30天內的術後死亡率和ASA分級,尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法,顯示這種AI工具有助於臨床決策輔助,未來在醫療現場很有應用潛力。 PubMed DOI

研究發現,經微調的GPT-4能從臨床紀錄中預測手術時間,準確度比傳統方法更高。在超過12萬5千個案例中,GPT-4平均誤差約48分鐘,顯示大型語言模型有助提升手術室排程效率,未來有望改善醫療資源運用。 PubMed DOI