原始文章

這項研究比較了兩種模型在預測住院情況的表現,分別是深度學習模型Bio-Clinical-BERT和詞袋邏輯回歸模型BOW-LR-TF-IDF。研究基於Mount Sinai Health System近140萬名患者的數據,結果顯示Bio-Clinical-BERT的接收者操作特徵曲線下面積(AUC)得分為0.82到0.85,優於BOW-LR-TF-IDF的0.81到0.84。雖然兩者性能差異不大,但都能有效利用分診筆記進行預測。研究強調在資源有限的情況下,簡單模型也能滿足需求,並建議進一步研究以提升醫療預測能力。 PubMed DOI


站上相關主題文章列表

這項研究比較了三層級的分診協議,包括分診護士、急診醫師和人工智慧模型(ChatGPT、Gemini 和 Pi),在2024年4月1日至4月7日於一所三級醫療機構的急診部門進行,分析了500名病人的數據。結果顯示,只有23.8%的病人獲得一致分類,分診護士對6.4%的病人過度分診,且人工智慧模型的分診不足率偏高,特別是ChatGPT在黃碼和紅碼病人中分診不足達26.5%和42.6%。結論指出,急診環境中不應僅依賴人工智慧進行分診。 PubMed DOI

這項研究探討了緊急情境中的分診決策,對比醫療專業人員與人工智慧(AI)模型的表現。研究發現,醫療人員的準確率(30.7%)高於AI模型(25.5%),顯示人類專業知識在分診中仍然更可靠。研究涉及50個虛擬病人情境,參與者使用土耳其衛生部的顏色編碼系統進行分類。雖然AI能快速分析數據,但在此情境下表現不如人類。作者建議結合AI與人類專業知識,以提升分診系統的效率。 PubMed DOI

這項研究探討了使用遮蔽語言模型(MLM)在醫院特定領域的適應性,並應用於基於BERT的模型來分類神經放射學報告。分析了來自國王學院醫院和蓋伊與聖托馬斯信託醫院的超過200,000份MRI報告。結果顯示,經過適應的模型性能顯著提升,最佳訓練數據達到97.0%和95.5%的準確率。Llama-3.0 70B模型表現最佳,準確率分別為97.1%和94.0%。研究建議在臨床環境中使用醫院特定的模型適應,並指出LLM可作為有效替代方案。 PubMed DOI

這項研究發現,Llama-3 8B 雖然模型較小,但在從病歷擷取臨床徵象、預測早期敗血症的表現,幾乎和較大的 Mixtral 8x7B 一樣好。兩者都整合進 COMPOSER-LLM 系統,準確率相近。這代表運算效率高的小模型,也很適合資源有限的醫療現場使用。 PubMed DOI

這項研究用大型語言模型(像RoBERTa和PubMedBERT)分析麻醉門診紀錄,成功辨識出病人術前的虛弱狀態,不論用哪種虛弱定義,模型表現都很準確。結果證明,LLM能有效從日常臨床紀錄中抓出像虛弱這種複雜的健康問題。 PubMed DOI

這項研究用模擬病人測試ChatGPT(GPT-4o和GPT-4-Turbo)在急診分級和門診指引的表現。經過優化後,GPT-4-Turbo用MEWS分級達到100%準確率,優於GPT-4o(96.2%);GPT-4o在門診科別選擇也有92.6%高準確率,且情感回應更好。結果顯示,經設計的ChatGPT能有效協助急診分級與指引,但還需更多臨床驗證。 PubMed DOI

這項研究用AI自然語言處理技術,分析急診室醫護和病患的對話逐字稿,自動判斷病患緊急程度。研究用1,028份真實對話,透過機器學習和神經網路模型,AUROC分數約0.76,準確度不錯。這方法有助於優先處理急重症、縮短等候時間,提升急診效率,未來結合更強語言模型還有進步空間。 PubMed DOI

這項研究發現,經過微調的 LLaMA-2 70B 模型,能有效運用電子病歷稽核紀錄來預測病人出院時間,表現比 GPT-4 和 DeBERTa 更好。採用「首次出現」事件序列化和 logit 輸出,預測更準確,顯示 LLMs 結合聰明資料處理,在臨床預測上很有潛力。 PubMed

這篇研究發現,針對不同臨床紀錄類型設計的NLP模型,在預測住院死亡風險上,比傳統方法和34種大型語言模型(LLMs)都更準確。雖然LLMs在其他領域很強,但在這個任務上表現不佳,顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI

這項研究發現,微調過的BERT模型在分類病人安全事件報告時,比傳統CNN模型更能準確辨識罕見事件和嚴重程度,且在新資料上也有不錯表現。即使資料量少或分布不均,BERT只用預設參數就能有很好的效果,顯示其在醫療文本分類上相當有潛力。 PubMed DOI