原始文章

這項研究比較三種AI模型預測急性心肌梗塞病患一年內死亡率的準確度。結果顯示,傳統人工神經網路(SWEDEHEART-AI)表現最好,預測能力優於兩個大型語言模型(Qwen-2和Llama-3)。雖然LLM有潛力,但目前在臨床風險預測上還不如傳統模型,未來還需加強其準確度與校正能力。 PubMed DOI


站上相關主題文章列表

一項研究比較了大型語言模型(如GPT-3.5和GPT-4)與傳統機器學習(特別是梯度提升樹)在使用電子健康紀錄進行臨床預測的表現。結果顯示,傳統機器學習在預測準確性和校準上均優於大型語言模型,且在隱私保護方面更具韌性。雖然GPT-4在公平性上表現較好,但其預測性能卻不如傳統方法。整體而言,目前大型語言模型在臨床預測任務上仍落後於傳統機器學習,但未來有改進的潛力。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了GPT-4大型語言模型在計算HEART分數及預測胸痛觀察單位患者60天內重大不良心臟事件的有效性。研究涵蓋601名患者,結果顯示LLM與醫療專業人員之間的協議良好,HEART分數也高於傳統評估。然而,預測MACE的表現並無顯著差異。這顯示GPT-4在風險計算上可輔助臨床決策,但結果可能與人類判斷有所不同,建議進一步研究其潛力。 PubMed DOI

這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

這項研究發現,Llama-3 8B 雖然模型較小,但在從病歷擷取臨床徵象、預測早期敗血症的表現,幾乎和較大的 Mixtral 8x7B 一樣好。兩者都整合進 COMPOSER-LLM 系統,準確率相近。這代表運算效率高的小模型,也很適合資源有限的醫療現場使用。 PubMed DOI

開源大型語言模型能準確擷取心臟超音波報告的重點資料,像是瓣膜疾病嚴重度和人工瓣膜有無,對建立大規模資料庫和疾病監控很有幫助。經過優化後,像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%,但處理速度較慢。小型模型判斷嚴重度較不準,但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說,LLMs自動化擷取資料很有潛力,但要兼顧準確和效率。 PubMed DOI

這篇研究發現,針對不同臨床紀錄類型設計的NLP模型,在預測住院死亡風險上,比傳統方法和34種大型語言模型(LLMs)都更準確。雖然LLMs在其他領域很強,但在這個任務上表現不佳,顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI

這項研究開發了一套新模型,把臨床資料轉成文字,再結合數值資訊,利用大型語言模型來預測心肺繞道手術前發生急性腎損傷的風險,準確率高達AUC 0.92。研究也找出哪些術前和術中措施有助預防AKI,能幫助醫師更早預測並預防相關風險。 PubMed DOI

這項研究發現,把大型語言模型(LLM)結合檢索增強生成(RAG)技術,能更準確預測病患30天內的術後死亡率和ASA分級,尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法,顯示這種AI工具有助於臨床決策輔助,未來在醫療現場很有應用潛力。 PubMed DOI

這項研究發現,Claude 3.5 Sonnet大型語言模型在判斷死亡原因時,若同時結合臨床病史和死後CT報告,準確率最高(可達78%),比只用單一資訊還要好。不同疾病類型的準確率會有差異,血液腫瘤的提升最明顯。整體來說,整合多種資訊能有效提升AI判斷死亡原因的表現。 PubMed DOI