Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Automated computation of the HEART score with the GPT-4 large language model.
使用 GPT-4 大型語言模型自動計算 HEART 分數。 Am J Emerg Med 2025-04-04

這項研究評估了GPT-4大型語言模型在計算HEART分數及預測胸痛觀察單位患者60天內重大不良心臟事件的有效性。研究涵蓋601名患者，結果顯示LLM與醫療專業人員之間的協議良好，HEART分數也高於傳統評估。然而，預測MACE的表現並無顯著差異。這顯示GPT-4在風險計算上可輔助臨床決策，但結果可能與人類判斷有所不同，建議進一步研究其潛力。 PubMed DOI

Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估：表現、準確性及其對臨床實務的影響 Can J Cardiol 2025-04-16

這項研究發現，Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師，正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師，但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒，醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

A Prospective Comparison of Large Language Models for Early Prediction of Sepsis.
大型語言模型於敗血症早期預測之前瞻性比較 Pac Symp Biocomput 2025-04-29

這項研究發現，Llama-3 8B 雖然模型較小，但在從病歷擷取臨床徵象、預測早期敗血症的表現，幾乎和較大的 Mixtral 8x7B 一樣好。兩者都整合進 COMPOSER-LLM 系統，準確率相近。這代表運算效率高的小模型，也很適合資源有限的醫療現場使用。 PubMed DOI

A comparative analysis of privacy-preserving large language models for automated echocardiography report analysis.
用於自動心臟超音波報告分析之隱私保護大型語言模型的比較分析 J Am Med Inform Assoc 2025-05-07

開源大型語言模型能準確擷取心臟超音波報告的重點資料，像是瓣膜疾病嚴重度和人工瓣膜有無，對建立大規模資料庫和疾病監控很有幫助。經過優化後，像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%，但處理速度較慢。小型模型判斷嚴重度較不準，但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說，LLMs自動化擷取資料很有潛力，但要兼顧準確和效率。 PubMed DOI

Comparing Text-Based Clinical Risk Prediction in Critical Care: A Note-Specific Hierarchical Network and Large Language Models.
重症醫療中文本式臨床風險預測之比較：特定病歷紀錄分層網路與大型語言模型 IEEE J Biomed Health Inform 2025-05-27

這篇研究發現，針對不同臨床紀錄類型設計的NLP模型，在預測住院死亡風險上，比傳統方法和34種大型語言模型（LLMs）都更準確。雖然LLMs在其他領域很強，但在這個任務上表現不佳，顯示現有LLMs在臨床應用上還有限制。這個新模型也有助於找出最有用的臨床紀錄。 PubMed DOI

Leveraging large language models for preoperative prevention of cardiopulmonary bypass-associated acute kidney injury.
運用大型語言模型於心肺繞道相關急性腎損傷的術前預防 Ren Fail 2025-05-30

這項研究開發了一套新模型，把臨床資料轉成文字，再結合數值資訊，利用大型語言模型來預測心肺繞道手術前發生急性腎損傷的風險，準確率高達AUC 0.92。研究也找出哪些術前和術中措施有助預防AKI，能幫助醫師更早預測並預防相關風險。 PubMed DOI

Predicting 30-Day Postoperative Mortality and American Society of Anesthesiologists Physical Status Using Retrieval-Augmented Large Language Models: Development and Validation Study.
利用檢索增強大型語言模型預測30天術後死亡率與美國麻醉醫師學會身體狀態：開發與驗證研究 J Med Internet Res 2025-06-03

這項研究發現，把大型語言模型（LLM）結合檢索增強生成（RAG）技術，能更準確預測病患30天內的術後死亡率和ASA分級，尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法，顯示這種AI工具有助於臨床決策輔助，未來在醫療現場很有應用潛力。 PubMed DOI

Diagnostic Performance of a Large Language Model for Determining the Cause of Death: A Comparative Analysis of Clinical History, Postmortem Computed Tomography Findings, and Their Integration.
大型語言模型於判斷死因之診斷效能：臨床病史、死後電腦斷層掃描結果及其整合的比較分析 Cureus 2025-06-09

這項研究發現，Claude 3.5 Sonnet大型語言模型在判斷死亡原因時，若同時結合臨床病史和死後CT報告，準確率最高（可達78%），比只用單一資訊還要好。不同疾病類型的準確率會有差異，血液腫瘤的提升最明顯。整體來說，整合多種資訊能有效提升AI判斷死亡原因的表現。 PubMed DOI

Primer on large language models: an educational overview for intensivists.
大型語言模型入門：重症醫學醫師的教育性概覽 Crit Care 2025-06-12

大型語言模型（LLMs）在重症醫療上應用快速成長，能提升病人管理、診斷、紀錄和醫療教育等，但也有偏見、可靠性和透明度等問題。導入臨床時，需嚴格驗證，確保安全與倫理，才能真正發揮AI在醫療的正面影響。 PubMed DOI

原始文章

站上相關主題文章列表