Exploring the potential of artificial intelligence models for triage in the emergency department.
探索人工智慧模型在急診部門分診的潛力。 Postgrad Med 2024-10-17

這項研究比較了三層級的分診協議，包括分診護士、急診醫師和人工智慧模型（ChatGPT、Gemini 和 Pi），在2024年4月1日至4月7日於一所三級醫療機構的急診部門進行，分析了500名病人的數據。結果顯示，只有23.8%的病人獲得一致分類，分診護士對6.4%的病人過度分診，且人工智慧模型的分診不足率偏高，特別是ChatGPT在黃碼和紅碼病人中分診不足達26.5%和42.6%。結論指出，急診環境中不應僅依賴人工智慧進行分診。 PubMed DOI

Transforming emergency triage: A preliminary, scenario-based cross-sectional study comparing artificial intelligence models and clinical expertise for enhanced accuracy.
轉變緊急分診：一項初步的情境基礎橫斷面研究，比較人工智慧模型與臨床專業知識以提高準確性。 Bratisl Lek Listy 2024-11-02

這項研究探討了緊急情境中的分診決策，對比醫療專業人員與人工智慧（AI）模型的表現。研究發現，醫療人員的準確率（30.7%）高於AI模型（25.5%），顯示人類專業知識在分診中仍然更可靠。研究涉及50個虛擬病人情境，參與者使用土耳其衛生部的顏色編碼系統進行分類。雖然AI能快速分析數據，但在此情境下表現不如人類。作者建議結合AI與人類專業知識，以提升分診系統的效率。 PubMed DOI

Evaluation of Generative Artificial Intelligence Models in Predicting Pediatric Emergency Severity Index Levels.
生成式人工智慧模型在預測兒科急診嚴重程度指數水平的評估。 Pediatr Emerg Care 2025-01-06

這項研究評估了生成式人工智慧模型在預測小兒急診病人緊急嚴重指數（ESI）等級的表現，發現幾個關鍵見解： 1. **模型表現**：Claude-3 Opus 在未經訓練的模型中表現最佳，敏感度80.6%、特異度91.3%。 2. **微調影響**：微調後的 GPT-4.0 顯示顯著改善，敏感度77.1%、特異度92.5%。 3. **可靠性評估**：Claude-3 Opus 的一致性最高（κ: 0.85），顯示出強烈的評分者間可靠性。 4. **統計分析**：微調前後的比較顯示 GPT 模型有顯著改善。 5. **結論**：生成式人工智慧模型能準確預測小兒 ESI 等級，微調後表現更佳，成為急診分診的有價值工具。 PubMed DOI

Large Language Models-Supported Thrombectomy Decision-Making in Acute Ischemic Stroke Based on Radiology Reports: Feasibility Qualitative Study.
基於放射學報告的大型語言模型支持急性缺血性中風血栓切除決策：可行性質性研究。 J Med Internet Res 2025-02-13

這項研究探討了大型語言模型（LLMs）在急性缺血性中風（AIS）病例中的應用，特別是機械性血栓切除術（MT）的適應性。研究分析了100名AIS患者的數據，LLM根據放射學報告、神經症狀、發病資訊和患者年齡進行判斷。結果顯示，該AI模型的整體準確率達88%，特異性96%，敏感性80%，曲線下面積為0.92，顯示出LLMs在整合醫療數據方面的潛力，並鼓勵進一步探索其在臨床的應用。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

Fine-tuned large Language model for extracting newly identified acute brain infarcts based on computed tomography or magnetic resonance imaging reports.
基於電腦斷層掃描或磁振造影報告，萃取新發現急性腦梗塞的微調大型語言模型 Emerg Radiol 2025-06-01

這項研究開發了一套AI系統，能用大型語言模型自動從CT和MRI放射科報告中偵測新發急性或亞急性腦梗塞。模型在大量日文報告訓練下，對新發腦梗塞的敏感度高達0.891，整體準確率0.923，能快速分類並及早發出警示，協助臨床判斷。 PubMed DOI

Diagnostic efficacy of large language models in the pediatric emergency department: a pilot study.
大型語言模型於兒科急診部門的診斷效能：初步研究 Front Digit Health 2025-07-16

這項研究發現，ChatGPT-4o 在小兒急診診斷上表現比醫師還好，甚至連複雜案例也能大多答對。先進的聊天機器人有潛力協助醫師處理急診，但應該當作輔助工具，不能取代醫師，且需訂出明確的 AI 與醫師合作流程。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表