Large language models improve the identification of emergency department visits for symptomatic kidney stones.
大型語言模型改善了對有症狀腎結石的急診就診識別。 Sci Rep 2025-01-28

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集，透過提示優化和微調來提升模型表現。結果顯示，GPT-4的宏觀F1分數為0.833，表現最佳，而GPT-3.5為0.796。微調改善了GPT-3.5的表現，並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見，但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

Integrating retrieval-augmented generation for enhanced personalized physician recommendations in web-based medical services: model development study.
整合檢索增強生成以提升網路醫療服務中的個性化醫生推薦：模型開發研究。 Front Public Health 2025-02-13

這項研究開發了一個基於檢索增強生成的醫生推薦模型（RAGPR），旨在提升網路醫療服務中的個人化推薦。研究針對排班人員手動分診的限制，使用廈門大學第一附屬醫院的646,383份諮詢紀錄進行評估。結果顯示，SBERT和OpenAI的表現優異，F1分數分別達到95%和96%。在大型語言模型中，GPT-4o表現最佳，F1分數為95%。整體而言，RAGPR模型在提升醫療服務的準確性和個人化方面展現良好潛力，提供可擴展的病患與醫生匹配解決方案。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Leveraging Medical Knowledge Graphs Into Large Language Models for Diagnosis Prediction: Design and Application Study.
將醫學知識圖譜融入大型語言模型進行診斷預測：設計與應用研究。 JMIR AI 2025-02-24

這項研究介紹了DR.KNOWS，一個結合知識圖譜（KGs）與大型語言模型（LLMs）的新模型，旨在提升電子健康紀錄（EHRs）的診斷推理。透過KGs的結構化知識，DR.KNOWS能更精確地檢索病人相關的醫療資訊，改善診斷預測。實驗結果顯示，DR.KNOWS在準確性上超越了多個基準模型，並獲得了人類評估者的肯定。研究也提到KG數據可能存在的偏見，並建議未來需針對這些問題進行改善。總體而言，DR.KNOWS在臨床決策支持上具有重要意義。 PubMed DOI

Evaluating base and retrieval augmented LLMs with document or online support for evidence based neurology.
評估具有文件或線上支持的基礎及檢索增強型 LLMs 在證據基礎神經學中的應用。 NPJ Digit Med 2025-03-04

這項研究探討大型語言模型（LLMs）和檢索增強生成（RAG）系統在管理基於證據的信息的效果，特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯，雖然RAG系統在準確性上有所提升，但仍可能產生有害回應。此外，RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範，以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

Large Language Model-Driven Knowledge Graph Construction in Sepsis Care Using Multicenter Clinical Databases: Development and Usability Study.
多中心臨床數據庫在敗血症護理中驅動大型語言模型的知識圖譜構建：開發與可用性研究。 J Med Internet Res 2025-03-27

這項研究利用GPT-4.0整合臨床數據，開發了一個全面的敗血症知識圖譜。敗血症是一種變異性大的病症，傳統知識圖譜建構困難。研究者從中國西部三家醫院建立了多中心敗血症數據庫，收集了10,544名患者的數據。透過GPT-4.0的技術，成功生成了包含1,894個節點和2,021個關係的知識圖譜，顯示其在實體識別和關係提取上的優越性。這項成果不僅增進了對敗血症的理解，也為臨床決策提供了支持，成為未來研究的寶貴資源。 PubMed DOI

Evaluating large language model workflows in clinical decision support for triage and referral and diagnosis.
臨床決策支援中大型語言模型於分診、轉診與診斷流程的評估 NPJ Digit Med 2025-05-09

**重點摘要：** 這項研究評估了多個大型語言模型（LLMs）以及一個檢索增強生成（RAG）流程，並以2,000個醫療案例作為測試。結果顯示，LLMs能夠協助病人和臨床醫師，像是提供可能的診斷、建議合適的專科醫師，以及評估緊急程度，有機會提升醫療決策品質和醫療服務的效率。 PubMed DOI

Patient Triage and Guidance in Emergency Departments Using Large Language Models: Multimetric Study.
利用大型語言模型於急診部門進行病患分流與指導：多指標研究 J Med Internet Res 2025-05-15

這項研究用模擬病人測試ChatGPT（GPT-4o和GPT-4-Turbo）在急診分級和門診指引的表現。經過優化後，GPT-4-Turbo用MEWS分級達到100%準確率，優於GPT-4o（96.2%）；GPT-4o在門診科別選擇也有92.6%高準確率，且情感回應更好。結果顯示，經設計的ChatGPT能有效協助急診分級與指引，但還需更多臨床驗證。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

原始文章

站上相關主題文章列表