原始文章

這項研究探討如何將大型語言模型(LLMs)與知識圖譜結合,來有效篩選可能的緊急病人訊息,目的是提升病人安全,促使病人尋求即時護理。研究分析了1,020條來自范德堡大學醫療中心的訊息,並開發了四種緊急篩選模型。結果顯示,使用知識圖譜進行全球檢索的模型表現最佳,準確率達0.99,敏感性0.98,特異性0.99,顯著優於其他模型。研究建議進一步擴展知識圖譜並評估其對病人結果的影響。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數為0.833,表現最佳,而GPT-3.5為0.796。微調改善了GPT-3.5的表現,並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見,但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

這項研究開發了一個基於檢索增強生成的醫生推薦模型(RAGPR),旨在提升網路醫療服務中的個人化推薦。研究針對排班人員手動分診的限制,使用廈門大學第一附屬醫院的646,383份諮詢紀錄進行評估。結果顯示,SBERT和OpenAI的表現優異,F1分數分別達到95%和96%。在大型語言模型中,GPT-4o表現最佳,F1分數為95%。整體而言,RAGPR模型在提升醫療服務的準確性和個人化方面展現良好潛力,提供可擴展的病患與醫生匹配解決方案。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

這項研究介紹了DR.KNOWS,一個結合知識圖譜(KGs)與大型語言模型(LLMs)的新模型,旨在提升電子健康紀錄(EHRs)的診斷推理。透過KGs的結構化知識,DR.KNOWS能更精確地檢索病人相關的醫療資訊,改善診斷預測。實驗結果顯示,DR.KNOWS在準確性上超越了多個基準模型,並獲得了人類評估者的肯定。研究也提到KG數據可能存在的偏見,並建議未來需針對這些問題進行改善。總體而言,DR.KNOWS在臨床決策支持上具有重要意義。 PubMed DOI

這項研究探討大型語言模型(LLMs)和檢索增強生成(RAG)系統在管理基於證據的信息的效果,特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯,雖然RAG系統在準確性上有所提升,但仍可能產生有害回應。此外,RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範,以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI

這項研究利用GPT-4.0整合臨床數據,開發了一個全面的敗血症知識圖譜。敗血症是一種變異性大的病症,傳統知識圖譜建構困難。研究者從中國西部三家醫院建立了多中心敗血症數據庫,收集了10,544名患者的數據。透過GPT-4.0的技術,成功生成了包含1,894個節點和2,021個關係的知識圖譜,顯示其在實體識別和關係提取上的優越性。這項成果不僅增進了對敗血症的理解,也為臨床決策提供了支持,成為未來研究的寶貴資源。 PubMed DOI

**重點摘要:** 這項研究評估了多個大型語言模型(LLMs)以及一個檢索增強生成(RAG)流程,並以2,000個醫療案例作為測試。結果顯示,LLMs能夠協助病人和臨床醫師,像是提供可能的診斷、建議合適的專科醫師,以及評估緊急程度,有機會提升醫療決策品質和醫療服務的效率。 PubMed DOI

這項研究用模擬病人測試ChatGPT(GPT-4o和GPT-4-Turbo)在急診分級和門診指引的表現。經過優化後,GPT-4-Turbo用MEWS分級達到100%準確率,優於GPT-4o(96.2%);GPT-4o在門診科別選擇也有92.6%高準確率,且情感回應更好。結果顯示,經設計的ChatGPT能有效協助急診分級與指引,但還需更多臨床驗證。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI