原始文章

一項涵蓋13家醫院的研究發現,GPT-4-Turbo這種大型語言模型在判斷病人是否有近期長照機構接觸史時,準確度跟人工差不多甚至更高,速度快25倍、成本省20倍,還能抓出人工審查的錯誤。這代表AI能有效從醫療紀錄中擷取重要資訊,幫助提升感染控制和醫院作業效率。 PubMed DOI


站上相關主題文章列表

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

跌倒是醫院常見的不良事件,對患者及醫療系統影響深遠。本研究旨在利用大型語言模型(LLMs)自動編碼住院跌倒記錄,提取跌倒地點及受傷情況。研究分析了187條跌倒事件,使用GPT-4-turbo模型進行數據分類,結果顯示模型在地點和受傷檢測上表現優異,準確率均超過0.913及0.953。結論指出,GPT模型能有效從未優化文本中提取信息,顯示其在臨床風險管理中的潛力。 PubMed DOI

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI

這份技術說明介紹大型語言模型(如 GPT-4、Qwen-Chat)如何分析電子病歷,協助快速評估病患、預測敗血症及自動產生加護病房出院摘要。內容也說明如何用 DashScope API 把 LLMs 整合進臨床流程,並提供實用指引,幫助醫師和研究人員提升照護品質與推動個人化醫療。 PubMed DOI

這項研究發現,ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯,但在隔離措施和壓瘡辨識上有失誤。整體來說,LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

研究發現,大型語言模型(LLM)生成的出院摘要,品質和醫師寫的差不多,受歡迎程度也相近。LLM寫的內容比較精簡、結構清楚,但資訊沒那麼完整,錯誤率也稍高。不過這些錯誤通常不會造成傷害。只要有醫師審核,LLM生成的摘要很有機會成為醫院的好幫手。 PubMed DOI

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷,來偵測手術部位感染。28位病人中,LLM準確率達93%,敏感度100%,特異度86%。模型多半能和醫師一樣早,甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢,但臨床應用前還需更多研究驗證。 PubMed DOI

**重點摘要:** 這項研究測試了兩個大型語言模型(LLMs),用來從真實的臨床紀錄自動產生出院摘要,並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多,顯示LLMs有潛力協助醫師準備出院摘要,進而減輕臨床醫師的行政工作負擔。 PubMed DOI

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI