原始文章

這項研究發現,公開的大型語言模型(像Llama 3.3)即使沒經過特定任務訓練,只要給定結果定義,在辨識電子病歷中的goals-of-care討論時,表現跟傳統BERT模型一樣好。這代表新一代語言模型能省下大量訓練資料和成本,讓臨床研究更簡單有效率。 PubMed DOI


站上相關主題文章列表

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

這項研究利用大型語言模型(LLM)來識別電子健康紀錄中的照護目標對話,並評估其總結能力。針對2024年4月至6月的晚期癌症患者,使用符合HIPAA的GPT-4o版本。研究發現,LLM標記約40%的臨床筆記為照護目標文檔,並確認128名患者有相關對話。幻覺指數低,顯示LLM輸出與原始紀錄相符,且能在每位患者不到2分鐘內產生準確摘要。結果顯示LLM在識別和總結GOC討論方面具有效能,未來在臨床應用中具潛力。 PubMed DOI

這份技術說明介紹大型語言模型(如 GPT-4、Qwen-Chat)如何分析電子病歷,協助快速評估病患、預測敗血症及自動產生加護病房出院摘要。內容也說明如何用 DashScope API 把 LLMs 整合進臨床流程,並提供實用指引,幫助醫師和研究人員提升照護品質與推動個人化醫療。 PubMed DOI

大型語言模型像 ChatGPT 正在改變重症醫學,能自動化病歷、協助決策、個人化溝通,還能整理非結構化資料。不過,目前還有資訊正確性、倫理和醫師AI素養等挑戰。結合傳統機器學習可降低風險,導入時要謹慎並加強醫師訓練,才能提升照護品質。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄,經專業醫師評估,發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點,省下查閱時間,資訊品質也沒打折,對放射科工作流程很有幫助。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷,來偵測手術部位感染。28位病人中,LLM準確率達93%,敏感度100%,特異度86%。模型多半能和醫師一樣早,甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢,但臨床應用前還需更多研究驗證。 PubMed DOI

**重點摘要:** 這項研究測試了兩個大型語言模型(LLMs),用來從真實的臨床紀錄自動產生出院摘要,並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多,顯示LLMs有潛力協助醫師準備出院摘要,進而減輕臨床醫師的行政工作負擔。 PubMed DOI

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI