原始文章

這項研究發現,公開的大型語言模型(像Llama 3.3)即使沒經過特定任務訓練,只要給定結果定義,在辨識電子病歷中的goals-of-care討論時,表現跟傳統BERT模型一樣好。這代表新一代語言模型能省下大量訓練資料和成本,讓臨床研究更簡單有效率。 PubMed DOI


站上相關主題文章列表

研究使用大型語言模型幫助病人提出問題,提升溝通效率。以范德堡大學醫學中心數據測試三個模型,CLAIR在清晰度、完整性和簡潔性表現最佳。GPT4在效用和完整性較高,但清晰度和簡潔性較差。CLAIR生成的問題與醫療者相符,有助改善溝通。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI

這項研究利用大型語言模型(LLM)來識別電子健康紀錄中的照護目標對話,並評估其總結能力。針對2024年4月至6月的晚期癌症患者,使用符合HIPAA的GPT-4o版本。研究發現,LLM標記約40%的臨床筆記為照護目標文檔,並確認128名患者有相關對話。幻覺指數低,顯示LLM輸出與原始紀錄相符,且能在每位患者不到2分鐘內產生準確摘要。結果顯示LLM在識別和總結GOC討論方面具有效能,未來在臨床應用中具潛力。 PubMed DOI

大型語言模型像 ChatGPT 正在改變重症醫學,能自動化病歷、協助決策、個人化溝通,還能整理非結構化資料。不過,目前還有資訊正確性、倫理和醫師AI素養等挑戰。結合傳統機器學習可降低風險,導入時要謹慎並加強醫師訓練,才能提升照護品質。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷,來偵測手術部位感染。28位病人中,LLM準確率達93%,敏感度100%,特異度86%。模型多半能和醫師一樣早,甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢,但臨床應用前還需更多研究驗證。 PubMed DOI

**重點摘要:** 這項研究測試了兩個大型語言模型(LLMs),用來從真實的臨床紀錄自動產生出院摘要,並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多,顯示LLMs有潛力協助醫師準備出院摘要,進而減輕臨床醫師的行政工作負擔。 PubMed DOI

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI