原始文章

這項研究專注於臨床筆記中的斷言檢測,對於提取醫學概念非常重要。斷言檢測能幫助醫療人員理解病患的醫學狀況,進而提升護理品質。傳統方法常需大量手動操作,且容易漏掉不常見的斷言。為了解決這些問題,我們提出使用大型語言模型(LLMs)進行斷言檢測,並結合先進的推理技術。經過評估,我們的模型在i2b2 2010數據集上達到0.89的F-1分數,顯示LLMs在臨床NLP中具潛力,能有效應用於各種臨床任務。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據,但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型,但效果仍不如傳統監督方法。我們提出一種新方法,結合LLMs的微調與弱監督,僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據,並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試,結果顯示僅用10個金標準筆記,模型F1分數超越PubMedBERT,提升幅度達4.7-47.9%。使用50個金標準筆記時,性能可與完全微調系統相媲美。 PubMed DOI

這項研究探討人工智慧在醫療上的應用,特別是命名實體識別(NER)和大型語言模型(LLMs),評估紐約大學和辛辛那提大學的電子健康紀錄中的臨床推理文件。分析了700份NYU和450份UC的住院醫師紀錄,並開發了多種AI模型。NYUTron LLM在NYU表現最佳,而GatorTron LLM在UC也有不錯的成績。研究顯示AI工具能顯著提升臨床推理的質量,並強調這些模型在不同醫療機構的應用潛力。 PubMed DOI

大型語言模型(LLMs)對醫療領域的自然語言處理(NLP)影響深遠,近期的研究顯示,專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP,資料來源涵蓋多個學術平台,重點在醫學文獻、電子健康紀錄(EHRs)及社交媒體。雖然通用LLMs如GPT-4被廣泛使用,但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs,但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

這項研究發現,規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上,都比大型語言模型(LLaMA2-13B、LLaMA3-8B)表現更好。不過,LLMs 在某些情境下也有優勢。整體來說,LLMs 在公平性和泛化能力上還有待加強,未來需提升訓練資料和標註品質。 PubMed DOI

大型語言模型在醫療文件撰寫和決策輔助上很有潛力,但因準確性、驗證、偏見和隱私等問題,現階段還不適合完全自動化臨床應用。未來要安全有效導入,需加強研究、訂定明確規範,並維持人工監督。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

**重點整理:** 這項研究顯示,只要搭配詳細的提示、範例和逐步推理,大型語言模型(LLMs)就能夠準確地從臨床紀錄中擷取出常見的病人症狀。跟傳統的機器學習方法相比,LLMs在從自由文本中辨識和標準化症狀資訊方面表現得更好,這有助於提升醫療流程,也能支持更多相關研究。 PubMed

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

大部分醫療紀錄都是非結構化,讓資料分析很困難。這項研究測試九種大型語言模型,能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型,表現都很優秀,最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案,有機會取代人工處理。 PubMed DOI