原始文章

這項研究開發了MedScaleNER框架,旨在透過基於測量的護理改善病人結果,特別是在非結構化的中文醫學文獻中識別醫學量表相關實體。由於標註數據有限,命名實體識別(NER)面臨挑戰。該框架結合大型語言模型(LLMs)和提示策略,成功識別量表名稱及測量項目。初步實驗顯示,GLM-4-0520與MedScaleNER結合後,達到59.64%的宏觀F1分數,顯示出顯著的改進,並為未來的研究提供了寶貴的見解。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

大型語言模型(LLMs)在醫學領域的應用越來越受到重視,但在中醫方面的研究仍然有限。本研究回顧了29項相關研究,發現LLMs在知識提取和輔助診斷方面有潛力。專為中醫設計的模型在執業醫師考試中達到70%的準確率,而通用模型則為60%。不過,LLMs在中醫應用上仍面臨數據質量、安全性及中醫特有的複雜性等挑戰。未來應著重於跨學科訓練和數據標準化等方向。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

從自由文本醫療紀錄中提取結構化數據,特別是病理報告,面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道,能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作,我們將重大錯誤率降至0.99%。在3520份報告中,識別腎腫瘤亞型的F1分數達0.99,顯示LLM提取管道在良好指示下可達接近專家準確性,並可應用於其他臨床信息提取任務。 PubMed DOI

大型語言模型正在改變醫療領域,特別是在臨床決策支持和資訊提取方面。這些模型的語言理解能力幫助病理學家從知識庫中檢索準確資訊以進行診斷。我們提出了一個框架,結合檢索增強生成技術與提示工程,並提供了涵蓋腎臟疾病的臨床數據語料庫。透過多樣的提示技術,模型在疾病診斷的表現顯著提升,特別是在上下文相關性上獲得完美的1.0分,顯示出優秀的對話對齊能力。 PubMed DOI

這項研究探討大型語言模型(LLMs),如GPT-3.5、GPT-4.0和Claude-opus,在化學與疾病關係提取中的挑戰,特別是標註數據不足的情況。研究發現,這些模型在精確提取上達87%的F1分數,但全面提取僅73%。模型在提示工程上的改進有限,且對正向關係的識別較佳。提取錯誤多因模型誤解生物醫學文本的隱含意義。最後,研究提供了增強提取任務的工作流程,並強調優化訓練數據的重要性。 PubMed DOI

這篇論文提出一種全新的 soft prompt-tuning 方法,專門用來分類醫療短文本,像是對話紀錄或線上諮詢。透過自動產生模板和擴充標籤詞彙,能更精準處理醫療術語和複雜單位。實驗證明,這方法不只提升分類準確率,也讓結果更容易理解,有效解決醫療短文本分類的難題。 PubMed DOI

這項研究用標準化、針對人類優化的提示語,讓大型語言模型標註六家醫院的放射科報告,結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語,LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

這篇論文提出 LMCEE 方法,把大型語言模型和 prompt learning 結合來擷取臨床事件,F1 分數明顯勝過傳統和舊有生成式方法。不過,LMCEE 的效果很依賴 prompt 設計和 LLM 選擇,還有進步空間。 PubMed DOI

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI