原始文章

這項研究推出DRAGON challenge,提供28項任務和近2.9萬份標註荷蘭醫療報告,協助自動化標註臨床資料,促進AI診斷工具訓練。結果顯示,針對臨床資料預訓練的LLM表現較佳,但部分任務仍有進步空間。所有資料和程式碼都已公開,歡迎大家使用。 PubMed DOI


站上相關主題文章列表

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

自然語言處理(NLP)在臨床領域的應用非常重要,因為臨床文件中有許多非結構化資訊,這些資訊在結構化數據中難以捕捉。目前缺乏針對長臨床文件分類的基準數據集,因此我們推出了長臨床文件(LCD)基準,專注於預測30天的院外死亡率。我們使用了多種模型進行評估,結果顯示GPT-4的表現最佳,達到32.2%的F1分數。這個基準將成為開發臨床文本分析模型的重要資源。 PubMed DOI

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

生物醫學領域正加速數位化,LLMs 正在改變 NLP 應用,帶來自動化和新發現。雖然有助提升醫療與研究效率,但在準確性、安全性及多元資料整合上仍有挑戰。本文回顧發展歷程、現況與未來趨勢,並分析機會與風險。 PubMed DOI

DeepSeek-R1 是新推出的大型語言模型,醫學任務表現比 Llama 3.1-405B 好,USMLE 題目略輸 ChatGPT-o1,病例推理和腫瘤分類則差不多。診斷推理步驟準確度更高,但影像報告摘要品質還不如 ChatGPT-o1。整體來說,DeepSeek-R1 在醫療領域很有潛力,但還有進步空間。 PubMed DOI

DeepSeek-V3 和 DeepSeek-R1 這類開源大型語言模型,在臨床決策支援上表現不輸甚至超越 GPT-4o、Gemini-2.0 等專有模型。最大優勢是能在本地安全微調,符合醫療隱私規範,非常適合台灣醫療現場應用。 PubMed DOI

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄,經專業醫師評估,發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點,省下查閱時間,資訊品質也沒打折,對放射科工作流程很有幫助。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

這篇文章介紹 MedRoBERTa.nl,是首個專為荷蘭語電子健康紀錄(EHR)訓練的大型語言模型。作者用匿名化的 EHR 資料預訓練模型,讓它更懂醫療用語。文中說明模型開發、資料匿名化流程,並和其他語言模型做比較。結果顯示,MedRoBERTa.nl 能提升醫療文本分析效果,有助於治療和病患康復相關研究。 PubMed DOI