原始文章

這項研究推出DRAGON challenge,提供28項任務和近2.9萬份標註荷蘭醫療報告,協助自動化標註臨床資料,促進AI診斷工具訓練。結果顯示,針對臨床資料預訓練的LLM表現較佳,但部分任務仍有進步空間。所有資料和程式碼都已公開,歡迎大家使用。 PubMed DOI


站上相關主題文章列表

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

生物醫學領域正加速數位化,LLMs 正在改變 NLP 應用,帶來自動化和新發現。雖然有助提升醫療與研究效率,但在準確性、安全性及多元資料整合上仍有挑戰。本文回顧發展歷程、現況與未來趨勢,並分析機會與風險。 PubMed DOI

DeepSeek-R1 是新推出的大型語言模型,醫學任務表現比 Llama 3.1-405B 好,USMLE 題目略輸 ChatGPT-o1,病例推理和腫瘤分類則差不多。診斷推理步驟準確度更高,但影像報告摘要品質還不如 ChatGPT-o1。整體來說,DeepSeek-R1 在醫療領域很有潛力,但還有進步空間。 PubMed DOI

DeepSeek-V3 和 DeepSeek-R1 這類開源大型語言模型,在臨床決策支援上表現不輸甚至超越 GPT-4o、Gemini-2.0 等專有模型。最大優勢是能在本地安全微調,符合醫療隱私規範,非常適合台灣醫療現場應用。 PubMed DOI

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄,經專業醫師評估,發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點,省下查閱時間,資訊品質也沒打折,對放射科工作流程很有幫助。 PubMed DOI

AI大型語言模型正改變癌症研究,能協助資料擷取、分析、病患配對及多元資料整合,讓流程更有效率、決策更快速。不過,資料隱私、準確性、成本和法規等問題,還是需要特別注意。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

我們開發了一套用大型語言模型(LLMs)自動分類腫瘤臨床試驗和文獻的系統,在多個資料集和任務上都表現優異,準確率超過94%、F1-score超過92%,回應有效性最高達99.88%。雖然還有提示敏感度和運算資源的挑戰,但未來LLMs有望成為醫學文獻分類的重要工具。 PubMed DOI

大部分醫療紀錄都是非結構化,讓資料分析很困難。這項研究測試九種大型語言模型,能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型,表現都很優秀,最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案,有機會取代人工處理。 PubMed DOI