Towards evaluating and building versatile large language models for medicine.
朝向評估與建構多功能大型語言模型於醫學領域。 NPJ Digit Med 2025-01-26

這項研究介紹了 MedS-Bench，旨在評估大型語言模型（LLMs）在臨床環境中的表現，涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM，發現它們在面對這些任務時表現不佳。為了解決這些問題，我們創建了 MedS-Ins，這是一個針對醫療應用的大規模指令調整數據集，包含58個醫療語料庫和500萬個實例。透過實驗，我們展示了該數據集的有效性，並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins，並鼓勵研究社群參與進一步發展。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

Biomedical Natural Language Processing in the Era of Large Language Models.
大型語言模型時代的生物醫學自然語言處理 Annu Rev Biomed Data Sci 2025-04-17

生物醫學領域正加速數位化，LLMs 正在改變 NLP 應用，帶來自動化和新發現。雖然有助提升醫療與研究效率，但在準確性、安全性及多元資料整合上仍有挑戰。本文回顧發展歷程、現況與未來趨勢，並分析機會與風險。 PubMed DOI

Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning.
DeepSeek 大型語言模型在醫學任務與臨床推理上的比較性基準評估 Nat Med 2025-04-23

DeepSeek-R1 是新推出的大型語言模型，醫學任務表現比 Llama 3.1-405B 好，USMLE 題目略輸 ChatGPT-o1，病例推理和腫瘤分類則差不多。診斷推理步驟準確度更高，但影像報告摘要品質還不如 ChatGPT-o1。整體來說，DeepSeek-R1 在醫療領域很有潛力，但還有進步空間。 PubMed DOI

Benchmark evaluation of DeepSeek large language models in clinical decision-making.
DeepSeek 大型語言模型於臨床決策中的基準評估 Nat Med 2025-04-23

DeepSeek-V3 和 DeepSeek-R1 這類開源大型語言模型，在臨床決策支援上表現不輸甚至超越 GPT-4o、Gemini-2.0 等專有模型。最大優勢是能在本地安全微調，符合醫療隱私規範，非常適合台灣醫療現場應用。 PubMed DOI

Use of Open-Source Large Language Models for Automatic Synthesis of the Entire Imaging Medical Records of Patients: A Feasibility Study.
開源大型語言模型於自動整合病患完整影像醫療紀錄之應用：可行性研究 Tomography 2025-04-25

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄，經專業醫師評估，發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點，省下查閱時間，資訊品質也沒打折，對放射科工作流程很有幫助。 PubMed DOI

Use of Large Language Models in Clinical Cancer Research.
大型語言模型在臨床癌症研究中的應用 JCO Clin Cancer Inform 2025-05-19

AI大型語言模型正改變癌症研究，能協助資料擷取、分析、病患配對及多元資料整合，讓流程更有效率、決策更快速。不過，資料隱私、準確性、成本和法規等問題，還是需要特別注意。 PubMed DOI

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition.
大型語言模型在臨床命名實體識別的詞元層級表現不佳 AMIA Annu Symp Proc 2025-05-26

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現，雖然用了多種技術，LLMs 在這類任務上還是有不少困難，並針對醫療應用提出改進建議。 PubMed

Application of a general LLM-based classification system to retrieve information about oncological trials.
應用通用 LLM 為基礎的分類系統於腫瘤學試驗資訊檢索 Oncology 2025-06-15

我們開發了一套用大型語言模型（LLMs）自動分類腫瘤臨床試驗和文獻的系統，在多個資料集和任務上都表現優異，準確率超過94%、F1-score超過92%，回應有效性最高達99.88%。雖然還有提示敏感度和運算資源的挑戰，但未來LLMs有望成為醫學文獻分類的重要工具。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表