RAMIE: retrieval-augmented multi-task information extraction with large language models on dietary supplements.
RAMIE：基於大型語言模型的飲食補充品檢索增強多任務信息提取。 J Am Med Inform Assoc 2025-01-11

這項研究開發了一個名為RAMIE的框架，專門用來從臨床記錄中提取膳食補充劑的資訊，重點在四個任務：命名實體識別、關係提取、三元組提取和使用分類。RAMIE透過指令微調、多任務訓練和檢索增強生成來提升效率和性能。結果顯示，Llama2-13B模型在命名實體識別和關係提取上都有所提升，而Llama2-7B在三元組提取上表現更佳。整體而言，RAMIE在多任務資訊提取上顯示出顯著進展。 PubMed DOI

Towards evaluating and building versatile large language models for medicine.
朝向評估與建構多功能大型語言模型於醫學領域。 NPJ Digit Med 2025-01-26

這項研究介紹了 MedS-Bench，旨在評估大型語言模型（LLMs）在臨床環境中的表現，涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM，發現它們在面對這些任務時表現不佳。為了解決這些問題，我們創建了 MedS-Ins，這是一個針對醫療應用的大規模指令調整數據集，包含58個醫療語料庫和500萬個實例。透過實驗，我們展示了該數據集的有效性，並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins，並鼓勵研究社群參與進一步發展。 PubMed DOI

MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical Reasoning.
MedAdapter: 大型語言模型在醫學推理中的高效測試時適應。 Proc Conf Empir Methods Nat Lang Process 2025-03-03

這項研究介紹了MedAdapter，一種新方法，能讓大型語言模型（LLMs）在生物醫學領域適應，而不需微調整個模型。MedAdapter使用小型的BERT適配器來排名LLMs生成的候選解，提升測試時的適應性。實驗顯示，MedAdapter在四個生物醫學任務上，白盒和黑盒LLMs的性能分別提升了18.24%和10.96%。這種方法資源效率高，且保護數據隱私，適合現有方法的靈活選擇。 PubMed DOI

BioMedGPT: An Open Multimodal Large Language Model for BioMedicine.
BioMedGPT：一個開放的多模態大型語言模型於生物醫學。 IEEE J Biomed Health Inform 2025-03-03

BioMedGPT是一個新型的多模態大型語言模型，專為生物醫學研究設計，克服了現有模型的限制。它透過廣泛的生物醫學文獻進行預訓練，增強知識基礎，並整合2D分子圖、蛋白質序列與自然語言。實驗結果顯示，BioMedGPT在理解生物醫學文件及回答研究問題上，表現與人類專家相當，並在分子和蛋白質問答任務中顯著提升ROUGE-L分數。相關資源已在GitHub上公開，供大家使用。 PubMed DOI

NLP modeling recommendations for restricted data availability in clinical settings.
臨床環境中有限數據可用性的 NLP 建模建議。 BMC Med Inform Decis Mak 2025-03-07

這項研究探討自然語言處理（NLP）在臨床決策中的應用，特別針對西班牙語的轉診優先級排序和專科分類。研究發現，臨床特定的預訓練語言模型表現最佳，轉診優先級排序的宏觀F1分數達88.85%，專科分類為53.79%。雖然繼續預訓練稍微提升性能，但相對於計算成本，這些提升不算明顯。大型語言模型的少量學習在數據稀缺時仍有用。研究為臨床NLP從業者提供實用建議，強調考量數據可用性和任務複雜性。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Benchmark evaluation of DeepSeek large language models in clinical decision-making.
DeepSeek 大型語言模型於臨床決策中的基準評估 Nat Med 2025-04-23

DeepSeek-V3 和 DeepSeek-R1 這類開源大型語言模型，在臨床決策支援上表現不輸甚至超越 GPT-4o、Gemini-2.0 等專有模型。最大優勢是能在本地安全微調，符合醫療隱私規範，非常適合台灣醫療現場應用。 PubMed DOI

BioMistral-NLU: Towards More Generalizable Medical Language Understanding through Instruction Tuning.
BioMistral-NLU：透過指令微調邁向更具泛化能力的醫學語言理解 AMIA Jt Summits Transl Sci Proc 2025-06-12

作者針對大型語言模型在醫療自然語言理解表現不佳，提出統一提示格式、多元醫療指令微調資料集，並以BioMistral微調成BioMistral-NLU。該模型在零樣本下於多項醫療NLU基準測試勝過原始BioMistral及ChatGPT、GPT-4等，證明多元任務指令微調能有效提升泛化能力。 PubMed

Application of a general LLM-based classification system to retrieve information about oncological trials.
應用通用 LLM 為基礎的分類系統於腫瘤學試驗資訊檢索 Oncology 2025-06-15

我們開發了一套用大型語言模型（LLMs）自動分類腫瘤臨床試驗和文獻的系統，在多個資料集和任務上都表現優異，準確率超過94%、F1-score超過92%，回應有效性最高達99.88%。雖然還有提示敏感度和運算資源的挑戰，但未來LLMs有望成為醫學文獻分類的重要工具。 PubMed DOI

原始文章

站上相關主題文章列表