Closing the gap between open source and commercial large language models for medical evidence summarization.
縮小開源與商業大型語言模型在醫學證據總結之間的差距。 NPJ Digit Med 2024-09-09

這項研究探討了微調開源大型語言模型（LLMs）在醫學證據總結方面的潛力，與專有模型相比，開源模型雖然表現較弱，但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調，結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現，且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

Comparative Analysis of Large Language Models in Chinese Medical Named Entity Recognition.
中文醫學命名實體識別中大型語言模型的比較分析。 Bioengineering (Basel) 2024-10-25

這項研究探討大型語言模型（LLMs）在中文生物醫學命名實體識別（BNER）任務的表現，這領域的研究相對較少。作者評估了多個LLMs，包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4，使用真實的中文電子病歷數據集及公共數據集。結果顯示，雖然LLMs在零樣本和少樣本情境下有潛力，但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型，而GPT-3.5在CCKS2017數據集上表現最佳，但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究，顯示其潛力並為未來應用提供指導。 PubMed DOI

Exploring the effectiveness of instruction tuning in biomedical language processing.
探索指令調整在生物醫學語言處理中的有效性。 Artif Intell Med 2024-11-14

這項研究探討如何透過指令調整來提升大型語言模型（LLMs）在生物醫學自然語言處理任務的表現，像是命名實體識別（NER）、關係提取（RE）和醫學自然語言推理（NLI）。研究團隊使用約20萬個專注於指令的樣本來訓練模型，目的是達到與BioBERT和BioClinicalBERT等專門模型相當的效果。他們還分析了數據集的組成對模型表現的影響，並希望分享研究結果、代碼和模型，以促進該領域的進一步發展。 PubMed DOI

Comparative analysis of generative LLMs for labeling entities in clinical notes.
臨床筆記中標註實體的生成式 LLMs 比較分析。 Genomics Inform 2025-02-06

這篇論文評估了不同微調的生成大型語言模型（LLMs）在臨床領域的零樣本命名實體識別（NER）表現。研究在第八屆生物醫學聯結註解黑客松進行，重點分析Llama 2和Mistral模型，並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示，經過指示微調的模型在實體識別上表現優於聊天微調和基本模型，且在要求簡單輸出結構時表現也有所提升。 PubMed DOI

The Development Landscape of Large Language Models for Biomedical Applications.
生物醫學應用的大型語言模型發展現狀。 Annu Rev Biomed Data Sci 2025-04-01

大型語言模型（LLMs）在生物醫學領域的應用日益增多，顯示出改變醫療保健的潛力。自2022年ChatGPT推出以來，針對生物醫學的LLMs開發顯著增加。這篇綜述分析了基於文本的生物醫學LLMs的現狀，重點在架構、訓練策略及應用，如聊天機器人。從5,512篇文章中選取82篇相關文獻，發現對解碼器架構的偏好及任務特定微調的趨勢。未來可透過整合多模態數據及增強數據共享來推進發展。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Natural Language Processing for Digital Health in the Era of Large Language Models.
大型語言模型時代的數位健康自然語言處理。 Yearb Med Inform 2025-04-08

大型語言模型（LLMs）對醫療領域的自然語言處理（NLP）影響深遠，近期的研究顯示，專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP，資料來源涵蓋多個學術平台，重點在醫學文獻、電子健康紀錄（EHRs）及社交媒體。雖然通用LLMs如GPT-4被廣泛使用，但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs，但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

Fine-Tuning Large Language Models for Specialized Use Cases.
針對專門使用案例微調大型語言模型。 Mayo Clin Proc Digit Health 2025-04-10

大型語言模型（LLMs）是先進的人工智慧系統，透過預測單詞序列來生成文本，改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM，以適應特定任務或領域。這篇評論探討了微調的各種方法，概述了一般步驟，並提供醫學子專科的例子，最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition.
大型語言模型在臨床命名實體識別的詞元層級表現不佳 AMIA Annu Symp Proc 2025-05-26

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現，雖然用了多種技術，LLMs 在這類任務上還是有不少困難，並針對醫療應用提出改進建議。 PubMed

原始文章

站上相關主題文章列表