這項研究探討大型語言模型(LLMs)在中文生物醫學命名實體識別(BNER)任務的表現,這領域的研究相對較少。作者評估了多個LLMs,包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4,使用真實的中文電子病歷數據集及公共數據集。結果顯示,雖然LLMs在零樣本和少樣本情境下有潛力,但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型,而GPT-3.5在CCKS2017數據集上表現最佳,但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究,顯示其潛力並為未來應用提供指導。
PubMed
DOI
♡