Beyond Tokens: Fair Evaluation of French Large Language Models for Clinical Named Entity Recognition.
超越標記：法語大型語言模型在臨床命名實體識別中的公平評估。 Stud Health Technol Inform 2024-08-23

這項研究探討基於Transformer的命名實體識別（NER）模型，特別是標記級別與實體級別評估的差異。研究使用合成法語腫瘤報告數據集，對四個BERT模型進行微調，並評估其在兩個級別的表現。結果顯示，從標記級別轉向實體級別時，模型表現有明顯差異，強調了NER任務中評估方法的重要性。此外，雖然BERT模型表現不錯，但ChatGPT在識別法語複雜實體方面仍有挑戰。 PubMed DOI

Comparative Analysis of Large Language Models in Chinese Medical Named Entity Recognition.
中文醫學命名實體識別中大型語言模型的比較分析。 Bioengineering (Basel) 2024-10-25

這項研究探討大型語言模型（LLMs）在中文生物醫學命名實體識別（BNER）任務的表現，這領域的研究相對較少。作者評估了多個LLMs，包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4，使用真實的中文電子病歷數據集及公共數據集。結果顯示，雖然LLMs在零樣本和少樣本情境下有潛力，但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型，而GPT-3.5在CCKS2017數據集上表現最佳，但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究，顯示其潛力並為未來應用提供指導。 PubMed DOI

Performance and Reproducibility of Large Language Models in Named Entity Recognition: Considerations for the Use in Controlled Environments.
大型語言模型在命名實體識別中的表現與可重複性：在受控環境中使用的考量。 Drug Saf 2024-12-11

最近在人工智慧（AI）領域，特別是大型語言模型（LLMs）如GPT-3.5和GPT-4，顯示出在醫療應用上的潛力。本研究探討將這些模型整合進良好實踐（GxP）驗證系統的可行性，重點在效能和可重複性。研究比較外部和內部託管的模型在命名實體識別（NER）和關係提取的表現，發現Zephyr-7b-beta模型在少樣本學習中表現優於GPT-3.5。儘管GPT-4的表現不錯，但在可重複性上仍有挑戰，建議利用GPT模型生成註釋提案作為微調訓練數據的基礎。 PubMed DOI

Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Improving entity recognition using ensembles of deep learning and fine-tuned large language models: A case study on adverse event extraction from VAERS and social media.
使用深度學習和微調大型語言模型的集成來改善實體識別：以從 VAERS 和社交媒體提取不良事件為案例研究。 J Biomed Inform 2025-02-09

這項研究專注於從文本中提取與COVID-19疫苗相關的不良事件資訊，對疫苗安全性監測至關重要。研究比較了大型語言模型（LLMs）和傳統深度學習模型的表現，並探討了模型集成的優勢。使用了VAERS、Twitter和Reddit的數據，識別疫苗、接種和不良事件等實體。多個模型經過微調，最佳集成結果顯示「疫苗」的F1分數為0.878，「接種」為0.930，「不良事件」為0.925，整體微平均F1分數為0.903。研究強調了微調和集成方法在提升性能上的重要性，推進了生物醫學領域的自然語言處理。 PubMed DOI

Prompt Framework for Extracting Scale-Related Knowledge Entities from Chinese Medical Literature: Development and Evaluation Study.
從中文醫學文獻中提取與規模相關的知識實體的提示框架：開發與評估研究。 J Med Internet Res 2025-03-18

這項研究開發了MedScaleNER框架，旨在透過基於測量的護理改善病人結果，特別是在非結構化的中文醫學文獻中識別醫學量表相關實體。由於標註數據有限，命名實體識別（NER）面臨挑戰。該框架結合大型語言模型（LLMs）和提示策略，成功識別量表名稱及測量項目。初步實驗顯示，GLM-4-0520與MedScaleNER結合後，達到59.64%的宏觀F1分數，顯示出顯著的改進，並為未來的研究提供了寶貴的見解。 PubMed DOI

Using Synthetic Health Care Data to Leverage Large Language Models for Named Entity Recognition: Development and Validation Study.
使用合成健康照護數據來利用大型語言模型進行命名實體識別：開發與驗證研究。 J Med Internet Res 2025-03-18

這項研究針對低資源語言，特別是愛沙尼亞語，開發命名實體識別（NER）模型，目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據，作者提出三步驟方法：首先，利用本地訓練的GPT-2生成合成醫療數據；接著，使用GPT-3.5-Turbo和GPT-4對這些數據進行標註；最後，微調NER模型並測試真實醫療文本。研究結果顯示，藥物提取的F<sub>1</sub>分數為0.69，程序提取為0.38，顯示出在藥物識別上的有效性，並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

German Medical NER with BERT and LLMs: The Impact of Training Data Size.
使用 BERT 與 LLMs 進行德文醫學命名實體辨識：訓練資料量的影響 Stud Health Technol Inform 2025-05-17

**重點整理：** 這篇研究比較了一個大型語言模型（LLaMA3.1）和一個基於BERT的模型，在德文醫療文本中的命名實體辨識（NER）表現，特別著重在訓練資料有限的情況下。兩個模型的表現相近，但在訓練資料較少時，LLaMA3.1的表現略優於BERT-based模型。 PubMed DOI

Evaluating the Performance of Large Language Models for Named Entity Recognition in Ophthalmology Clinical Free-Text Notes.
眼科臨床自由文本紀錄中，大型語言模型於命名實體識別的表現評估 AMIA Annu Symp Proc 2025-05-26

這項研究發現，GPT-4 在從眼科病歷中辨識藥物名稱、用法和頻率的準確度，明顯優於 BERT 系列模型。GPT-4 的 F1 分數高達 0.962，而 BioBERT 只有 0.875，顯示大型語言模型在醫療資訊辨識上有很大潛力。 PubMed

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition.
大型語言模型在臨床命名實體識別的詞元層級表現不佳 AMIA Annu Symp Proc 2025-05-26

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現，雖然用了多種技術，LLMs 在這類任務上還是有不少困難，並針對醫療應用提出改進建議。 PubMed

原始文章

站上相關主題文章列表