MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical Reasoning.
MedAdapter: 大型語言模型在醫學推理中的高效測試時適應。 Proc Conf Empir Methods Nat Lang Process 2025-03-03

這項研究介紹了MedAdapter，一種新方法，能讓大型語言模型（LLMs）在生物醫學領域適應，而不需微調整個模型。MedAdapter使用小型的BERT適配器來排名LLMs生成的候選解，提升測試時的適應性。實驗顯示，MedAdapter在四個生物醫學任務上，白盒和黑盒LLMs的性能分別提升了18.24%和10.96%。這種方法資源效率高，且保護數據隱私，適合現有方法的靈活選擇。 PubMed DOI

Leveraging large language models for knowledge-free weak supervision in clinical natural language processing.
利用大型語言模型在臨床自然語言處理中進行無知識的弱監督學習。 Sci Rep 2025-03-11

基於深度學習的自然語言處理系統在臨床領域常需大量標記數據，但這些數據難以獲得且成本高。雖然弱監督和上下文學習有助於大型語言模型，但效果仍不如傳統監督方法。我們提出一種新方法，結合LLMs的微調與弱監督，僅需少量領域知識即可提升表現。透過提示策略生成弱標記數據，並用少量金標準數據微調BERT模型。我們在i2b2/n2c2數據集上測試，結果顯示僅用10個金標準筆記，模型F1分數超越PubMedBERT，提升幅度達4.7-47.9%。使用50個金標準筆記時，性能可與完全微調系統相媲美。 PubMed DOI

Impact of hospital-specific domain adaptation on BERT-based models to classify neuroradiology reports.
醫院特定領域適應對基於 BERT 模型分類神經放射學報告的影響。 Eur Radiol 2025-03-18

這項研究探討了使用遮蔽語言模型（MLM）在醫院特定領域的適應性，並應用於基於BERT的模型來分類神經放射學報告。分析了來自國王學院醫院和蓋伊與聖托馬斯信託醫院的超過200,000份MRI報告。結果顯示，經過適應的模型性能顯著提升，最佳訓練數據達到97.0%和95.5%的準確率。Llama-3.0 70B模型表現最佳，準確率分別為97.1%和94.0%。研究建議在臨床環境中使用醫院特定的模型適應，並指出LLM可作為有效替代方案。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

Large Language Models in Medicine: Clinical Applications, Technical Challenges, and Ethical Considerations.
醫學中的大型語言模型：臨床應用、技術挑戰與倫理考量 Healthc Inform Res 2025-05-19

大型語言模型在醫療文件撰寫和決策輔助上很有潛力，但因準確性、驗證、偏見和隱私等問題，現階段還不適合完全自動化臨床應用。未來要安全有效導入，需加強研究、訂定明確規範，並維持人工監督。 PubMed DOI

Large Language Models Struggle in Token-Level Clinical Named Entity Recognition.
大型語言模型在臨床命名實體識別的詞元層級表現不佳 AMIA Annu Symp Proc 2025-05-26

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現，雖然用了多種技術，LLMs 在這類任務上還是有不少困難，並針對醫療應用提出改進建議。 PubMed

Enhancing Cross-Domain Generalizability in Social Determinants of Health Extraction with Prompt-Tuning Large Language Models.
利用提示微調大型語言模型提升社會健康決定因素萃取的跨領域泛化能力 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，結合 soft prompt-based learning 和大型語言模型（像 GatorTronGPT），能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素（SDoH）的效果。經過 prompt-tuning 的 GatorTronGPT，F1 分數最高比傳統 fine-tuned 模型多出 21.8%，顯示它在跨領域應用上表現更好。 PubMed

Large Language Model Architectures in Health Care: Scoping Review of Research Perspectives.
醫療保健中大型語言模型架構：研究觀點的範疇性回顧 J Med Internet Res 2025-06-20

這篇文獻回顧指出，GPT類模型適合用在醫療溝通、報告撰寫等任務，BERT類模型則較適合做分類和知識挖掘。由於兩者架構不同，適用場景也不一樣，醫療人員應根據實際需求選擇合適的模型。 PubMed DOI

Assessing the transferability of BERT to patient safety: classifying multiple types of incident reports.
BERT於病人安全領域的可轉移性評估：多類型事件報告的分類 BMJ Health Care Inform 2025-08-19

這項研究發現，微調過的BERT模型在分類病人安全事件報告時，比傳統CNN模型更能準確辨識罕見事件和嚴重程度，且在新資料上也有不錯表現。即使資料量少或分布不均，BERT只用預設參數就能有很好的效果，顯示其在醫療文本分類上相當有潛力。 PubMed DOI

原始文章

站上相關主題文章列表