A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。 Comput Biol Med 2024-03-21

這篇論文評估了大型語言模型（LLMs）在各種生物醫學任務上的表現，發現即使在較小的生物醫學數據集上沒有進行特定微調，LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀，但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

Large language models for biomedicine: foundations, opportunities, challenges, and best practices.
生物醫學領域的大型語言模型：基礎、機會、挑戰和最佳實踐。 J Am Med Inform Assoc 2024-04-24

生成式大型語言模型（LLMs）是先進的神經網絡模型，透過大量數據和高效運算，在自然語言處理領域取得成功。這篇由AMIA NLP工作組撰寫的文章探討了在NLP應用中整合LLMs的機會、挑戰和最佳實踐，特別針對生物醫學信息學。強調讓臨床醫生和研究人員能輕鬆使用LLMs，解決文本中的虛假資訊和數據污染問題。文章回顧了LLMs的微調和評估趨勢，強調新技術可應對生物醫學NLP挑戰。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

Comparative Analysis of Large Language Models in Chinese Medical Named Entity Recognition.
中文醫學命名實體識別中大型語言模型的比較分析。 Bioengineering (Basel) 2024-10-25

這項研究探討大型語言模型（LLMs）在中文生物醫學命名實體識別（BNER）任務的表現，這領域的研究相對較少。作者評估了多個LLMs，包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4，使用真實的中文電子病歷數據集及公共數據集。結果顯示，雖然LLMs在零樣本和少樣本情境下有潛力，但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型，而GPT-3.5在CCKS2017數據集上表現最佳，但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究，顯示其潛力並為未來應用提供指導。 PubMed DOI

Large Language Models in Biomedical and Health Informatics: A Review with Bibliometric Analysis.
生物醫學與健康資訊學中的大型語言模型：文獻計量分析的回顧。 J Healthc Inform Res 2024-10-28

這項研究全面探討大型語言模型（LLMs）在生物醫學與健康資訊學（BHI）的應用，強調其變革潛力及面臨的倫理與實際挑戰。透過分析1,698篇研究，發現LLMs在臨床決策支持、病患互動及醫療文件分析等領域的應用顯著增加，預期能提升診斷準確性。研究也揭示機構間的合作動態，特別是在心理健康和神經系統疾病的管理上，顯示出個人化醫療的潛力。儘管LLMs展現出巨大潛力，仍需重視倫理影響及模型驗證挑戰，以確保其在臨床上的有效性。 PubMed DOI

CARDBiomedBench: A Benchmark for Evaluating Large Language Model Performance in Biomedical Research.
CARDBiomedBench：評估大型語言模型在生物醫學研究中表現的基準。 bioRxiv 2025-01-27

這項研究介紹了CARDBiomedBench，一個新基準，專門評估大型語言模型（LLMs）在生物醫學研究，特別是神經退行性疾病（NDDs）方面的表現。基準包含超過68,000個專家標註的問答對，並利用可靠來源進行數據增強。七個LLMs的評估結果顯示，最先進的模型在回應質量和安全性上仍有顯著不足，例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰，CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

The Development Landscape of Large Language Models for Biomedical Applications.
生物醫學應用的大型語言模型發展現狀。 Annu Rev Biomed Data Sci 2025-04-01

大型語言模型（LLMs）在生物醫學領域的應用日益增多，顯示出改變醫療保健的潛力。自2022年ChatGPT推出以來，針對生物醫學的LLMs開發顯著增加。這篇綜述分析了基於文本的生物醫學LLMs的現狀，重點在架構、訓練策略及應用，如聊天機器人。從5,512篇文章中選取82篇相關文獻，發現對解碼器架構的偏好及任務特定微調的趨勢。未來可透過整合多模態數據及增強數據共享來推進發展。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Natural Language Processing for Digital Health in the Era of Large Language Models.
大型語言模型時代的數位健康自然語言處理。 Yearb Med Inform 2025-04-08

大型語言模型（LLMs）對醫療領域的自然語言處理（NLP）影響深遠，近期的研究顯示，專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP，資料來源涵蓋多個學術平台，重點在醫學文獻、電子健康紀錄（EHRs）及社交媒體。雖然通用LLMs如GPT-4被廣泛使用，但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs，但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

原始文章

站上相關主題文章列表