A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。 Comput Biol Med 2024-03-21

這篇論文評估了大型語言模型（LLMs）在各種生物醫學任務上的表現，發現即使在較小的生物醫學數據集上沒有進行特定微調，LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀，但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

Data Set and Benchmark (MedGPTEval) to Evaluate Responses From Large Language Models in Medicine: Evaluation Development and Validation.
醫學領域中用於評估大型語言模型回應的資料集和基準（MedGPTEval）：評估開發和驗證。 JMIR Med Inform 2024-07-02

LLMs在臨床應用上有潛力，但可能產生幻覺回應，對患者安全有風險。為此，開發了MedGPTEval評估系統，用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳，具穩健性和專業能力。MedGPTEval提供全面框架，用於評估醫學領域的LLMs聊天機器人，並提供開源數據集和基準。 PubMed DOI

MedFrenchmark, a Small Set for Benchmarking Generative LLMs in Medical French.
MedFrenchmark：一個用於基準測試醫學法語生成大型語言模型的小型數據集。 Stud Health Technol Inform 2024-08-23

生成式大型語言模型（LLMs）在醫療領域的應用日益增多，但目前缺乏針對法語醫療LLMs的評估框架。為此，我們開發了一個包含114個開放性問題的基準，旨在評估法語LLMs的醫療能力，並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs，發現它們的性能差異顯著，顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源，促進問責與標準化，提升其可信度與有效性。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

The role of large language models in self-care: a study and benchmark on medicines and supplement guidance accuracy.
大型語言模型在自我照護中的角色：藥物和補充品指導準確性的研究與基準。 Int J Clin Pharm 2024-12-07

最近大型語言模型在醫療和製藥領域的進展顯著。本研究評估了六個主要模型在回答患者自我照護問題的表現，重點在準確性和上下文敏感性。結果顯示，這些模型通常能提供準確的健康資訊，但回應存在變異，有些建議可能不安全。影響答案質量的因素包括語言、問題結構和使用者背景。GPT 4.0 獲得最高分，研究強調需謹慎驗證資訊，以降低錯誤風險，並建立基準以改善人工智慧在自我照護中的應用。 PubMed DOI

LLM-CGM: A Benchmark for Large Language Model-Enabled Querying of Continuous Glucose Monitoring Data for Conversational Diabetes Management.
LLM-CGM：一個用於大型語言模型驅動的持續血糖監測數據查詢的基準，以促進對話式糖尿病管理。 Pac Symp Biocomput 2024-12-13

在過去十年，穿戴式科技大幅改變了慢性疾病的管理，特別是心率監測器和持續血糖監測（CGM）設備。這些科技讓患者能即時獲得健康數據，並透過手機應用程式輕鬆查看。CGM對糖尿病患者的管理影響深遠，但解讀數據對某些人來說仍具挑戰性。本研究探討大型語言模型（LLMs）在CGM數據問答中的應用，並建立了一個開源基準，未來可供研究和開發使用，雖然主要針對糖尿病，但也可應用於其他穿戴設備。 PubMed DOI

Towards evaluating and building versatile large language models for medicine.
朝向評估與建構多功能大型語言模型於醫學領域。 NPJ Digit Med 2025-01-26

這項研究介紹了 MedS-Bench，旨在評估大型語言模型（LLMs）在臨床環境中的表現，涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM，發現它們在面對這些任務時表現不佳。為了解決這些問題，我們創建了 MedS-Ins，這是一個針對醫療應用的大規模指令調整數據集，包含58個醫療語料庫和500萬個實例。透過實驗，我們展示了該數據集的有效性，並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins，並鼓勵研究社群參與進一步發展。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

The Development Landscape of Large Language Models for Biomedical Applications.
生物醫學應用的大型語言模型發展現狀。 Annu Rev Biomed Data Sci 2025-04-01

大型語言模型（LLMs）在生物醫學領域的應用日益增多，顯示出改變醫療保健的潛力。自2022年ChatGPT推出以來，針對生物醫學的LLMs開發顯著增加。這篇綜述分析了基於文本的生物醫學LLMs的現狀，重點在架構、訓練策略及應用，如聊天機器人。從5,512篇文章中選取82篇相關文獻，發現對解碼器架構的偏好及任務特定微調的趨勢。未來可透過整合多模態數據及增強數據共享來推進發展。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

原始文章

站上相關主題文章列表