Large language models encode clinical knowledge.
大型語言模型編碼臨床知識。 Nature 2024-02-29

LLMs在臨床上有潛力，但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集，並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異，但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善，但仍需更多努力。LLMs在醫學領域有潛力，但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

MedFrenchmark, a Small Set for Benchmarking Generative LLMs in Medical French.
MedFrenchmark：一個用於基準測試醫學法語生成大型語言模型的小型數據集。 Stud Health Technol Inform 2024-08-23

生成式大型語言模型（LLMs）在醫療領域的應用日益增多，但目前缺乏針對法語醫療LLMs的評估框架。為此，我們開發了一個包含114個開放性問題的基準，旨在評估法語LLMs的醫療能力，並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs，發現它們的性能差異顯著，顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源，促進問責與標準化，提升其可信度與有效性。 PubMed DOI

Towards building multilingual language model for medicine.
朝向建立醫學多語言語言模型。 Nat Commun 2024-09-27

開源多語言醫學語言模型的發展，旨在服務不同語言和地區的使用者。主要貢獻包括： 1. **MMedC Corpus**：一個包含約255億詞元的多語言醫學語料庫，涵蓋六種主要語言，促進大型語言模型的適應性。 2. **MMedBench**：一個多語言醫學多選題問答基準，幫助監測多語言醫學模型的進展。 3. **模型評估**：評估各種開源模型在MMedBench上的表現，最終產出MMed-Llama 3，擁有80億參數，表現超越其他開源模型，甚至可與GPT-4競爭。總之，這項工作提供了全面的語料庫、基準和模型，推進多語言醫學模型的發展。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

Large Language Models in Worldwide Medical Exams: Platform Development and Comprehensive Analysis.
全球醫學考試中的大型語言模型：平台開發與綜合分析。 J Med Internet Res 2024-12-27

這項研究介紹了MedExamLLM，一個評估大型語言模型（LLMs）在全球醫學考試表現的平台。它彙整了193篇相關文章，涵蓋16個LLM及來自28國、15種語言的198個醫學考試，時間範圍從2009到2023年。結果顯示，美國考試數量最多，主要語言為英語，GPT系列，特別是GPT-4，表現最佳。該平台強調LLM能力在地理和語言上有顯著差異，並且是開源的，旨在促進人工智慧在醫學教育中的應用。未來研究應解決潛在偏見及非英語研究的排除問題。 PubMed DOI

Me-LLaMA: Medical Foundation Large Language Models for Comprehensive Text Analysis and Beyond.
Me-LLaMA: 醫學基礎大型語言模型的綜合文本分析及其他應用。 Res Sq 2025-01-07

最近大型語言模型（LLMs）如ChatGPT和LLaMA在醫療應用上展現潛力，但因缺乏專業醫學知識，效果有限。為此，本研究推出Me-LLaMA，一系列開源醫療LLM，整合專業知識與指令遵循能力。Me-LLaMA經過大量生物醫學文獻訓練，並在六個醫療文本分析任務中表現優於LLaMA及其他開源醫療LLM，甚至在多數任務中超越ChatGPT和GPT-4。研究強調持續預訓練與指令調整的重要性，並希望透過公開資源促進醫療AI的發展。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Medical foundation large language models for comprehensive text analysis and beyond.
醫學基礎大型語言模型在全面文本分析及其他領域的應用。 NPJ Digit Med 2025-03-05

最近大型語言模型（LLMs）在醫療應用上展現潛力，但通常缺乏專業醫學知識。為了解決這個問題，我們推出了Me-LLaMA，這是一系列開源的醫療LLMs，結合了專業知識與強大的指令遵循能力。Me-LLaMA透過持續預訓練和指令調整，利用生物醫學和臨床數據進行開發。我們在六個文本分析任務中評估Me-LLaMA，結果顯示其在診斷複雜病例方面的表現優於現有的開放醫療LLMs，並且在大多數任務中超越了ChatGPT和GPT-4。這強調了持續預訓練與指令調整結合的重要性，以提升醫療LLMs的效能。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

原始文章

站上相關主題文章列表