原始文章

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI


站上相關主題文章列表

LLMs在臨床上有潛力,但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集,並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異,但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善,但仍需更多努力。LLMs在醫學領域有潛力,但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

生成式大型語言模型(LLMs)在醫療領域的應用日益增多,但目前缺乏針對法語醫療LLMs的評估框架。為此,我們開發了一個包含114個開放性問題的基準,旨在評估法語LLMs的醫療能力,並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs,發現它們的性能差異顯著,顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源,促進問責與標準化,提升其可信度與有效性。 PubMed DOI

開源多語言醫學語言模型的發展,旨在服務不同語言和地區的使用者。主要貢獻包括: 1. **MMedC Corpus**:一個包含約255億詞元的多語言醫學語料庫,涵蓋六種主要語言,促進大型語言模型的適應性。 2. **MMedBench**:一個多語言醫學多選題問答基準,幫助監測多語言醫學模型的進展。 3. **模型評估**:評估各種開源模型在MMedBench上的表現,最終產出MMed-Llama 3,擁有80億參數,表現超越其他開源模型,甚至可與GPT-4競爭。 總之,這項工作提供了全面的語料庫、基準和模型,推進多語言醫學模型的發展。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這項研究介紹了MedExamLLM,一個評估大型語言模型(LLMs)在全球醫學考試表現的平台。它彙整了193篇相關文章,涵蓋16個LLM及來自28國、15種語言的198個醫學考試,時間範圍從2009到2023年。結果顯示,美國考試數量最多,主要語言為英語,GPT系列,特別是GPT-4,表現最佳。該平台強調LLM能力在地理和語言上有顯著差異,並且是開源的,旨在促進人工智慧在醫學教育中的應用。未來研究應解決潛在偏見及非英語研究的排除問題。 PubMed DOI

最近大型語言模型(LLMs)如ChatGPT和LLaMA在醫療應用上展現潛力,但因缺乏專業醫學知識,效果有限。為此,本研究推出Me-LLaMA,一系列開源醫療LLM,整合專業知識與指令遵循能力。Me-LLaMA經過大量生物醫學文獻訓練,並在六個醫療文本分析任務中表現優於LLaMA及其他開源醫療LLM,甚至在多數任務中超越ChatGPT和GPT-4。研究強調持續預訓練與指令調整的重要性,並希望透過公開資源促進醫療AI的發展。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

最近大型語言模型(LLMs)在醫療應用上展現潛力,但通常缺乏專業醫學知識。為了解決這個問題,我們推出了Me-LLaMA,這是一系列開源的醫療LLMs,結合了專業知識與強大的指令遵循能力。Me-LLaMA透過持續預訓練和指令調整,利用生物醫學和臨床數據進行開發。 我們在六個文本分析任務中評估Me-LLaMA,結果顯示其在診斷複雜病例方面的表現優於現有的開放醫療LLMs,並且在大多數任務中超越了ChatGPT和GPT-4。這強調了持續預訓練與指令調整結合的重要性,以提升醫療LLMs的效能。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI