Large language models encode clinical knowledge.
大型語言模型編碼臨床知識。 Nature 2024-02-29

LLMs在臨床上有潛力，但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集，並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異，但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善，但仍需更多努力。LLMs在醫學領域有潛力，但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

Can large language models reason about medical questions?
大型語言模型能否推理醫學問題？ Patterns (N Y) 2024-03-16

研究發現大型語言模型（如GPT-3.5和Llama 2）在處理複雜醫學問題時表現出色。透過提示和專家註釋，它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術，在醫學基準測試中表現優異。Llama 2也有競爭力，其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

PMC-LLaMA: toward building open-source language models for medicine.
PMC-LLaMA：朝向建立醫學開源語言模型。 J Am Med Inform Assoc 2024-04-13

文章介紹了一個名為PMC-LLaMA的醫學語言模型，整合了生物醫學論文和醫學教科書。經過微調後，用於醫學問答和推理任務，表現優於其他模型。PMC-LLaMA是一個輕量級模型，有13B個參數，旨在推動醫學語言模型的發展。該研究提供了消融研究和釋出模型、程式碼和資料集供研究使用。 PubMed DOI

OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

Data Set and Benchmark (MedGPTEval) to Evaluate Responses From Large Language Models in Medicine: Evaluation Development and Validation.
醫學領域中用於評估大型語言模型回應的資料集和基準（MedGPTEval）：評估開發和驗證。 JMIR Med Inform 2024-07-02

LLMs在臨床應用上有潛力，但可能產生幻覺回應，對患者安全有風險。為此，開發了MedGPTEval評估系統，用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳，具穩健性和專業能力。MedGPTEval提供全面框架，用於評估醫學領域的LLMs聊天機器人，並提供開源數據集和基準。 PubMed DOI

MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering.
MedExpQA：大型語言模型在醫學問答中的多語言基準測試。 Artif Intell Med 2024-08-09

這篇論文介紹了MedExpQA，這是一個多語言的基準，專門用來評估大型語言模型（LLMs）在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯，但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋，讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考，研究顯示LLMs在英語的準確率約75%，但其他語言下降10%。作者計劃公開數據、代碼和微調模型，以促進後續研究。 PubMed DOI

Comparative Evaluation of LLMs in Clinical Oncology.
臨床腫瘤學中大型語言模型的比較評估。 NEJM AI 2024-08-12

隨著人工智慧工具的普及，患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型（LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4）在2044個腫瘤學相關問題上的表現。結果顯示，GPT-4在與人類基準比較中表現最佳，達到第50百分位以上。雖然GPT-4的準確率高達81.1%，但所有模型仍存在顯著錯誤率，顯示出持續評估這些AI工具的重要性，以確保其安全應用於臨床實踐。 PubMed DOI

MedFrenchmark, a Small Set for Benchmarking Generative LLMs in Medical French.
MedFrenchmark：一個用於基準測試醫學法語生成大型語言模型的小型數據集。 Stud Health Technol Inform 2024-08-23

生成式大型語言模型（LLMs）在醫療領域的應用日益增多，但目前缺乏針對法語醫療LLMs的評估框架。為此，我們開發了一個包含114個開放性問題的基準，旨在評估法語LLMs的醫療能力，並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs，發現它們的性能差異顯著，顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源，促進問責與標準化，提升其可信度與有效性。 PubMed DOI

Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。 PLOS Digit Health 2024-09-17

持續的研究正在評估大型語言模型（LLMs）在內科考試中的表現，特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現，並使用檢索增強生成的方法進行測試。結果顯示，GPT-4.0的得分介於77.5%到80.7%之間，優於其他模型及人類受試者，尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性，顯示這種方法在醫學領域的潛力。 PubMed DOI

原始文章

站上相關主題文章列表