原始文章

這篇論文介紹了MedExpQA,這是一個多語言的基準,專門用來評估大型語言模型(LLMs)在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯,但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋,讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考,研究顯示LLMs在英語的準確率約75%,但其他語言下降10%。作者計劃公開數據、代碼和微調模型,以促進後續研究。 PubMed DOI


站上相關主題文章列表

LLMs在臨床上有潛力,但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集,並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異,但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善,但仍需更多努力。LLMs在醫學領域有潛力,但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

研究發現大型語言模型(如GPT-3.5和Llama 2)在處理複雜醫學問題時表現出色。透過提示和專家註釋,它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術,在醫學基準測試中表現優異。Llama 2也有競爭力,其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

文章介紹了一個名為PMC-LLaMA的醫學語言模型,整合了生物醫學論文和醫學教科書。經過微調後,用於醫學問答和推理任務,表現優於其他模型。PMC-LLaMA是一個輕量級模型,有13B個參數,旨在推動醫學語言模型的發展。該研究提供了消融研究和釋出模型、程式碼和資料集供研究使用。 PubMed DOI

醫療資源有限,醫患互動時間短。對話代理人(CAs)可回答病患問題。研究使用大型語言模型(LLMs)評估不同健康素養水平患者的CAs表現。評估包括自動化及半自動化程序。乳房X光攝影案例研究顯示LLMs可模擬不同患者問題,但回答準確性取決於素養水平。框架可擴展評估CA,並整合至臨床實踐。未來研究將專注於LLMs適應醫學資訊至用戶素養水平。 PubMed DOI

LLMs如ChatGPT和Med-PaLM在醫學問答表現優秀,但在非英語環境面臨挑戰。KFE框架提升中文醫學表現,整合臨床知識。像ChatGPT和GPT-4在CNMLE-2022有顯著進步,超越人類並通過考試。研究指出結合醫學知識與LLMs的情境學習有效,可橋接全球醫療語言障礙,減少不平等。 PubMed DOI

LLMs在臨床應用上有潛力,但可能產生幻覺回應,對患者安全有風險。為此,開發了MedGPTEval評估系統,用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳,具穩健性和專業能力。MedGPTEval提供全面框架,用於評估醫學領域的LLMs聊天機器人,並提供開源數據集和基準。 PubMed DOI

研究探討如何用大型語言模型提升醫學問答,並引入新方法「集成推理」。結果顯示此方法在回答醫學問題時有提升。集成推理在各種問題上表現優異,有助提升語言模型性能,特別是在使用較弱模型時。研究也強調結合人工智能和人類以提升推理能力的重要性。 PubMed DOI

生成式大型語言模型(LLMs)在醫療領域的應用日益增多,但目前缺乏針對法語醫療LLMs的評估框架。為此,我們開發了一個包含114個開放性問題的基準,旨在評估法語LLMs的醫療能力,並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs,發現它們的性能差異顯著,顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源,促進問責與標準化,提升其可信度與有效性。 PubMed DOI

MedConceptsQA的推出為評估大型語言模型(LLMs)在醫療代碼和概念理解上提供了重要基準。這個基準涵蓋了診斷、程序和藥物相關的問題,並依難易程度分類。評估結果顯示,許多預訓練的臨床LLMs表現不佳,接近隨機猜測。相比之下,像GPT-4的模型表現顯著提升,超過最佳臨床模型Llama3-OpenBioLLM-70B,提升幅度達9-11%。這顯示通用型LLMs在醫療概念解釋上的潛力,暗示臨床模型需進一步發展。該基準已對外公開,供後續研究使用。 PubMed DOI