原始文章

MedConceptsQA的推出為評估大型語言模型(LLMs)在醫療代碼和概念理解上提供了重要基準。這個基準涵蓋了診斷、程序和藥物相關的問題,並依難易程度分類。評估結果顯示,許多預訓練的臨床LLMs表現不佳,接近隨機猜測。相比之下,像GPT-4的模型表現顯著提升,超過最佳臨床模型Llama3-OpenBioLLM-70B,提升幅度達9-11%。這顯示通用型LLMs在醫療概念解釋上的潛力,暗示臨床模型需進一步發展。該基準已對外公開,供後續研究使用。 PubMed DOI


站上相關主題文章列表

LLMs在臨床上有潛力,但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集,並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異,但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善,但仍需更多努力。LLMs在醫學領域有潛力,但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

研究發現大型語言模型(如GPT-3.5和Llama 2)在處理複雜醫學問題時表現出色。透過提示和專家註釋,它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術,在醫學基準測試中表現優異。Llama 2也有競爭力,其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

文章介紹了一個名為PMC-LLaMA的醫學語言模型,整合了生物醫學論文和醫學教科書。經過微調後,用於醫學問答和推理任務,表現優於其他模型。PMC-LLaMA是一個輕量級模型,有13B個參數,旨在推動醫學語言模型的發展。該研究提供了消融研究和釋出模型、程式碼和資料集供研究使用。 PubMed DOI

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

LLMs在臨床應用上有潛力,但可能產生幻覺回應,對患者安全有風險。為此,開發了MedGPTEval評估系統,用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳,具穩健性和專業能力。MedGPTEval提供全面框架,用於評估醫學領域的LLMs聊天機器人,並提供開源數據集和基準。 PubMed DOI

這篇論文介紹了MedExpQA,這是一個多語言的基準,專門用來評估大型語言模型(LLMs)在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯,但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋,讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考,研究顯示LLMs在英語的準確率約75%,但其他語言下降10%。作者計劃公開數據、代碼和微調模型,以促進後續研究。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

生成式大型語言模型(LLMs)在醫療領域的應用日益增多,但目前缺乏針對法語醫療LLMs的評估框架。為此,我們開發了一個包含114個開放性問題的基準,旨在評估法語LLMs的醫療能力,並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs,發現它們的性能差異顯著,顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源,促進問責與標準化,提升其可信度與有效性。 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 PubMed DOI