原始文章

生成式大型語言模型(LLMs)在醫療領域的應用日益增多,但目前缺乏針對法語醫療LLMs的評估框架。為此,我們開發了一個包含114個開放性問題的基準,旨在評估法語LLMs的醫療能力,並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs,發現它們的性能差異顯著,顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源,促進問責與標準化,提升其可信度與有效性。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)有潛力改變醫學,提升診斷和臨床決策。成功整合需要應對醫學領域的挑戰,包括遷移學習、微調、強化學習、跨學科合作、教育、評估、倫理、隱私和法規。透過全面方法和跨學科合作,LLMs能負責任地融入醫療實踐,造福患者並改善健康結果。 PubMed DOI

LLMs在臨床上有潛力,但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集,並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異,但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善,但仍需更多努力。LLMs在醫學領域有潛力,但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

醫學界對於運用大型語言模型(LLMs)越來越感興趣,但關鍵在於如何主動地發展這些工具在醫學上的應用。雖然LLMs驅動的程式被應用在醫學任務上,卻缺乏在醫療紀錄上的訓練和效益驗證。為確保這些工具在醫學領域有效運用,提供相關訓練資料、明確效益需求,並在實際環境中評估其表現至關重要。 PubMed DOI

大型語言模型(LLMs)是訓練在大量文本資料上的先進人工智慧模型,目的是模擬人類的表現。在醫療保健領域中,LLMs的應用越來越廣泛,用來回答醫學問題和生成臨床報告等任務。LLM公司與醫療系統的合作將這些模型帶入更貼近真實臨床應用的領域。醫療保健提供者需要了解LLMs的發展、應用以及在醫療環境中可能面臨的挑戰。這篇文章旨在教育醫療專業人士有關醫學中的LLMs,包括了它們在目前景觀中的應用以及未來在醫療領域的改進。 PubMed DOI

研究發現大型語言模型(如GPT-3.5和Llama 2)在處理複雜醫學問題時表現出色。透過提示和專家註釋,它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術,在醫學基準測試中表現優異。Llama 2也有競爭力,其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

LLMs在臨床應用上有潛力,但可能產生幻覺回應,對患者安全有風險。為此,開發了MedGPTEval評估系統,用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳,具穩健性和專業能力。MedGPTEval提供全面框架,用於評估醫學領域的LLMs聊天機器人,並提供開源數據集和基準。 PubMed DOI

這篇論文介紹了MedExpQA,這是一個多語言的基準,專門用來評估大型語言模型(LLMs)在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯,但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋,讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考,研究顯示LLMs在英語的準確率約75%,但其他語言下降10%。作者計劃公開數據、代碼和微調模型,以促進後續研究。 PubMed DOI

這篇論文探討基於變壓器的大型語言模型(LLMs)在生成合成表格健康數據的有效性,並與生成對抗網絡(GANs)進行比較,這對遵循隱私法規的醫療研究非常重要。研究分析了Pythia LLM Scaling Suite,模型參數從1400萬到10億,結果顯示較大的LLM在性能上優於GAN,甚至最小的LLM也能達到相似效果。此外,訓練數據集大小與模型性能呈正相關。論文還討論了在醫療領域實施LLM的挑戰與考量。 PubMed DOI

MedConceptsQA的推出為評估大型語言模型(LLMs)在醫療代碼和概念理解上提供了重要基準。這個基準涵蓋了診斷、程序和藥物相關的問題,並依難易程度分類。評估結果顯示,許多預訓練的臨床LLMs表現不佳,接近隨機猜測。相比之下,像GPT-4的模型表現顯著提升,超過最佳臨床模型Llama3-OpenBioLLM-70B,提升幅度達9-11%。這顯示通用型LLMs在醫療概念解釋上的潛力,暗示臨床模型需進一步發展。該基準已對外公開,供後續研究使用。 PubMed DOI