原始文章

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI


站上相關主題文章列表

這篇論文評估了大型語言模型(LLMs)在各種生物醫學任務上的表現,發現即使在較小的生物醫學數據集上沒有進行特定微調,LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀,但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

LLMs在臨床應用上有潛力,但可能產生幻覺回應,對患者安全有風險。為此,開發了MedGPTEval評估系統,用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳,具穩健性和專業能力。MedGPTEval提供全面框架,用於評估醫學領域的LLMs聊天機器人,並提供開源數據集和基準。 PubMed DOI

生成式大型語言模型(LLMs)在醫療領域的應用日益增多,但目前缺乏針對法語醫療LLMs的評估框架。為此,我們開發了一個包含114個開放性問題的基準,旨在評估法語LLMs的醫療能力,並反映臨床情境的複雜性。初步測試七個擁有70億參數的流行LLMs,發現它們的性能差異顯著,顯示在醫療環境中實施LLMs前需進行徹底評估。我們的基準可作為快速評估法語醫療LLMs的資源,促進問責與標準化,提升其可信度與有效性。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

最近大型語言模型在醫療和製藥領域的進展顯著。本研究評估了六個主要模型在回答患者自我照護問題的表現,重點在準確性和上下文敏感性。結果顯示,這些模型通常能提供準確的健康資訊,但回應存在變異,有些建議可能不安全。影響答案質量的因素包括語言、問題結構和使用者背景。GPT 4.0 獲得最高分,研究強調需謹慎驗證資訊,以降低錯誤風險,並建立基準以改善人工智慧在自我照護中的應用。 PubMed DOI

在過去十年,穿戴式科技大幅改變了慢性疾病的管理,特別是心率監測器和持續血糖監測(CGM)設備。這些科技讓患者能即時獲得健康數據,並透過手機應用程式輕鬆查看。CGM對糖尿病患者的管理影響深遠,但解讀數據對某些人來說仍具挑戰性。本研究探討大型語言模型(LLMs)在CGM數據問答中的應用,並建立了一個開源基準,未來可供研究和開發使用,雖然主要針對糖尿病,但也可應用於其他穿戴設備。 PubMed DOI

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

大型語言模型(LLMs)在生物醫學領域的應用日益增多,顯示出改變醫療保健的潛力。自2022年ChatGPT推出以來,針對生物醫學的LLMs開發顯著增加。這篇綜述分析了基於文本的生物醫學LLMs的現狀,重點在架構、訓練策略及應用,如聊天機器人。從5,512篇文章中選取82篇相關文獻,發現對解碼器架構的偏好及任務特定微調的趨勢。未來可透過整合多模態數據及增強數據共享來推進發展。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI