原始文章

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI


站上相關主題文章列表

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在腫瘤學知識的表現,使用土耳其醫學腫瘤學會的考試問題。測試的模型包括Claude 3.5 Sonnet、ChatGPT 4o、Llama-3和Gemini 1.5,共分析790道選擇題。Claude 3.5 Sonnet表現最佳,所有考試通過,平均得分77.6%;ChatGPT 4o通過七場考試,得分67.8%。Llama-3和Gemini 1.5表現較差,得分均低於50%。研究顯示,這些模型需定期更新,以保持腫瘤學教育的相關性。總體而言,先進的LLMs在該領域有潛力,但仍需持續改進。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

大型語言模型(LLMs)在生物醫學領域的應用日益增多,顯示出改變醫療保健的潛力。自2022年ChatGPT推出以來,針對生物醫學的LLMs開發顯著增加。這篇綜述分析了基於文本的生物醫學LLMs的現狀,重點在架構、訓練策略及應用,如聊天機器人。從5,512篇文章中選取82篇相關文獻,發現對解碼器架構的偏好及任務特定微調的趨勢。未來可透過整合多模態數據及增強數據共享來推進發展。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

這篇研究探討大型語言模型(LLM)如何幫助病人解讀連續血糖監測(CGM)數據,協助糖尿病管理。作者建立了開源的CGM數據問答基準,評估多種LLM表現,並指出LLM在解讀穿戴式健康數據上還有進步空間,這些方法也能應用到其他穿戴裝置。 PubMed DOI

研究團隊開發了CCBench,首個專門評估大型語言模型和視覺語言模型在子宮頸細胞學篩檢表現的基準資料集。測試結果顯示,雖然GPT-4、Gemini等模型有潛力,但準確度和可靠性仍不如人類專家,且有誤導風險,目前還不適合臨床應用,需再優化改進。 PubMed DOI