原始文章

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI


站上相關主題文章列表

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這篇綜述提供了大型語言模型(LLMs)在生物醫學數據分析中的應用概況,針對生物醫學研究人員的知識空白進行探討。文章首先介紹LLMs的基本技術,然後分析與數據相關的生物醫學數據集和框架。深入探討LLMs在基因組學、蛋白質組學、轉錄組學等領域的具體應用,並強調整合LLMs進入生物醫學研究時的挑戰。最終,這篇綜述為研究人員提供了資源,幫助他們在生物醫學領域中應用LLM技術。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

大型語言模型(LLMs)大幅提升了臨床自然語言生成(NLG)的能力,為處理醫療文本提供了新方法。不過,將這些模型應用於醫療環境前,必須進行全面評估,以確保其可靠性與有效性。我們的回顧探討了現有NLG在醫療領域的評估指標,並提出一種未來的方法,旨在減少專家評估的限制,平衡資源效率與人類判斷的一致性,確保生成內容符合臨床高標準。 PubMed DOI

大型語言模型(LLMs)在生物醫學領域的應用日益增多,顯示出改變醫療保健的潛力。自2022年ChatGPT推出以來,針對生物醫學的LLMs開發顯著增加。這篇綜述分析了基於文本的生物醫學LLMs的現狀,重點在架構、訓練策略及應用,如聊天機器人。從5,512篇文章中選取82篇相關文獻,發現對解碼器架構的偏好及任務特定微調的趨勢。未來可透過整合多模態數據及增強數據共享來推進發展。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

大型語言模型(LLMs)對醫療領域的自然語言處理(NLP)影響深遠,近期的研究顯示,專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP,資料來源涵蓋多個學術平台,重點在醫學文獻、電子健康紀錄(EHRs)及社交媒體。雖然通用LLMs如GPT-4被廣泛使用,但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs,但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

生物醫學領域正加速數位化,LLMs 正在改變 NLP 應用,帶來自動化和新發現。雖然有助提升醫療與研究效率,但在準確性、安全性及多元資料整合上仍有挑戰。本文回顧發展歷程、現況與未來趨勢,並分析機會與風險。 PubMed DOI

這項研究比較 GPT-4o、Llama 3.1 和 Qwen 2.5 在癌症基因變異臨床分類的表現,發現 GPT-4o 準確率最高。LLMs 在有明確證據時表現佳,但遇到證據較弱的變異時一致性較差,且容易過度分類。透過 prompt 設計和檢索增強生成可提升準確度。整體來說,LLMs 有潛力,但臨床應用還需再優化。 PubMed DOI