原始文章

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI


站上相關主題文章列表

LLMs在醫學領域的應用有潛力,但研究指出它們在生成摘要時可能不夠準確,容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠,人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此,在醫療保健領域中,我們應謹慎使用LLMs,不可全然依賴其能力。 PubMed DOI

LLMs在臨床上有潛力,但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集,並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異,但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善,但仍需更多努力。LLMs在醫學領域有潛力,但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

LLMs(如GPT-3.5和ChatGPT)在各種任務上表現逐漸提升,包括醫學證據摘要。然而,自動評量不一定準確,人類評估發現LLMs有時會產生不準確或誤導性的摘要,尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

這篇論文評估了大型語言模型(LLMs)在各種生物醫學任務上的表現,發現即使在較小的生物醫學數據集上沒有進行特定微調,LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀,但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

研究發現大型語言模型(如GPT-3.5和Llama 2)在處理複雜醫學問題時表現出色。透過提示和專家註釋,它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術,在醫學基準測試中表現優異。Llama 2也有競爭力,其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

人工智慧工具如GPT-4在化學和材料研究中扮演重要角色。雖然GPT-4有進展,但科學界尚未廣泛使用大型語言模型。研究評估了六個開源的大型語言模型在金屬有機骨架(MOFs)研究中的表現,其中Llama2-7B和ChatGLM2-6B表現優異。高參數版本的模型表現更佳。 PubMed DOI

生成式大型語言模型(LLMs)是先進的神經網絡模型,透過大量數據和高效運算,在自然語言處理領域取得成功。這篇由AMIA NLP工作組撰寫的文章探討了在NLP應用中整合LLMs的機會、挑戰和最佳實踐,特別針對生物醫學信息學。強調讓臨床醫生和研究人員能輕鬆使用LLMs,解決文本中的虛假資訊和數據污染問題。文章回顧了LLMs的微調和評估趨勢,強調新技術可應對生物醫學NLP挑戰。 PubMed DOI

研究發現大型語言模型(LLMs)如ChatGPT、Google的Bard和Anthropic的Claude在回答英文和波斯語神經生理學問題時表現良好,但在整合性主題上有進步空間。研究指出LLMs在高階推理和知識整合方面需要更多針對性的訓練,未來發展應更注重領域特定的評估。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在識別遺傳疾病時的表現,對比了開源模型(如Llama-2-chat和Vicuna)與封閉源模型(如ChatGPT-4)。結果顯示,開源模型的準確率在54%-68%之間,而ChatGPT-4則高達89%-90%。研究還指出,臨床醫生和一般民眾的提問對模型表現有顯著影響,且使用列表型提示能提升準確性。整體而言,這項研究揭示了LLMs在醫療領域的潛力與挑戰。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI