原始文章

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI


站上相關主題文章列表

LLMs如ChatGPT和Med-PaLM在醫學問答表現優秀,但在非英語環境面臨挑戰。KFE框架提升中文醫學表現,整合臨床知識。像ChatGPT和GPT-4在CNMLE-2022有顯著進步,超越人類並通過考試。研究指出結合醫學知識與LLMs的情境學習有效,可橋接全球醫療語言障礙,減少不平等。 PubMed DOI

這項研究評估大型語言模型(LLMs)在社交媒體健康相關文本分類的表現,並比較了不同模型的效果。結果顯示,基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強,但僅依賴LLM標註數據訓練效果不佳。研究指出,LLM作為零樣本分類器能有效減少假陰性,並減輕手動標註負擔,顯示其在特定領域自然語言處理的潛力。 PubMed DOI

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI

這項研究探討如何透過微調提升開源大型語言模型(LLMs)在醫學證據摘要的表現。雖然專有模型通常更有效,但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集,對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示,微調後這些模型的表現顯著提升,特別是LongT5在零樣本設定中表現接近GPT-3.5,甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現,成為專有模型的可行替代方案。 PubMed DOI

這項研究提出了一種新穎的增強檢索生成(RAG)系統,結合微調的大型語言模型(LLMs)與向量數據庫,充分發揮結構化數據檢索的優勢。主要方法包括LoRA和QLoRA,專注於高效的參數微調和記憶優化。獨特之處在於納入用戶反饋,讓模型持續適應用戶需求,提升性能。此外,研究還引入量化影響度量(QIM)作為AI評審機制,增強結果選擇的準確性。這些成果為未來聊天機器人技術的發展提供了重要見解,並已公開相關數據集和工具供社群使用。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5、GPT-4和Llama-2(13B和7B架構),在自主評估臨床紀錄方面的表現。研究中使用了提示工程、微調和低秩適應等技術,特別關注Llama-2 7B模型。結果顯示,GPT-4的表現最佳,接近專家評估。微調後的Llama-2 7B在西班牙語理解上有顯著提升,並且低秩適應技術有效增強了模型性能。研究強調了LLMs在醫學教育中的潛力,並建議未來應解決現有限制以進一步提升模型表現。 PubMed DOI

這篇論文探討開源大型語言模型(LLMs)在政治科學文本分類任務中的效能,包括立場、主題和相關性分類。研究旨在協助研究人員明智選擇LLMs進行文本分析,並設定性能基準。結果顯示,微調能顯著提升開源LLMs的表現,甚至可匹敵或超越零樣本的GPT-3.5和GPT-4。研究還指出,微調比少樣本訓練更有效。作者提供Python筆記本,幫助其他研究人員應用LLMs進行文本標註,相關材料可在指定DOI上獲得。 PubMed DOI

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 PubMed DOI

這項研究提出了一種方法,旨在為越南語這種低資源語言的醫療資訊創建訓練數據集,以微調大型語言模型(LLMs)。目的是改善醫療資訊的獲取,增強發展中國家的醫療溝通。研究過程中,選擇基礎模型並彙編約337,000對提示-回應對,使用低秩適應技術進行微調。微調後的模型在多項指標上表現優於基礎模型,顯示出其在越南語健康查詢中的潛力。雖然本地部署可提升數據隱私,但高計算需求和成本仍是挑戰,研究呼籲關注醫療差距,促進全球健康公平。 PubMed DOI