原始文章

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI


站上相關主題文章列表

隨著科學文章數量快速增加,如何組織和提取資訊成為一大挑戰,顯示出自動化的必要性。本研究探討利用大型語言模型(如OpenAI的GPT-4.0)來提取科學文獻中的關鍵洞察。我們開發了名為ArticleLLM的系統,透過手動基準微調來提升模型表現,並採用多演員LLM策略,結合多個微調模型的優勢,增強提取效果。本研究顯示LLMs在關鍵洞察提取上的潛力,並強調協作微調的好處,有助於提升學術文獻調查與知識發現的效率。 PubMed DOI

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究提出了一種方法,旨在為越南語這種低資源語言的醫療資訊創建訓練數據集,以微調大型語言模型(LLMs)。目的是改善醫療資訊的獲取,增強發展中國家的醫療溝通。研究過程中,選擇基礎模型並彙編約337,000對提示-回應對,使用低秩適應技術進行微調。微調後的模型在多項指標上表現優於基礎模型,顯示出其在越南語健康查詢中的潛力。雖然本地部署可提升數據隱私,但高計算需求和成本仍是挑戰,研究呼籲關注醫療差距,促進全球健康公平。 PubMed DOI

這項研究聚焦於醫療概念標準化(MCN),強調數據質量對其表現的重要性,並提出一個框架來提升數據質量,利用像ChatGPT這樣的大型語言模型。研究評估了MCN數據集的質量,並透過ChatGPT進行數據增強,分析生成數據的正確性。實驗探討數據質量對MCN模型的影響,並指出增強過程中的數據重複問題。最終,研究認為少樣本學習結合適當的上下文是提升MCN數據質量的有效方法,並提供了寶貴的見解。如需詳情,可參考提供的GitHub連結。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

大型語言模型(LLMs)是先進的人工智慧系統,透過預測單詞序列來生成文本,改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM,以適應特定任務或領域。這篇評論探討了微調的各種方法,概述了一般步驟,並提供醫學子專科的例子,最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

這項研究發現,只要經過細心設計和調整,大型語言模型(LLMs)在回答保育問題時,表現可媲美人類專家。但如果直接用沒客製化的 LLMs,結果可能很差,甚至會產生誤導資訊。總結來說,LLMs 有潛力幫助專家更有效利用保育證據,但一定要針對專業領域優化才行。 PubMed DOI

這篇研究發現,大型語言模型在沒經過特別訓練下,結合檢索增強生成(RAG)和提示工程,能有效自動摘要專業資訊,表現不錯。不過,還是會遇到像網頁爬蟲限制和偶爾誤解任務等問題,未來還需要進一步優化。 PubMed