原始文章

SCQRE 模型專門用來更精準擷取問題裡的主觀比較關係,重點涵蓋實體、面向、限制和偏好。它結合多任務學習、NLI 和 RoBERTa adapter,能處理隱含或複雜的比較,也能穩健應對限制條件。實驗證明,SCQRE 在比較關係擷取上表現比現有模型和主流大型語言模型更好。 PubMed DOI


站上相關主題文章列表

這篇論文探討系統性回顧中摘要篩選的挑戰,並利用大型語言模型(LLMs)的零-shot能力來解決。研究提出一個新穎的問答框架,將篩選標準視為問題,讓LLM回答,並根據綜合回應做出納入或排除的決策。透過CLEF eHealth 2019 Task 2基準驗證,結果顯示該框架在31個系統性回顧數據集上表現優於傳統方法和微調的BERT模型,顯示LLM在摘要篩選中的有效性與潛力。 PubMed DOI

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

文件級關係三元組提取在生物醫學文本挖掘中非常重要,尤其是在藥物發現和生物醫學知識圖譜的建立上。不過,現有語言模型在新數據集和關係類型上泛化能力不足,影響其效能。為了解決這個問題,我們提出了一種漸進學習策略,發展出PLRTE模型,透過四級漸進學習過程來增強模型對各種生物醫學關係的理解。實驗結果顯示,我們的模型在DDI和BC5CDR數據集上性能提升5%到20%,並在未見過的Chemprot和GDA數據集上也展現出良好的泛化能力。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

最近,自然語言處理(NLP)在語意數據分析上有了顯著進展,特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型,能有效協調不同工具測量相同構念,並探索新構念組合。透過案例研究,該應用成功識別潛在的協調配對,減少了手動評估的需求。專家評估顯示,模型生成的配對與專家意見高度一致,證實了這種方法的有效性,顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI

近年來,改善人類與人工智慧(AI)互動的關注度逐漸上升,社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解,像Social-IQ這樣的數據集被創建,但這些數據集多採用基本的問答格式,缺乏答案的理由,且通常只從預設選項中生成答案,限制了可解釋性和可靠性。為了解決這些問題,我們進行了一項基於視頻的問答評估,強調人類互動,並加入相關註解,發現人類與AI的反應模式存在顯著差異,顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集,促進人類與AI之間更自然的溝通。 PubMed DOI

這項研究評估了六種不同的少量樣本提示方法,針對大型語言模型在Spider4SPARQL基準測試中的表現,該測試專注於複雜的SPARQL知識圖譜問答。實驗分為兩組,第一組檢視基於樣本數量或類型的提示方法,第二組則探討如何透過LLM生成的解釋來優化提示。結果顯示,商業模型在KGQA的準確率不超過51%,顯示處理複雜查詢的挑戰。最有效的方法是結合簡單提示與本體,並使用五個隨機樣本。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

傳統自動作文評分系統只看單字和句子,無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型,利用大型語言模型提升作文連貫性和品質評估。實驗證明,我們的方法比現有技術更準確,有助提升學生寫作評量的公正性與精確度。 PubMed DOI

這篇論文提出一個能調整題目難度的REC資料集,並設計具挑戰性的負樣本,讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法:一是簡單題交給輕量模型,難題再給MLLM處理,提升效率;二是專家模型先篩選物件區域,再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步,證明專業和通用模型結合很有效。 PubMed DOI