原始文章

SCQRE 模型專門用來更精準擷取問題裡的主觀比較關係,重點涵蓋實體、面向、限制和偏好。它結合多任務學習、NLI 和 RoBERTa adapter,能處理隱含或複雜的比較,也能穩健應對限制條件。實驗證明,SCQRE 在比較關係擷取上表現比現有模型和主流大型語言模型更好。 PubMed DOI


站上相關主題文章列表

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

最近,自然語言處理(NLP)在語意數據分析上有了顯著進展,特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型,能有效協調不同工具測量相同構念,並探索新構念組合。透過案例研究,該應用成功識別潛在的協調配對,減少了手動評估的需求。專家評估顯示,模型生成的配對與專家意見高度一致,證實了這種方法的有效性,顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI

網路評論的興起對消費者購買決策和產品開發影響深遠,但生成式AI技術如ChatGPT的出現,讓人擔心商家可能會製造虛假評論,影響評論的可信度。為了解決這個問題,提出了一種新方法,結合AI生成評論的檢測,專注於產品屬性。這方法利用預訓練語言模型來檢測評論真實性,並分析用戶偏好,改善產品開發的成本控制與設計決策。實驗結果顯示此方法相較於現有技術具優勢。 PubMed DOI

近年來,改善人類與人工智慧(AI)互動的關注度逐漸上升,社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解,像Social-IQ這樣的數據集被創建,但這些數據集多採用基本的問答格式,缺乏答案的理由,且通常只從預設選項中生成答案,限制了可解釋性和可靠性。為了解決這些問題,我們進行了一項基於視頻的問答評估,強調人類互動,並加入相關註解,發現人類與AI的反應模式存在顯著差異,顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集,促進人類與AI之間更自然的溝通。 PubMed DOI

這項研究評估了六種不同的少量樣本提示方法,針對大型語言模型在Spider4SPARQL基準測試中的表現,該測試專注於複雜的SPARQL知識圖譜問答。實驗分為兩組,第一組檢視基於樣本數量或類型的提示方法,第二組則探討如何透過LLM生成的解釋來優化提示。結果顯示,商業模型在KGQA的準確率不超過51%,顯示處理複雜查詢的挑戰。最有效的方法是結合簡單提示與本體,並使用五個隨機樣本。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了全球大型語言模型(LLMs)和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等,還有華佗GPT、MedGPT等中文模型。共評估39個問題,專家用3分制評分。結果顯示,ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳,且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看,無論是全球還是中文模型,都能有效解決近視問題,特別是全球模型表現優異。 PubMed DOI

傳統自動作文評分系統只看單字和句子,無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型,利用大型語言模型提升作文連貫性和品質評估。實驗證明,我們的方法比現有技術更準確,有助提升學生寫作評量的公正性與精確度。 PubMed DOI

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

這篇論文提出一個能調整題目難度的REC資料集,並設計具挑戰性的負樣本,讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法:一是簡單題交給輕量模型,難題再給MLLM處理,提升效率;二是專家模型先篩選物件區域,再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步,證明專業和通用模型結合很有效。 PubMed DOI