Enhancing intention prediction and interpretability in service robots with LLM and KG.
利用大型語言模型和知識圖譜提升服務機器人的意圖預測和可解釋性。 Sci Rep 2024-11-06

隨著人工智慧的快速進步，服務機器人在日常生活中越來越普遍，這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題，我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架（LKIRF）。這個框架結合了大型語言模型和知識圖譜，提升了服務機器人的意圖識別能力。實驗結果顯示，LKIRF在各種場景中的預測準確性超越傳統方法，並增強了意圖推理的透明度和可解釋性。 PubMed DOI

Simignore: Exploring and enhancing multimodal large model complex reasoning via similarity computation.
Simignore：透過相似性計算探索與增強多模態大型模型的複雜推理。 Neural Netw 2025-01-09

多模態大型語言模型（MLLMs）正在快速進步，特別是大型視覺-語言模型（LVLMs），能同時處理圖像和文本。這些模型將圖像拆分成標記，並與文本整合，但在複雜推理任務中難以解釋。為了解決這個問題，研究者使用Grad-CAM分析圖像和文本的互動，發現信息流在早期層集中，後期則分散。基於此，他們提出Simignore技術，透過評估圖像和文本嵌入的相似性，忽略不相關的標記，提升推理能力。實驗顯示Simignore在複雜任務中表現優異，增強了MLLM的可解釋性，並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

Mitigating spatial hallucination in large language models for path planning via prompt engineering.
透過提示工程減輕大型語言模型在路徑規劃中的空間幻覺。 Sci Rep 2025-03-15

S2ERS 技術旨在提升大型語言模型（LLMs）在迷宮環境中的空間推理能力，改善路徑規劃。它採用了三個關鍵策略：首先，透過圖結構提取，幫助 LLMs 理解空間關係，減少錯誤；其次，納入狀態-行動價值函數（Q），指導 LLM 的決策，避免陷入死胡同；最後，透過多步推理，動態插入局部 Q 表，讓 LLM 同時生成多個行動步驟。實驗顯示，S2ERS 顯著減少了空間幻覺問題，成功率和最佳率分別提高約 29% 和 19%。 PubMed DOI

OLIVE: Object Level In-Context Visual Embeddings.
OLIVE: 物件層級上下文視覺嵌入。 Proc Conf Assoc Comput Linguist Meet 2025-03-25

最近通用視覺-語言模型（VLMs）在多模態任務上展現出強大的推理能力，但在物體理解和定位上仍有挑戰。現有模型常將文本與圖像標記對齊，可能導致嵌入不佳及背景特徵干擾，且對新視覺概念的泛化能力不足。為了解決這些問題，我們提出一種新方法，透過上下文中的視覺物體向量來提示大型語言模型，提升物體級推理的精確度，並加快訓練速度。我們的實驗顯示，這種方法在物體分類和標題生成上表現優異，並在複雜場景中具備良好的泛化能力。 PubMed DOI

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning.
NavCoT: 透過學習解耦推理提升基於大型語言模型的視覺與語言導航。 IEEE Trans Pattern Anal Mach Intell 2025-03-25

這篇論文介紹了一種新策略，稱為導航思維鏈（NavCoT），旨在提升大型語言模型（LLMs）在視覺與語言導航（VLN）中的表現。由於訓練數據與VLN任務之間的差距，LLMs常面臨挑戰。NavCoT透過領域內訓練，幫助LLM進行自我引導的導航決策，包含三個步驟：想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示，NavCoT在多個VLN基準測試中表現優於傳統方法，並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

LLaFS++: Few-Shot Image Segmentation With Large Language Models.
LLaFS++：結合大型語言模型的少量樣本影像分割 IEEE Trans Pattern Anal Mach Intell 2025-05-26

這篇論文提出LLaFS++新架構，首次用大型語言模型（LLMs）來提升少量樣本分割（FSS）效果。透過LLMs的知識，LLaFS++能克服標註資料少的問題，分割表現更好。架構有多項創新設計，像是直接輸出多邊形、區域-屬性表、多模態引導、課程學習結合偽樣本合成，以及新推論方法減少過度分割。實驗結果在多個基準上都拿下最佳表現，展現LLMs在少量樣本視覺任務的潛力。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

AFSPrompt: An Axiomatic Fuzzy Set Prompt Pipeline for Knowledge-Based VQA.
AFSPrompt：一個用於知識型視覺問答（VQA）的公理化模糊集提示流程 IEEE Trans Neural Netw Learn Syst 2025-06-02

這篇論文提出 AFSPrompt，一種免訓練的新方法，專門用來挑選和組織知識型視覺問答的範例。它用語意概念來描述範例，讓選擇過程更透明、可信。AFSPrompt 先用多模態嵌入過濾不相關範例，再用模糊集合邏輯排序，適合小型語言模型，減少對大型 API 依賴。實驗證明能有效提升 VQA 表現。程式碼：https://github.com/afs001/AFSPrompt PubMed DOI

Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用 Sci Rep 2025-06-04

作者發現，單純的VLMs在影像分類上表現比結合LLMs還好，但LLMs在需要推理或外部知識時有優勢。為此，他們提出一個輕量級的LLM router，能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練，效果不輸GPT-4V等先進系統，且成本更低。 PubMed DOI

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration.
細緻組合型指稱表達理解之新資料集與方法：透過專家-MLLM協作 IEEE Trans Pattern Anal Mach Intell 2025-06-16

這篇論文提出一個能調整題目難度的REC資料集，並設計具挑戰性的負樣本，讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法：一是簡單題交給輕量模型，難題再給MLLM處理，提升效率；二是專家模型先篩選物件區域，再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步，證明專業和通用模型結合很有效。 PubMed DOI

原始文章

站上相關主題文章列表