原始文章

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI


站上相關主題文章列表

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

這篇論文探討了自然語言轉視覺化(NL2VIS)的挑戰,並指出大型語言模型(LLMs)在此領域的潛力。作者提到,缺乏全面的基準測試使得評估LLMs的視覺化能力變得困難。為了解決這個問題,他們提出了名為VisEval的新基準測試,包含來自146個資料庫的2,524個查詢,並附有準確的標籤。此外,還引入了一種自動評估方法,評估有效性、合法性和可讀性。透過VisEval的應用,作者揭示了共同挑戰,並為未來的NL2VIS研究提供了重要見解。 PubMed DOI

新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要,但將 2D 對齊方法應用於 3D 數據面臨三大挑戰:資訊劣化、協同不足和未充分利用。為了解決這些問題,我們提出了 JM3D,這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器(SMO)和聯合多模態對齊(JMA),有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異,詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

這段文字介紹了 T2I-CompBench++,一個新基準,旨在提升文本到圖像的生成效果。它包含 8,000 個提示,分為四大類別:屬性綁定、物件關係、生成數學能力和複雜組合,還有八個子類別,如 3D 空間關係。此外,基準引入了新的評估指標,特別是針對 3D 關係和數學能力的檢測指標,並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型,包括 FLUX.1 和 DALLE-3,以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

這項研究強調了利用大型語言模型(LLMs)解決STEM領域複雜問題的興趣,特別是在天體動力學和太空工程方面。天體動力學問題基準(APBench)的發展,為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案,這個基準旨在評估開源和專有模型的表現,並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI

這篇論文提出「Arch-Eval」框架,專門評估大型語言模型在建築領域的知識表現。研究用875題標準題庫測試14種模型,發現各模型表現差異大。雖然用Chain-of-Thought推理法正確率只小幅提升(不到3%),但回答速度卻慢了26倍。未來還需加強LLM在建築領域的推理能力和多模態互動。 PubMed DOI

這篇論文提出Argus,一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵,彌補單靠點雲資訊不足的問題,讓大型語言模型在3D場景理解上更精準。實驗證明,Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI