Q-BENCH: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs.
Q-BENCH：一個針對單幅圖像到成對圖像的低階視覺多模態基礎模型的基準。 IEEE Trans Pattern Anal Mach Intell 2024-08-21

多模態大型語言模型（MLLMs）的進展正在改變計算機視覺，尤其是多功能基礎模型的開發。不過，對於低層次視覺感知和理解的評估仍待深入探討。為此，我們建立了基準設置，模擬人類對低層次視覺的語言反應，包含低層次視覺感知（A1）和描述（A2）兩大任務，並引入LLVisionQA+和LLDescribe+數據集。此外，我們還評估了MLLMs預測質量分數的能力（A3）。結果顯示，雖然多數模型在單一圖像上表現不錯，但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models.
VisEval：大型語言模型時代的數據視覺化基準。 IEEE Trans Vis Comput Graph 2024-09-10

這篇論文探討了自然語言轉視覺化（NL2VIS）的挑戰，並指出大型語言模型（LLMs）在此領域的潛力。作者提到，缺乏全面的基準測試使得評估LLMs的視覺化能力變得困難。為了解決這個問題，他們提出了名為VisEval的新基準測試，包含來自146個資料庫的2,524個查詢，並附有準確的標籤。此外，還引入了一種自動評估方法，評估有效性、合法性和可讀性。透過VisEval的應用，作者揭示了共同挑戰，並為未來的NL2VIS研究提供了重要見解。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

JM3D & JM3D-LLM: Elevating 3D Representation With Joint Multi-Modal Cues.
JM3D 與 JM3D-LLM：透過聯合多模態線索提升 3D 表現。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要，但將 2D 對齊方法應用於 3D 數據面臨三大挑戰：資訊劣化、協同不足和未充分利用。為了解決這些問題，我們提出了 JM3D，這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器（SMO）和聯合多模態對齊（JMA），有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異，詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation.
T2I-CompBench++：一個增強且全面的基準，用於組合文本到圖像生成。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

這段文字介紹了 T2I-CompBench++，一個新基準，旨在提升文本到圖像的生成效果。它包含 8,000 個提示，分為四大類別：屬性綁定、物件關係、生成數學能力和複雜組合，還有八個子類別，如 3D 空間關係。此外，基準引入了新的評估指標，特別是針對 3D 關係和數學能力的檢測指標，並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型，包括 FLUX.1 和 DALLE-3，以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation.
朝向一個整體框架，用於多模態 LLM 在 3D 腦部 CT 放射報告生成中的應用。 Nat Commun 2025-03-06

多模態大型語言模型（MLLMs）正在改變醫療保健，特別是在自動化放射學報告生成（RRG）方面。雖然RRG在2D影像上已經取得成效，但3D醫學影像的應用仍待開發。為此，我們建立了3D-BrainCT數據集，包含18,885對文本與掃描影像，並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估（FORTE）來評估報告質量，結果顯示BrainGPT的FORTE F1分數為0.71，74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

APBench and benchmarking large language model performance in fundamental astrodynamics problems for space engineering.
APBench 與大型語言模型在太空工程基本天體力學問題中的性能基準測試。 Sci Rep 2025-03-06

這項研究強調了利用大型語言模型（LLMs）解決STEM領域複雜問題的興趣，特別是在天體動力學和太空工程方面。天體動力學問題基準（APBench）的發展，為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案，這個基準旨在評估開源和專有模型的表現，並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI

Benchmarking of Large Language Models for the Dental Admission Test.
大型語言模型在牙科入學考試中的基準評估。 Health Data Sci 2025-04-02

大型語言模型（LLMs）在教育上有潛力，但在高風險考試如牙科入學考試（DAT）的有效性仍不明朗。本研究評估了16個LLMs，包括通用和特定領域模型，針對DAT進行測試。結果顯示，GPT-4o和GPT-o1在文本問題上表現優異，特別是在自然科學和閱讀理解上。然而，所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識，但在高階認知任務上仍需與教師指導結合，以提升學習效果。 PubMed DOI

Arch-Eval benchmark for assessing chinese architectural domain knowledge in large language models.
用於評估大型語言模型中文建築領域知識的 Arch-Eval 基準 Sci Rep 2025-04-18

這篇論文提出「Arch-Eval」框架，專門評估大型語言模型在建築領域的知識表現。研究用875題標準題庫測試14種模型，發現各模型表現差異大。雖然用Chain-of-Thought推理法正確率只小幅提升（不到3%），但回答速度卻慢了26倍。未來還需加強LLM在建築領域的推理能力和多模態互動。 PubMed DOI

Argus: Leveraging Multiview Images for Improved 3-D Scene Understanding With Large Language Models.
Argus：結合多視角影像與大型語言模型以提升3D場景理解 IEEE Trans Neural Netw Learn Syst 2025-06-25

這篇論文提出Argus，一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵，彌補單靠點雲資訊不足的問題，讓大型語言模型在3D場景理解上更精準。實驗證明，Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI

原始文章

站上相關主題文章列表