新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。
PubMed
DOI