原始文章

新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI


站上相關主題文章列表

NLI製圖越來越受歡迎,但準確轉換使用者需求成圖表是挑戰。提出ChartGPT系統,利用LLMs從語言生成圖表。採用逐步推理管道方法增強處理複雜邏輯問題的效能。建立包含語句和圖表的數據集,微調模型減少偏見。設計互動界面,讓用戶查看並修改輸出。透過評估和用戶研究評估系統效能。 PubMed DOI

生成式大型語言模型(LLMs)在自然語言處理表現優秀,尤其在問答和對話系統。MedChatZH是基於Transformer和LLaMA的中文醫學問答模型,透過醫學書籍預訓練並微調在醫學指導數據,在醫學對話數據集中表現優異。有興趣的研究者可在GitHub找到相關資源,支持中醫學和LLMs研究。 PubMed DOI

研究探討如何利用大型語言模型(LLMs)協助資料素養較低者理解複雜的視覺化,結果顯示LLM能有效幫助使用者理解圖表並鼓勵進一步探索。然而,過度依賴LLM代理人可能導致洞察不足,呈現潛在風險。研究建議妥善平衡利用LLMs提升視覺化素養的方法。 PubMed DOI

醫療視覺問題回答(VQA)是醫療多模態大型語言模型(LLMs)中的一項重要任務,旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率,特別是在資源有限的環境中。不過,目前的醫療 VQA 數據集規模不大,且多為簡單問題,缺乏深度推理。 我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準,並開發了一種基於 LLM 的方法,顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集,專注於胸部 X 光影像,並提出了新穎的 VQA 方法,強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。 PubMed DOI

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

這篇論文探討了VILA管道的開發,該管道能自動生成多選視覺化項目,以評估視覺化素養。作者創建了1,404個候選項目,涵蓋12種圖表類型和13種視覺化任務,並與專家合作制定評估規則,最終形成約1,100個高品質的VILA資料庫。研究指出VILA管道的局限性,強調人類監督的重要性。此外,作者還開發了VILA-VLAT測試,顯示出良好的效度。最後,論文提供了對VILA的應用建議及實用指導,相關材料可在線獲取。 PubMed DOI

大型語言模型(LLMs)在智能視覺化系統中有很大潛力,尤其在專業應用上,但整合時面臨挑戰,包括領域特定問題、視覺化過程及用戶互動。為解決這些問題,我們提出了一個框架,利用微調的LLMs來改善視覺互動。 在教育領域,智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind,一個互動式視覺化系統,幫助AI初學者進行自我調節學習。研究顯示,Tailor-Mind能提供個性化建議,增強學習體驗,驗證了我們框架的有效性。 PubMed DOI

這項研究評估了GPT-4的視覺能力,特別是在視覺素養任務上的表現。結果顯示,GPT-4能識別趨勢和極端值,對視覺設計原則有一定理解,但在沒有原始數據的情況下,對簡單數值檢索表現不佳,且在區分圖表顏色時也有困難,可能出現幻覺和不一致的情況。研究反映了模型的優缺點,並探討了未來在視覺化研究中的潛力。所有相關資料可在提供的連結中找到。 PubMed DOI

這項研究探討誤導性圖表的問題,這些圖表可能會扭曲數據解讀,影響決策。研究強調需要有效的自動檢測方法,特別是在多模態大型語言模型(LLMs)技術進步的情況下。研究分析了一個包含誤導性圖表的數據集,並測試四種不同的LLMs,使用九種提示來識別超過21種圖表相關問題。結果顯示,這些LLMs能理解圖表並批判性解釋數據,顯示它們在對抗誤導性資訊和提升視覺素養方面的潛力。整體而言,研究強調了LLMs在解決誤導性圖表問題上的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs)從條形圖生成類似人類的重點摘要能力,重點在於視覺化設計的影響。研究包含三個實驗,使用四種條形圖佈局:垂直並排、水平並排、重疊和堆疊。 第一個實驗測試四個LLM在不同配置下的表現,結果顯示即使是先進的LLM也難以產生多樣且準確的解讀。第二個實驗發現LLM的重點摘要常與人類的比較類型不一致。第三個實驗則顯示圖表的上下文和數據影響LLM的表現,顯示出不一致性。 總體而言,研究強調了LLM在模仿人類數據解讀方面的限制,並指出未來改進的方向。 PubMed DOI