原始文章

視覺語言模型(VLMs)在跨模態推理上表現優異,因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調,以適應不同任務。TCP方法雖然能增強VLM的泛化能力,但固定的文本模板可能無法捕捉細微的類別差異。 為了解決這個問題,我們提出了自定義文本生成的類別感知提示調整(CuTCP),利用大型語言模型生成更具描述性的提示,提升模型對已知與未見類別的區分能力。實驗顯示,CuTCP在新類別上改善了0.74%,並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力,特別是在細粒度分類任務中。 PubMed DOI


站上相關主題文章列表

文字導向的圖像編輯是利用文字提示來編輯圖像,保留特定區域。根據提示呈現方式不同,效果也不同。介紹了一種增強社群媒體圖像的方法,透過語言模型生成提示,選擇引人注目的圖像。實驗顯示,這方法編輯的圖像能準確反映提示,且在社群媒體上受好評。 PubMed DOI

大型語言模型如ChatGPT在放射學領域有潛力,但成效需靠即時工程處理。不同提示策略可客製化模型回應,無需額外訓練。少樣本學習和嵌入式技術對提升聊天機器人輸出和透明度至關重要。在放射學等專業任務中,提示工程對LLMs利用至關重要,隨模型演進,零樣本學習等方法愈見重要。 PubMed DOI

研究發現,使用解凍的LLMs進行軟提示在GatorTron上表現最佳,勝過傳統微調和硬提示模型。當LLMs規模擴大時,凍結的LLMs也具競爭力,展現出良好少樣本學習和泛化能力。凍結模型不僅計算成本更低,還能跨機構應用。 PubMed DOI

最近大型語言模型和提示工程的進展,讓自訂聊天機器人變得更容易,不再需要程式設計技能。不過,進行大規模的提示評估仍然很具挑戰性。我們的研究確定了五個關鍵挑戰,並提出了一個以特徵為導向的提示評估工作流程,特別針對文本摘要,強調根據摘要特徵來評估提示,而非僅依賴傳統指標。為了支持這個流程,我們推出了Awesum,一個視覺分析系統,幫助用戶識別最佳提示改進。我們的測試顯示,Awesum能有效幫助非技術用戶進行系統性評估,並可應用於其他自然語言生成任務。未來建議專注於大型語言模型的特徵導向評估。 PubMed DOI

大型語言模型(LLMs)在智能視覺化系統中有很大潛力,尤其在專業應用上,但整合時面臨挑戰,包括領域特定問題、視覺化過程及用戶互動。為解決這些問題,我們提出了一個框架,利用微調的LLMs來改善視覺互動。 在教育領域,智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind,一個互動式視覺化系統,幫助AI初學者進行自我調節學習。研究顯示,Tailor-Mind能提供個性化建議,增強學習體驗,驗證了我們框架的有效性。 PubMed DOI

新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

這篇論文探討了將日文定語從句翻譯成中文的挑戰,特別是名詞語義角色對翻譯的影響。研究指出目前機器翻譯工具的局限性,並透過範例分析提出了一種經ChatGPT測試的三步驟提示鏈接策略,翻譯品質顯著提升,平均分數提高超過43%。結果強調語言學知識在設計提示時的重要性,對於提升複雜句子的翻譯準確性至關重要。這項研究不僅連結了語言學理論與機器翻譯,還為優化大型語言模型的提示及改善語言教育工具提供了新見解。 PubMed DOI

最近的研究顯示,對比語言-圖像預訓練(CLIP)在多項任務中表現優異,但傳統方法需大量GPU資源,對醫療應用造成限制。為了解決這些問題,我們提出了一種新方法,稱為CLEFT,結合高效的大型語言模型與提示微調。這種方法縮小了臨床數據與簡單標籤之間的差距,並在胸部X光和乳腺攝影等數據集上達到最先進的性能。更重要的是,我們的框架將可訓練模型大小減少39%,使其在醫療應用中更具實用性。 PubMed DOI

這段文字介紹了 T2I-CompBench++,一個新基準,旨在提升文本到圖像的生成效果。它包含 8,000 個提示,分為四大類別:屬性綁定、物件關係、生成數學能力和複雜組合,還有八個子類別,如 3D 空間關係。此外,基準引入了新的評估指標,特別是針對 3D 關係和數學能力的檢測指標,並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型,包括 FLUX.1 和 DALLE-3,以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

大型語言模型(LLMs)因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎,讓非專家也能輕鬆使用。不過,撰寫有效的提示卻不容易,因為需要特定知識。為了幫助用戶改善提示,我們開發了PROMPTAID,這是一個互動式的視覺分析系統,能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化,促進關鍵字擾動、意義重述和選擇最佳範例,並經過專家意見和用戶研究驗證,讓用戶能輕鬆迭代提示,生成多樣選項,並有效分析提示表現。 PubMed DOI