原始文章

在影像美學計算(IAC)領域,傳統方法多依賴ImageNet的預訓練模型,常忽略影像美學的整體概念,導致評估效果不佳。為了解決這個問題,我們提出了一個新框架,透過多模態和多屬性對比學習,提供更佳的替代方案。 這個框架包含兩大要素:首先,建立一個結合人類反饋的多屬性影像描述資料庫,利用大型語言模型生成美學描述;其次,將影像視覺特徵與文本特徵結合,實施多屬性對比學習,深化對美學的理解。 我們的實驗顯示,這個新框架在IAC任務中表現優異,相關資源將在 https://github.com/yipoh/AesNet 提供。 PubMed DOI


站上相關主題文章列表

多模態方面情感分類(MABSC)是用來判斷社交媒體上特定情感極性的方法。為了提高準確性,提出了多模態雙因素分析(MDCA)方法,能辨識情感背後的原因,並提供推理原因(RC)和直接原因(DC)。透過大型語言模型和視覺-語言模型,建立了具有RC和DC的MABSC數據集。MDCA模型優於現有方法,微調後的小型模型在MABSC上表現比ChatGPT和BLIP-2等大模型更佳。 PubMed DOI

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

這篇論文介紹了**LitAI**,一種新方法,旨在提升從各種文獻格式(如文本、表格和圖形)中檢索資訊的能力。LitAI 結合了生成式人工智慧工具與光學字符識別(OCR),有效改善從 PDF 文件提取資訊的效果。作者透過特定提示和上下文學習,確保資訊檢索的準確性。實證評估顯示,LitAI 的表現超越了 Tesseract-OCR 和 GPT-4 等現有方法。LitAI 的實作已在 GitHub 上提供,詳情可參考相關連結。 PubMed DOI

近年來,像ChatGPT這類人工智慧技術在整形外科的應用越來越普遍,特別是在評估美容手術效果方面。一項研究針對「Face Rating and Review AI」模型,專注於微創美容程序中的面部特徵,尤其是肉毒桿菌治療。研究分析了79篇2023至2024年的文章,顯示美國、澳洲和義大利在此領域的貢獻。使用Kaggle的23名患者數據,模型評估了客觀和主觀參數,結果顯示治療後面部特徵有顯著改善。研究強調倫理考量,未來需多樣化數據集以提升準確性。 PubMed DOI

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

最近的研究顯示,對比語言-圖像預訓練(CLIP)在多項任務中表現優異,但傳統方法需大量GPU資源,對醫療應用造成限制。為了解決這些問題,我們提出了一種新方法,稱為CLEFT,結合高效的大型語言模型與提示微調。這種方法縮小了臨床數據與簡單標籤之間的差距,並在胸部X光和乳腺攝影等數據集上達到最先進的性能。更重要的是,我們的框架將可訓練模型大小減少39%,使其在醫療應用中更具實用性。 PubMed DOI

視覺語言模型(VLMs)在跨模態推理上表現優異,因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調,以適應不同任務。TCP方法雖然能增強VLM的泛化能力,但固定的文本模板可能無法捕捉細微的類別差異。 為了解決這個問題,我們提出了自定義文本生成的類別感知提示調整(CuTCP),利用大型語言模型生成更具描述性的提示,提升模型對已知與未見類別的區分能力。實驗顯示,CuTCP在新類別上改善了0.74%,並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力,特別是在細粒度分類任務中。 PubMed DOI

在智慧型手機攝影中,準確測量影像的感知色差(CDs)非常重要。傳統指標雖然提供數值評分,但無法清楚解釋差異原因。為了解決這個問題,我們推出了CD-Reasoning,這不僅計算CD分數,還能以符合人類感知的方式解釋差異。 CD-Reasoning基於新的多模態數據集M-SPCD,涵蓋七個關鍵屬性,如白平衡和亮度對比。透過這個數據集,我們增強了多模態大型語言模型(MLLMs),能更準確評估CD並詳細解釋影像差異。 實驗結果顯示,CD-Reasoning在準確性和解釋能力上均優於現有指標和MLLMs。源代碼將在 https://github.com/LongYu-LY/CD-Reasoning 提供。 PubMed DOI

這段文字介紹了 T2I-CompBench++,一個新基準,旨在提升文本到圖像的生成效果。它包含 8,000 個提示,分為四大類別:屬性綁定、物件關係、生成數學能力和複雜組合,還有八個子類別,如 3D 空間關係。此外,基準引入了新的評估指標,特別是針對 3D 關係和數學能力的檢測指標,並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型,包括 FLUX.1 和 DALLE-3,以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

這項研究強調了大型生成模型在旅遊IP文化產品設計中的應用,並指出AI生成內容(AIGC)對傳統設計過程的重要性。研究提出了一個四階段的方法論,包含情感探索、形狀生成、顏色生成和顏色和諧評估。透過使用GPT-4o和Midjourney,研究能夠了解訪客需求並創造出符合意象的設計。案例研究顯示,這個方法論在旅遊IP產品設計中具有效性,並且定量與定性評估之間有強相關性。 PubMed DOI