原始文章

在影像美學計算(IAC)領域,傳統方法多依賴ImageNet的預訓練模型,常忽略影像美學的整體概念,導致評估效果不佳。為了解決這個問題,我們提出了一個新框架,透過多模態和多屬性對比學習,提供更佳的替代方案。 這個框架包含兩大要素:首先,建立一個結合人類反饋的多屬性影像描述資料庫,利用大型語言模型生成美學描述;其次,將影像視覺特徵與文本特徵結合,實施多屬性對比學習,深化對美學的理解。 我們的實驗顯示,這個新框架在IAC任務中表現優異,相關資源將在 https://github.com/yipoh/AesNet 提供。 PubMed DOI


站上相關主題文章列表

研究使用人工智慧創作印象派風格藝術圖像,結果顯示top-k方法比基本方法更成功地模仿藝術家風格,展現AI生成印象派畫作的潛力。利用循環生成對抗網絡結合不同風格,如莫內的風格,進行訓練。 PubMed DOI

生成式AI技術如ChatGPT、DALL E、Stable Diffusion和Deepfake被廣泛運用來根據文字提示創造圖像,包括逼真的照片。研究目前致力於開發圖像取證工具,以區分真實和AI生成的圖像,特別是檢測Deepfake等偽造品。一種方法是透過分析像素級特徵,利用PRNU和ELA等技術,來區分AI生成的圖像和實際相機拍攝的照片。透過卷積神經網絡訓練,成功達到高達95%以上的準確率。該研究使用精確度、召回率和F1分數來評估方法。 PubMed DOI

文字導向的圖像編輯是利用文字提示來編輯圖像,保留特定區域。根據提示呈現方式不同,效果也不同。介紹了一種增強社群媒體圖像的方法,透過語言模型生成提示,選擇引人注目的圖像。實驗顯示,這方法編輯的圖像能準確反映提示,且在社群媒體上受好評。 PubMed DOI

這篇論文討論了圖像-文本多模型的發展,強調了通用技術模型對特定領域模型的影響。從早期特徵空間到大型模型架構的演進,以及通用多模式技術對生物醫學領域的影響。論文分析了圖像-文本多模型的組件和挑戰,總結了在生物醫學中的應用,提出了解決方案。更多資訊請參考他們的GitHub頁面: https://github.com/i2vec/A-survey-on-image-text-multimodal-models。 PubMed DOI

多模態方面情感分類(MABSC)是用來判斷社交媒體上特定情感極性的方法。為了提高準確性,提出了多模態雙因素分析(MDCA)方法,能辨識情感背後的原因,並提供推理原因(RC)和直接原因(DC)。透過大型語言模型和視覺-語言模型,建立了具有RC和DC的MABSC數據集。MDCA模型優於現有方法,微調後的小型模型在MABSC上表現比ChatGPT和BLIP-2等大模型更佳。 PubMed DOI

這項研究介紹了IQAGPT,一個新系統,用來評估電腦斷層掃描(CT)影像的品質。它結合了大型語言模型(LLMs)和視覺語言模型(VLMs),並利用一個包含1,000個不同品質CT切片的數據集進行訓練。這個系統能夠生成詳細的品質描述,並讓使用者透過ChatGPT互動,獲得品質評分或放射學報告。結果顯示,IQAGPT在影像品質評估上表現優於現有模型,未來有潛力補充或取代放射科醫師的評估。 PubMed DOI

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這篇論文介紹了**LitAI**,一種新方法,旨在提升從各種文獻格式(如文本、表格和圖形)中檢索資訊的能力。LitAI 結合了生成式人工智慧工具與光學字符識別(OCR),有效改善從 PDF 文件提取資訊的效果。作者透過特定提示和上下文學習,確保資訊檢索的準確性。實證評估顯示,LitAI 的表現超越了 Tesseract-OCR 和 GPT-4 等現有方法。LitAI 的實作已在 GitHub 上提供,詳情可參考相關連結。 PubMed DOI

近年來,像ChatGPT這類人工智慧技術在整形外科的應用越來越普遍,特別是在評估美容手術效果方面。一項研究針對「Face Rating and Review AI」模型,專注於微創美容程序中的面部特徵,尤其是肉毒桿菌治療。研究分析了79篇2023至2024年的文章,顯示美國、澳洲和義大利在此領域的貢獻。使用Kaggle的23名患者數據,模型評估了客觀和主觀參數,結果顯示治療後面部特徵有顯著改善。研究強調倫理考量,未來需多樣化數據集以提升準確性。 PubMed DOI