IEEE國際計算機視覺與模式識別會議(CVPR),是計算機視覺領域三大頂級會議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。本文對自動化所的錄用研究成果進行簡要介紹(排序不分先后)。
1.視頻配樂的自定義條件可控生成
Customized Condition Controllable Generation for Video Soundtrack
論文作者:亓帆,馬錕生,徐常勝??
近年來,潛在擴散模型(LDMs)的發展推動了音樂生成領域的創新,使視頻配樂在靈活性和多模態融合方面取得了顯著突破。然而,現有方法大多采用兩階段流程,難以全面捕捉視頻的聲音特征,尤其在復雜視頻場景下,難以同時呈現準確的音效細節和豐富的音樂情感氛圍。為解決上述挑戰,我們提出了一種創新性的視頻配樂生成框架(C3GVS),能夠同步生成與參考視頻相匹配的音樂和音效。為此,我們設計了一種基于擴散模型的頻譜分歧掩蔽注意力(Spectrum Divergence Masked Attention),該模塊利用音樂和音效在時頻域中的不同特性,高效融合音樂和音效條件特征,從而實現動態的音畫對齊。在此基礎上,我們引入了基于評分的引導機制,以增強生成音頻的創造性。該方法使音樂創作者能夠自定義藝術輸入,生成更加個性化的音景,同時確保音頻與視頻語境保持高度一致。在FilmScoreDB和SymMV&HIMV數據集上的廣泛評估表明,我們的方法在主觀和客觀評測中均顯著優于當前最先進的基線方法,展現出其作為視頻配樂生成強大工具的潛力。
C3GVS框架整體示意圖
2.基于語言引導的概念瓶頸模型的可解釋持續學習
Language Guided Concept Bottleneck Models for Interpretable Continual Learning
論文作者:余璐,韓昊宇,陶哲,姚涵濤,徐常勝
持續學習(Continual Learning)的目標是使學習系統能夠不斷獲取新知識,同時不遺忘先前學習的信息。持續面臨的挑戰在于緩解災難性遺忘(catastrophic forgetting)的同時保持跨任務的可解釋性。現有的大多數持續方法主要側重于保留已學知識以提高模型性能。然而,隨著新信息的引入,學習過程的可解釋性對于理解不斷演化的決策機制至關重要,但這一方向卻鮮少被探索。本研究提出了一種新穎框架,通過整合語言引導的概念瓶頸模型(Concept Bottleneck Models, CBMs)來同時應對這兩大挑戰。我們的方法利用概念瓶頸層(Concept Bottleneck Layer),與CLIP模型對齊語義一致性,從而學習人類可理解、且能跨任務泛化的概念。通過聚焦于可解釋的概念,該方法不僅增強了模型隨時間推移保留知識的能力,還提供了透明的決策依據。我們在多個數據集上驗證了方法的有效性,其中在ImageNet子集上的最終平均準確率超越現有最優方法達3.06%。此外,我們通過概念可視化展示模型預測依據,進一步推動了可解釋持續學習的理解。
第t個任務時方法框架圖
3.MV-MATH:多視覺場景下的多模態數學推理能力評估
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts
論文作者:王培杰,李忠志,殷飛,冉德康,劉成林
多模態大語言模型(MLLM)已在各種數學任務中表現出良好的推理能力。然而,大多數現有的多模態數學基準僅限于單視覺環境,這與現實世界數學應用中常見的多視覺場景不同。為了解決這一差距,研究團隊推出了 MV-MATH:一個精心策劃的數據集,包含 2009 個高質量數學問題。每個問題都集成了多幅與文本交錯的圖像,這些問題源自真實的 K-12 教育場景并附有詳細的注釋。MV-MATH 包括多項選擇題、自由形式題和多步驟題,涵蓋 3 個難度級別的 11 個主題領域,是評估 MLLM 在多視覺環境下數學推理的全面而嚴格的基準。通過大量實驗,我們觀察到 MLLM 在多視覺數學任務中遇到了巨大的挑戰,與人類在 MV-MATH 上的能力相比,其性能存在相當大的差距。此外,我們還分析了不同模型的表現和錯誤模式,為多視覺場景下大語言模型的數學推理能力提供了深入見解。
圖1.在 MV-MATH 數據集上,六個多模態大模型的性能比較,涵蓋 11 個主題(左)和 3 個問題類型(右)。SAR:步驟準確率,QCR:問題完整率。
圖2.MV-MATH的樣本示例(上)與數據集特性統計(下),每個樣本都包含了多個視覺輸入
4.DocSAM:基于查詢解耦和異質混合學習的通用文檔圖像分割方法
DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning
論文作者:李曉輝,殷飛,劉成林
文檔圖像分割在文檔分析和識別中至關重要,但由于文檔格式的異質性和分割任務的多樣性,這一過程仍然充滿挑戰。現有方法通常單獨處理這些任務,導致泛化能力有限且資源浪費。本文提出一種基于Transformer的統一框架DocSAM,將文檔分割建模成實例分割和語義分割的組合,用于多種文檔圖像分割任務,包括文檔布局分析、多粒度文本分割和表格結構識別等。具體而言,DocSAM使用文本編碼器將每個數據集中的類別名稱描述映射到與實例查詢相同維度的語義查詢,這些語義查詢不僅作為分割提示,指導模型識別需要分割的具體區域類型,還充當類別原型輔助實例查詢進行開放集分類。這兩組查詢通過注意力機制相互作用,并與多尺度圖像特征進行交叉注意解碼并預測實例和語義分割掩碼。基于上述設計,DocSAM可以在異構數據集上聯合訓練,增強了魯棒性和泛化能力,同時減少了計算和存儲資源的需求。綜合評估表明,DocSAM在準確性、效率和適應性方面均優于現有方法,突顯了其在推進文檔圖像分割在各種應用中的潛力。
DocSAM模型框架圖。DocSAM主要由視覺主干網絡、可變形注意力模塊、Sentence-BERT和混合查詢解碼器組成。對于帶有自然文本格式類名的文檔圖像,首先通過視覺主干提取多尺度圖像特征并利用可變形注意力模塊進行增強,之后將類別名稱輸入Sentence-BERT轉換為語義查詢,并與隨機初始化的實例查詢一同進入混合查詢解碼器對圖像特征進行解碼,二者協作完成語義和實例分割任務。
5.視覺引導的一體化圖像修復擴散模型
Visual-Instructed Degradation Diffusion for All-in-One Image Restoration
論文作者:羅文陽,覃海納,王立彬,陳澤文,劉雨帆,李宇明,鄭丹丹,李兵,胡衛明
去模糊、去噪和去光暈等圖像復原任務通常需要為每種退化類型分別建立模型,這限制了它們在現實世界中可能出現混合退化或未知退化的場景中的通用性。在這項工作中,我們提出了一種利用視覺指令引導退化擴散的新型一體化圖像修復框架 Defusion。與依賴于特定任務模型或含糊的基于文本的先驗的現有方法不同,Defusion 構建了與視覺退化模式相一致的明確的視覺指令。這些指令的基礎是對標準化的視覺元素進行降級,從而捕捉內在的降級特征,同時與圖像語義無關。然后,Defusion 使用這些視覺指令來指導基于擴散的模型,該模型直接在降解空間中運行,通過對降解效果去噪來重建高質量的圖像,同時增強穩定性和通用性。綜合實驗證明,Defusion 在各種圖像復原任務(包括復雜的真實世界退化)中的表現優于最先進的方法。
所提出方法的框架。1)從視覺理由中構建視覺指令,以展示圖像退化的視覺效果;2)對視覺指令進行標記化,并與?"干凈"?視覺元素進行對比;3)最后,視覺指令標記引導去噪擴散模型,該模型根據視覺指令的提示估計退化程度。視覺指令標記符是由損失訓練的量化自動編碼器,而只有編碼器用于推理。
6.可逆歸一化流圖像復原
Reversing Flow for Image Restoration
論文作者:覃海納,羅文陽,王立彬,鄭丹丹,陳景東,楊銘,李兵,胡衛明
圖像復原的目的是通過逆轉退化的影響,從低質量(LQ)的退化圖像中恢復出高質量(HQ)的圖像。現有的圖像復原生成模型,包括擴散模型和基于分數的模型,通常將退化過程視為隨機變換,從而帶來了低效率和復雜性。在這項工作中,我們提出了一種新穎的圖像修復框架 ResFlow,它將降解過程建模為使用連續歸一化流的確定性路徑。ResFlow 通過輔助過程來增強降解過程,從而消除 HQ 預測中的不確定性,實現降解過程的可逆建模。ResFlow 采用熵保存流路徑,并通過匹配速度場來學習增強降解流。ResFlow 顯著提高了圖像復原的性能和速度,只需不到四個采樣步驟即可完成任務。廣泛的實驗證明,ResFlow 在各種圖像復原基準測試中都取得了最先進的結果,為實際應用提供了實用高效的解決方案。我們的代碼將公開發布。
7.基于最優傳輸的開放詞匯多標簽識別
Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport
論文作者:譚淏,譚資昌,李俊,劉阿建,萬軍,雷震
受到DETR啟發,我們發現簡單的區域-文本匹配能顯著提升開放詞匯多標簽識別性能,并將該過程建模為最優傳輸問題以抑制負類匹配。然而直接進行最優傳輸是失效的:(1)預訓練局部語義缺失;(2)匹配結果難以泛化到開放詞匯場景。為此我們提出局部語義恢復模塊捕捉精確的區域性語義,并引入教師傳輸模型增強開放詞匯下的泛化性。方法在自然圖像、遙感圖像、行人屬性等多領域取得大幅性能提升。更重要的是,該方法能作為一種框架提升現有方法的表現,擴展潛力良好。
RAM框架示意圖
8.基于一致性學習潛能的多模態媒體篡改檢測與定位
Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation
論文作者:李毅恒,楊陽,譚資昌,劉歡,陳威華,周旭,雷震
為了應對虛假新聞的威脅,研究人員對多模態媒體篡改檢測與定位的研究日益增加。然而,現有方法難以深入建模局部內容,導致其對細粒度偽造的感知能力不足、判定結果不夠可靠。針對這一現象,本文提出了一種 “上下文-語義一致性”的新學習范式,提升偽造內容細粒度感知能力。該方法構建了圖像模態和文本模態兩個分支,它們均包含了兩個級聯的解碼器:上下文一致性解碼器和語義一致性解碼器,并且遵循相同的標準分別應用于模態內和跨模態場景,以捕捉細粒度的偽造細節。一方面,每個模塊引入額外的監督信息學習一致性特征;另一方面,利用偽造感知推理或聚合,深入挖掘偽造線索并進行定位。在公開數據集DGM4上的廣泛實驗證明了:所提出的方法領先現有的技術,尤其在篡改內容的定位方面性能提升顯著。
提出的框架包含上下文一致性解碼器和語義一致性解碼器。它們構建了細粒度一致性矩陣,并且使用一致性損失進行監督。在每個解碼器中,采用防偽功能推理或聚合模塊以減少混淆內容的干擾,深入挖掘偽造線索。
9.MVBoost:利用多視圖修正策略增強3D重建
MVBoost: Boost 3D Reconstruction with Multi-View Refinement
論文作者:劉祥宇,張小梅,馬致遠,朱翔昱,雷震
最近在3D生成方面的進展令人矚目,但目前大多數3D重建模型在很大程度上依賴于現有的3D數據集。多樣化3D數據集的稀缺導致3D重建模型的泛化能力有限。本文提出了一種通過生成偽GT數據來增強3D重建的創新框架——MVBoost。MVBoost的關鍵在于結合多視圖生成模型的高精度和3D重建模型的一致性,以創建可靠的數據源。具體而言,給定單視圖輸入圖像,我們采用多視圖擴散模型生成多個視圖,然后使用大型3D重建模型生成一致的3D數據。MVBoost隨后自適應地精煉這些從一致的3D數據渲染的多視圖圖像,以構建一個用于訓練前饋3D重建模型的大規模多視圖數據集。此外,輸入視圖優化模塊旨在根據用戶的輸入圖像優化相應的視點,確保最重要的視點能夠準確滿足用戶的需求。大量實驗評估表明,我們的方法在重建結果和魯棒泛化方面優于先前的工作。
MVBoost框架概述。給定一個單視圖圖像數據集,我們首先采用多視圖擴散模型生成原始多視圖數據集。然后將原始多視圖輸入到大型3D重建模型中,以生成3D高斯。從這個3D高斯點云中渲染出多個視圖,并通過擴散模型進行精細化的多視圖數據集生成。在訓練過程中,精細化的多視圖數據集用于通過LoRA監督3D重建模型。最后,生成的3D高斯以優化的方式與特定輸入視點對齊,從而獲得高保真重建結果。
10.基于貝葉斯理論的視覺語言模型的測試時間自適應
Bayesian Test-Time Adaptation for Vision-Language Models
論文作者:周李華,葉茂,李帥鋒,李念欣,朱霞天,鄧磊,劉宏斌,雷震
預訓練視覺-語言模型通過在大規模圖文對數據上的訓練,展現出了強大的多模態表征能力,在圖像分類等任務中表現出很好的性能。然而在應用中,測試數據往往和預訓練數據的分布存在較大差異,會導致模型性能下降。研究團隊提出一種新的TTA方法,稱為Bayesian Class Adaptation (BCA),能夠在動態環境中提升CLIP的分類精度和推理效率。BCA 基于貝葉斯框架,將預測過程分解為兩個部分:可能性和先驗,并通過動態更新使模型適應測試數據,該方法核心創新點包括:
(1)先驗的動態適應。傳統方法通常忽略先驗的存在,缺少靈活性,BCA能根據測試數據動態調整先驗以適應當前數據分布。
(2)高效的設計。BCA 不依賴反向傳播,而是通過輕量級的統計更新實時適應。在 ImageNet 數據集(ResNet-50模型)上的測試表明,BCA 的推理時間僅為 2.42 分鐘,內存占用只比 CLIP 增加了約 4MB。
實驗結果表明,該方法在精度、魯棒性和效率上超越現有方法,適用于動態現實場景,為視覺-語言模型的測試時適應提供了新思路。
BCA流程:第 i 個測試圖像到達時,首先通過視覺編碼器生成visual embedding,然后模型基于這個visual embedding進行可能性更新,即更新模型中存儲的class embedding,然后再對模型執行先驗更新,即調整模型中的類別先驗,最終輸出后驗概率(預測)
11.大規模三維建圖的超輕量神經表達
3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping
論文作者:師晨輝,唐付林,安寧,吳毅紅
本文為大場景3D建圖提出了一個新的超級輕量的神經表達,具有出色的表現力。該表達基于一組錨定在支持點上的帶限局部距離函數(SDF)定義了近表面空間的全局SDF。支持點從點云中采樣得到。這些局部 SDF 僅由一個小型的多層感知機(MLP) 參數化,不依賴高維的特征向量。每個 SDF 的狀態由位置、旋轉和縮放三個可學習的幾何屬性控制,這使得該表示法能夠適應復雜的幾何形狀。然后,本文開為這種無序表示開發了一種新型并行算法,以高效檢測包含每個采樣點的局部 SDF,從而能夠在訓練過程中實時更新局部 SDF 狀態。此外,本文還引入了一種剪枝-擴展策略,以進一步增強適應性。本文的低參數模型及其自適應能力的協同作用,使表達極其緊湊,同時具有出色表達能力的。實驗結果證明,本文的方法可以以1/5的內存占用達到最好的重建質量。
提出方法的框架
12.基于置換等變性的相對相機位姿估計
EquiPose: Exploiting Permutation Equivariance for Relative Camera Pose Estimation
論文作者:劉雨臻,董秋雷
相對相機位姿估計是三維計算機視覺領域中一個重要的研究主題。近年來,研究者提出了許多相對位姿估計網絡,來學習從兩幅輸入圖像到它們對應的相對位姿之間的映射關系。然而,這些網絡并不具備相對位姿固有的姿態置換等變性(Pose Permutation Equivariance, PPE):從圖像A到圖像B的相機位姿矩陣,等于從圖像B到圖像A的相對位姿矩陣的逆。這意味著,當交換兩幅圖像的輸入順序時,這些網絡將無法獲得一致的相對位姿結果。針對這一問題,我們首次引入“PPE映射”的概念,即滿足上述PPE特性的映射。進一步地,我們提出了一個通用的相對位姿估計框架EquiPose,該框架可以使用不同的相對位姿估計網絡作為基線模型,并約束基線模型具有PPE屬性。我們還從理論上證明:EquiPose框架學習到的映射一定是一個PPE映射。在四個公開數據集上的實驗結果表明,對于若干預訓練的基線模型,EquiPose框架無需微調即可直接提升其性能,而在進行微調后可以進一步提升其性能。
EquiPose框架結構圖
13.基于遮擋感知神經域自適應的自監督物體位姿估計
ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose Estimation
論文作者:譚濤,董秋雷
物體位姿估計是計算機視覺領域中的一個重要主題,傳統方法依賴于高質量的物體位姿標簽進行全監督訓練,而自監督方法則通過利用未標注的真實圖像和合成數據進行訓練,避免了對手動標注的依賴。針對現有自監督方法在合成圖像與真實圖像之間的域差距以及遮擋問題,本研究提出了一種基于遮擋感知神經域自適應的自監督物體位姿估計方法——ONDA-Pose。該方法采用三階段訓練策略:首先,利用未標注的真實圖像和CAD模型,通過神經輻射場技術,生成與真實圖像具有相同物體位姿且紋理與CAD模型渲染圖像相似的合成圖像;其次,使用在CAD模型渲染的合成數據上預訓練的位姿估計器對合成圖像進行初始位姿估計,并通過全局物體位姿優化器生成偽標簽;最后,利用帶有偽標簽的真實圖像和合成圖像對位姿估計器進行自監督訓練,進一步提升其性能。實驗結果表明,相較于現有主流方法,我們的方法在大多數情況下取得了領先的性能。
ONDA-Pose框架圖
14.RoboBrain:實現從抽象指令理解到具象動作表達的具身多模態模型
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete
論文作者:冀昱衡,譚樺杰,史佳禹,郝孝帥,張袁,張恒源,王鵬偉,趙夢迪,穆堯,安鵬舉,薛昕達,蘇慶杭,呂懷海,鄭曉龍,劉家銘,王仲遠,仉尚航
近年來,多模態大語言模型(MLLMs)的快速發展顯著推動了通用人工智能的研究進程。然而,盡管 MLLMs 在通用任務中表現出色,其在具身場景中的應用仍面臨巨大挑戰,尤其是在長程操作任務中。這些任務不僅要求機器人能夠理解抽象指令,還需具備將指令轉化為具體動作的能力。具體而言,長程操作任務的成功執行依賴于以下三種核心能力:任務規劃能力、可操作區域感知能力和軌跡預測能力。然而,現有 MLLMs 在這些方面存在顯著不足,這主要源于當前缺乏專門為MLLMs和機器人長程操作任務設計的大規模、細粒度數據集。為了填補這一空白,我們提出了ShareRobot,一個專門為機器人操作任務設計的高質量異構數據集。基于ShareRobot,我們開發了 RoboBrain,這是一個能夠實現從抽象指令理解到具象動作表達的統一具身多模態大腦模型,旨在增強機器人在長程操作任務中的能力。通過精心設計的數據比例、多階段訓練策略以及長視頻和高分辨率圖像輸入,RoboBrain 實現了從抽象指令理解到具象動作表達的認知跨越,展現了其在機器人實際應用中的潛力。
RoboBrain具備完成長程操作任務的三項核心能力:任務規劃能力(Planning)、可操作區域感知能力(Affordance Perception)和軌跡預測能力(Trajectory Prediction)。基于我們構建的ShareRobot數據和通用多模態數據,RoboBrain經過精心設計的多階段訓練,在多個具身場景基準中取得了最先進的性能,實現了從抽象指令理解到具象動作表達的認知跨越。
15.生成模型在專業圖像設計中的差距與挑戰
IDEA-Bench: How Far are Generative Models from Professional Designing?
論文作者:梁晨,黃梁華,方景武,竇洹彰,王威,吳志凡,石宇鵬,張俊格,趙鑫,劉宇
當前生成模型在文本到圖像(T2I)任務上取得顯著進展,但在專業設計領域仍存在能力缺陷,難以處理復雜指令、多輸入/輸出任務或實現專業級細節控制。為了量化這一差距,我們提出 IDEA-Bench,一個涵蓋 100 個專業設計任務的基準測試,全面評估當前生成模型在專業設計場景下的表現,并提供改進方向。
IDEA-Bench 包含 100 個任務、275 個測試案例,覆蓋文本到圖像、圖像編輯、多圖生成等五大類別,并提供 IDEA-Bench-mini(18 個代表性任務) 進行自動評測。評估采用 1,650 個二元評分項,并結合多模態大模型(MLLM)輔助,以確保專業級任務的精準評估。
實驗評測了 FLUX-1、GPT-4o + Stable Diffusion 3、DALL-E 3 等模型,最高得分僅 22.48/100,遠未達到專業級設計要求。結果表明,現有模型在多模態理解、風格一致性和任務泛化方面仍存在顯著挑戰,需進一步優化以縮小與專業設計師的能力差距。
圖1.?IDEA-Bench概覽。IDEA-Bench 包含5個類別,共計100個專業級子任務、275個測試用例、1,650個層次化評估問題。圖中提供每個類別子任務示例和定量統計數據,以及主流模型的排行榜。
圖2.?IDEA-Bench從專業設計網站和設計師的任務數據中進行分類和構建,并根據生成模型的能力分配相應的能力關鍵詞。針對每個具體任務,設計圖像生成提示詞和層次化評測問題。評測人員隨后在一個具有代表性的數據子集中優化這些評測問題,以確保評測標準的合理性和一致性。
16.DriveDreamer4D:以世界模型為數據引擎的4D駕駛場景表征方法
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
論文作者:趙國盛,倪超駿,王嘯峰,朱政,張學陽,王一達,黃冠, 陳新澤,王泊遠,張友誼,梅文俊,王欣剛
閉環仿真對于推進端到端自動駕駛系統至關重要。當前的傳感器仿真方法,例如NeRF和3DGS,主要依賴與訓練數據分布高度一致的條件,這些條件大多局限于前向駕駛場景。因此,這些方法在渲染復雜駕駛操作(如變道、加速、減速)時存在局限性。近期,自動駕駛世界模型的進展展示了生成多樣化駕駛視頻的潛力。然而,這些方法仍局限于2D視頻生成,本質上缺乏捕捉動態駕駛環境復雜細節所需的時空一致性。在本文中,我們提出了DriveDreamer4D,該方法利用世界模型先驗知識增強了4D駕駛場景表征能力。具體而言,我們利用世界模型作為數據引擎,合成新軌跡視頻,并顯式利用結構化條件來控制交通元素的時空一致性。此外,我們提出了“堂兄數據”訓練策略,以促進真實數據與合成數據的融合,從而優化4DGS。據我們所知,DriveDreamer4D是首個利用視頻生成模型改進駕駛場景中4D重建的方法。實驗結果表明,DriveDreamer4D在新軌跡視圖下的生成質量顯著提升,在FID指標上分別比PVG、S3Gaussian和Deformable-GS提高了32.1%、46.4%和16.3%。此外,DriveDreamer4D顯著提升了駕駛代理的時空一致性,這一結論通過全面的用戶研究以及NTA-IoU指標分別提升22.6%、43.5%和15.6%得到了驗證。
圖1. 以往的4D高斯點云方法(如PVG、S3Gaussian、Deformable-GS)在渲染新軌跡(如變道)時面臨挑戰。DriveDreamer4D通過整合世界模型的先驗知識,增強了4D駕駛場景的表征能力,從而顯著提升了復雜場景和新軌跡視角下的渲染質量。
圖2. DriveDreamer4D的整體框架。首先,通過改變原始軌跡的動作(例如,轉向角度、速度),可以獲得新的軌跡。在第一幀和新軌跡的結構化信息(如3D邊界框、高清地圖)的條件下,生成對應的新軌跡視頻。隨后,將時間對齊的cousin pair(原始軌跡視頻與新軌跡視頻)進行融合,以優化4D高斯點云模型,并通過計算正則化損失來確保感知一致性。
17.視覺生成式模型的高效人類偏好評估
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
論文作者:李志凱,劉學文,Dongrong Joe Fu (UC Berkeley),李建權,顧慶毅,Kurt Keutzer (UC Berkeley),Zhen Dong (UC Berkeley)
視覺生成式模型的快速發展需要高效且可靠的評估方法。Arena 平臺收集用戶對模型比較的投票,可以根據人類偏好對模型進行排名。然而,傳統Arena的成對對比方式、模型匹配策略以及模型能力建模方法使其在效率和可靠性上面臨挑戰,這會影響對新模型能力的快速評估和排行榜的及時更新。為此,本文提出K-Sort Arena,采用 K-wise 比較,允許 K 個模型參與自由混戰,提供比成對比較更豐富的信息,并設計基于探索-利用的匹配算法和概率建模,從而實現更高效和更可靠的模型排名。目前,K-Sort Arena 已收集幾千次高質量投票并構建了全面的模型排行榜,已用于評估幾十種最先進的視覺生成模型,包括文生圖和文生視頻模型。K-Sort Arena已經歷數月的項目內測,期間收到來自加州大學伯克利分校, 新加坡國立大學, 卡內基梅隆大學, 斯坦福大學, 普林斯頓大學, 北京大學等數十家機構的專業人員的技術反饋,現已公開線上發布。
K-Sort Arena總體流程
18.CacheQuant:全面加速擴散模型
CacheQuant: Comprehensively Accelerated Diffusion Models
論文作者:劉學文,李志凱,顧慶毅
擴散模型在圖像生成領域展現出卓越的能力。然而,由于時序和結構層面的冗余,其推理速度較慢且網絡復雜,限制了在低延遲應用中的實際部署。現有的加速方法通常分別針對時序和結構兩個層面進行優化,但單獨優化各層面往往導致顯著的性能下降,而聯合優化雖然能增強加速效果,卻并非完全正交,簡單整合兩層面的優化方法往往難以取得理想的性能表現。
為此,我們提出了一種全新的CacheQuant范式,該方法無需額外訓練,通過聯合優化模型緩存與量化技術,實現對擴散模型時序和結構層面的全面加速。具體而言,我們采用動態規劃方法優化模型緩存調度,在充分考慮緩存與量化特性的基礎上,減少加速引入的誤差。此外,我們提出解耦誤差校正機制,進一步緩解累積誤差的影響。實驗結果表明,CacheQuant 在Stable Diffusion 任務中實現了 5.18× 加速和 4× 模型壓縮,而CLIP 分數僅下降 0.02。
本研究提出方法的總覽圖。我們采用動態規劃方法(DPS)獲得引入加速誤差最小的模型緩存序列表,進一步通過解耦誤差校正機制(DEC)緩解累積的誤差。
19.HumanDreamer:通過解耦生成生成可控的人體運動視頻
HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation
論文作者:王泊遠,王嘯峰,倪超駿,趙國盛,楊智欽,朱政,張沐陽,周鈺坤,陳新澤,黃冠,劉麗紅,王欣剛
人體運動視頻生成一直是一項具有挑戰性的任務,主要是由于學習人體運動固有的困難。雖然一些方法已經嘗試通過姿態控制來明確地驅動以人為中心的視頻生成,但是這些方法通常依賴于從現有視頻導出的姿態,從而缺乏靈活性。為了解決這個問題,我們提出了HumanDreamer,一個解耦的人類視頻生成框架,首先從文本提示生成不同的姿勢,然后利用這些姿勢來生成人類運動視頻。具體來說,我們提出了MotionVid,這是用于人體運動姿態生成的最大數據集。基于數據集,我們提出了MotionDiT,它被訓練成從文本提示中生成結構化的人體運動姿勢。此外,引入了一種新的LAMA損耗,這兩種損耗共同導致FID顯著提高62.4%,沿著,top1、top2和top3的R精度分別提高41.8%、26.3%和18.3%,從而提高了文本到姿態控制精度和FID指標。我們在各種姿勢到視頻基線的實驗表明,我們的方法生成的姿勢可以產生多樣化和高質量的人體運動視頻。此外,我們的模型可以促進其他下游任務,如姿勢序列預測和2D-3D姿態升維。
所提出的文本到姿態生成的訓練流程。姿態數據通過姿態變分自編碼器(Pose VAE)在潛在空間中編碼,隨后這些數據被提出的MotionDiT處理,在此過程中利用局部特征聚合和全局注意力來捕捉整個姿態序列的信息。最后,通過提出的CLoP計算LAMA損失,這增強了MotionDiT的訓練。
20.基于貝葉斯提示流學習的零樣本異常檢測
Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection
論文作者:屈震,陶顯,宮新一,曲世辰,陳麒宇,張正濤,王欣剛,丁貴廣
近年來,視覺-語言模型在零樣本異常檢測中表現卓越,可利用輔助數據訓練后直接執行跨類別異常檢測,如工業缺陷識別或醫療病灶檢測。現有方法通常通過手工設計文本提示或優化可學習的提示向量來構建文本輸入。然而,這些方法面臨以下挑戰:1) 手工設計的提示需要大量專家知識和反復試驗;2) 單一形式的可學習提示難以捕捉復雜的異常語義;3) 無約束的提示空間限制了模型對未見類別的泛化能力。為了解決這些問題,我們提出貝葉斯提示流學習(Bayes-PFL),從貝葉斯視角將提示空間建模為可學習的概率分布。具體而言,我們設計了一種提示流模塊,用于學習圖像特定和圖像無關的分布,并將二者結合以對文本提示空間進行正則化,從而提升模型在未見類別上的泛化能力。這些學習到的分布隨后用于采樣生成多樣化的文本提示,從而有效覆蓋提示空間。此外,我們引入了一種殘差跨模態注意力 (RCA) 模塊,以更好地對齊動態文本嵌入與細粒度圖像特征。
21.?BWFormer: 基于Transformer的機載雷達點云建筑物線框重建方法
BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer
論文作者:劉昱州,朱靈杰,葉翰樵,黃尚鋒,高翔,鄭先偉,申抒含
本文提出了一種基于Transformer結構從機載激光雷達點云重建建筑物線框結構的新模型:BWFormer。本方法采用自下而上的方式進行求解,首先在2D平面上檢測建筑角點,然后將其提升到3D空間并進行連接關系的檢測,同時通過引入額外的數據增強來增強模型的泛化性。由于機載雷達點云的2.5D特性,本方法通過將點云投影到地面平面來生成2D高度圖從而簡化問題。在高度圖的基礎上,本方法首先預測一個像素級角點概率圖,以確定可能的2D角點。接著,基于 Transformer網絡,將2D角點與額外的高度嵌入結合進行初始化,從而預測3D角點。這種2D-3D相結合的角點檢測策略顯著減少了角點檢測的搜索空間。為了恢復角點之間的拓撲連接,本方法提出了新的邊注意力機制,從而利用高度圖中的幾何和視覺特征進行邊預測。該機制能夠同時提取全局特征并保留局部細節。此外,考慮到該領域可用數據集有限且點云分布不規則的數據特性,本方法采用了條件隱變量擴散模型進行激光雷達掃描模擬從而實現數據增強。實驗結果表明,BWFormer在建筑物線框重建指標尤其是完整性方面明顯優于其他最新的主流方法。
激光雷達點云線框重建面臨的挑戰與BWFormer流程圖
22.揭示關鍵細節以辨差異:基于骨架動作識別的全新原型視角
Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition
論文作者:劉宏達,劉云帆,任民,王昊,王云龍,孫哲南
在基于骨架的動作識別中,由于骨架表示缺乏圖像級的細節信息,區分具有相似關節軌跡的動作成為一個關鍵挑戰。我們發現,相似動作的區分依賴于特定身體部位的微妙運動細節,因此本文方法聚焦于局部骨架結構的細粒度運動特征。為此,我們提出ProtoGCN,一種基于圖卷積網絡(GCN)的模型。該模型將整個骨架序列的動態分解為一系列可學習原型的組合,這些原型代表了不同的核心運動模式。通過對比原型重建結果,ProtoGCN能夠有效識別并增強相似動作的判別性表示。在不依賴復雜技巧的情況下,ProtoGCN在多個基準數據集(包括NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM)上均達到了最先進的性能,充分驗證了所提方法的有效性。
骨架及學習拓撲結構的示意圖。如圖中(a)和(c)所示,對于相似動作“書寫”和“鍵盤打字”,基線模型雖然能夠關注手部相關關節,但在揭示其獨特運動特征方面存在不足。相比之下,本文提出的圖原型重建機制能夠準確區分這兩個動作,這點從(b)和(d)所體現的顯著運動模式差異上得到了驗證。
23.在持續測試域自適應中維持類間拓撲一致性
Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation
論文作者:倪成功,呂凡,檀佳垚,胡伏原,姚睿,周濤
本文介紹了一種名為Topological Consistency Adaptation (TCA)的新型持續測試時自適應(CTTA)方法,旨在解決測試場景中領域偏移和錯誤累積的挑戰。TCA通過引入類拓撲一致性約束,確保在連續自適應過程中類間關系的穩定性,最小化類中心的失真并保持拓撲結構。此外,TCA還提出了一種類內緊湊性損失,以保持類內特征的緊湊性,間接支持類間穩定性。同時,引入了一種批不平衡拓撲加權機制,以考慮每個批次內類分布的不平衡,優化中心距離并穩定類間拓撲結構。實驗結果表明,TCA方法在處理連續領域偏移方面表現出色,能夠確保特征分布的穩定性,并顯著提高預測性能。在CIFAR-10-C、CIFAR-100-C和ImageNet-C三個基準任務上的廣泛實驗表明,TCA在平均錯誤率方面優于其他方法,分別將平均錯誤率降低到14.7%、29.7%和59.3%。這表明,保持平衡和穩定的類間拓撲以及類內特征的均勻性,可以有效緩解CTTA中的錯誤累積問題。
框架概述。TCA首先關注類間特征分布的均勻性,利用增強的偽標記預測來計算偽質心代理,從而使類間特征均勻化。隨后,TCA保持了類內特征的緊湊分布,從而減輕了類特征分布內的不平衡。最后,TCA根據詳細的歷史預測分布連續地維護類間質心的動態權重,從而保持類間潛在的拓撲關系。
24.超越背景偏移:重新思考持續語義分割中的實例重放
Beyond Background Shift: Rethinking Instance Replay in Continual Semantic Segmentation
論文作者:尹紅梅,馮廷亮,呂凡,尚凡華,劉紅英,馮偉,萬亮
在這項工作中,我們聚焦于持續語義分割(CSS)任務,其中分割網絡需要不斷學習新類別,同時避免遺忘已學類別的知識。盡管在分類任務中,存儲舊類別的圖像并將其直接納入新模型的訓練已被證明可以有效緩解災難性遺忘,但這一策略在 CSS 任務中存在顯著局限性。具體而言,存儲的圖像和新圖像通常只包含部分類別的標注,這可能導致未標注類別與背景混淆,從而增加模型擬合的難度。為了解決這一問題,本文提出了一種 EIR 方法,該方法不僅通過存儲舊類別的實例來保留舊知識,并同時消除背景混淆,還通過將存儲的實例與新圖像融合來緩解新數據中的背景偏移問題。通過有效解決存儲圖像和新圖像中的背景偏移,EIR 能夠顯著緩解 CSS 任務中的災難性遺忘,從而提升模型在 CSS 任務中的表現能力。實驗結果驗證了我們方法的有效性,EIR 方案在 CSS 任務上顯著優于當前最先進的方法。
圖1.傳統圖像重放方法與我們提出的重放方法的示意圖。(a) 該圖展示了存儲圖像中僅標注了舊類別 “horse”,而其他類別(新類別 “person” 和舊類別 “car”)被標注為背景。此外,新圖像中的舊類別(“horse”)以及未來類別也被標注為背景。(b) 我們的方法通過保留實例來避免存儲圖像中的混淆信息,并通過將這些實例融合到新圖像中來緩解背景偏移問題。
圖2.方法的詳細架構圖。首先,根據類別從舊數據中采樣實例。隨后,在類別組合階段,通過舊模型識別潛在的舊類別。在實例選擇階段,從實例池中選擇潛在類別的實例。之后,計算實例在新圖像中的放置位置,并將其與新圖像融合生成融合圖像。最后,對融合圖像進行增強訓練。
25.基于雙重語義引導的開放詞匯語義分割
Dual Semantic Guidance for Open Vocabulary Semantic Segmentation
論文作者:王正揚,馮廷亮,呂凡,尚凡華,馮偉,萬亮
開放詞匯語義分割旨在使模型能夠分割任意類別。目前,盡管像 CLIP 這樣的預訓練視覺語言模型(VLM)通過從大規模數據中學習匹配文本和圖像表示為該任務奠定了堅實的基礎,但它們缺乏像素級識別能力。大多數現有方法利用文本作為引導來實現像素級語義分割。然而,文本語義的固有偏差以及缺乏像素級監督信息難以有效微調基于 CLIP 的模型頗具挑戰性。本文考慮同時捕獲圖像和文本中包含的語義信息,構建雙重語義引導及相應的像素級偽標注。本文提出增強區域感知來正確捕捉視覺語義引導,并從文本中抓取名詞作為文本于一引導,聯合微調基于 CLIP 的分割模型,從而實現良好的細粒度識別能力。綜合評估表明,在八種常用數據集上,我們的方法大幅超越了最先進的成果。
圖1. 目前開放詞匯分割方法的不足以及我們雙重語義引導的示意圖。(a)該圖展示了僅依賴名詞會導致圖像表示在大類上收斂,存在語義偏差。(b) 該圖展示了先前方法使用圖像-文本匹配來監督分割的局限性,這類方法的會導致粗糙的分割,甚至是未分割的狗都被判定為分割完整。(c) 我們的方法從圖像-文本對中捕獲雙重語義引導,協同指導模型訓練。
圖2. 雙重語義引導生成階段的示意圖。(1)該圖的左部分展示了數據處理的流程,具體來說,我們通過SAM獲得實例集,并通過區域感知加強模塊提取實例特征,再經過聚類篩選獲得視覺語義引導與對應分割標簽。其次,我們提取文本中名詞,獲得文本語義引導。(2)該圖右部分展示了區域感知加強模塊。通過依據實例的掩碼改變注意力圖,加強對前景區域的感知。
26.打破線性注意力的低秩困境
Breaking the Low-rank Dilemma of Linear Attention
論文作者:樊齊航,黃懷波,赫然
Transformer 模型中的 Softmax 注意力機制因其 二次復雜度 而計算代價高昂,在視覺應用中面臨巨大挑戰。相比之下,線性注意力(Linear Attention) 通過將計算復雜度降低到線性水平,提供了一種更加高效的解決方案。然而,線性注意力通常比 Softmax 注意力表現更差。我們的實驗表明,這種性能下降主要源于 線性注意力輸出特征映射的低秩特性,導致其難以充分建模復雜的空間信息。
為了解決這一 低秩問題,我們從 KV 緩沖區 和 輸出特征 兩個角度對其秩進行了深入分析。基于此,我們提出了 Rank-Augmented Linear Attention(RALA),它在保持 線性復雜度和高效性 的同時,性能可與 Softmax 注意力相媲美。在 RALA 的基礎上,我們構建了 Rank-Augmented Vision Linear Transformer(RAVLT)。大量實驗表明,RAVLT 在多種視覺任務上均能取得出色的性能。
對比 Softmax 注意力 和不同 線性注意力 所輸出的特征圖。所有實驗均基于 DeiT-T 架構 進行,設 N = 196,d = 64,圖中矩陣的滿秩為 64。與 Softmax 注意力相比,各種線性注意力的輸出特征表現出明顯的 低秩特性,這表明線性注意力所學習到的特征多樣性 遠不及 Softmax 注意力。RALA解決了這一問題,有效提升了模型學習到特征的秩
27.邁向駕駛場景的自由視角仿真
FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes
論文作者:范略*,張淏*,王啟泰,李鴻升,張兆翔
我們提出了FreeSim,一種面向自動駕駛的相機模擬方法。FreeSim強調在記錄的自車軌跡之外的視角上實現高質量渲染。在此類視角下,由于缺乏訓練數據,以往方法存在不可接受的性能下降。為解決數據稀缺問題,我們首先提出了一種生成增強模型,并搭配匹配的數據構建策略。該模型能夠在略微偏離記錄軌跡的視角上生成高質量圖像,條件是該視角的降質渲染。隨后,我們提出了一種漸進式重建策略,從略微偏離軌跡的視角開始,逐步將未記錄視角的生成圖像加入重建過程,并逐步擴大偏離距離。通過這種漸進生成-重建流程,FreeSim支持在超過3米的大幅偏離下實現高質量的軌跡外視角合成。
FreeSim 方法使得大范圍相機偏移下仍然有著較高的保真度,支持自由視角的駕駛場景仿真。
28.靈活軌跡上的駕駛場景重建和渲染
FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering
論文作者:周靜秋*,范略*,黃林江,石曉宇,劉偲,張兆翔,李鴻升
利用3D高斯潑濺技術,駕駛場景重建和渲染取得了顯著進展。然而,先前的研究大多集中在預記錄車輛路徑上的渲染質量,難以推廣到路徑外的視角,這是由于缺乏這些視角的高質量監督。為解決這一問題,我們引入了逆視圖扭曲技術,生成緊湊且高質量的圖像作為路徑外視角重建的監督,從而實現這些視角的高質量渲染。為了準確且穩健地進行逆視圖扭曲,提出了一種深度引導策略,在優化過程中實時獲取密集深度圖,克服了LiDAR深度數據的稀疏性和不完整性。我們的方法在廣泛使用的Waymo Open數據集上實現了優異的路徑內和路徑外重建與渲染性能。此外,提出了一個基于模擬器的基準測試,以獲取路徑外的真實數據并定量評估路徑外渲染性能,我們的方法在此方面顯著優于以往方法。
FlexDrive方法可以在高速環境下模擬cut-in等行為,并保證視覺保真度。
29.R-TPT:通過測試時提示調整提高視覺語言模型的對抗魯棒性
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning
論文作者:生力軍,梁堅,王子磊,赫然
隨著CLIP等視覺語言模型作為基礎模型的廣泛應用,針對下游任務的微調方法層出不窮。然而,由于這些模型固有的脆弱性以及有限的開源選擇,視覺語言模型比傳統視覺模型面臨更高的對抗攻擊風險。現有的防御技術通常依賴于訓練期間的對抗性微調,這需要標注數據且難以跨任務泛化。為了解決這些局限性,我們提出了R-TPT方法,通過在推理階段減輕對抗攻擊的影響來增強模型的魯棒性。我們首先通過消除經典的邊際熵目標中對于對抗樣本沖突的損失項,僅保留點熵最小化。此外,我們引入了一種即插即用的基于可靠性的加權集成策略,該策略從可靠的增強視圖中聚合有用信息以加強防御。R-TPT方法在不需標注訓練數據的情況下增強了對對抗攻擊的防御能力,同時為推理任務提供了高度的靈活性。
R-TPT的方法流程示意圖
30.通過大語言模型對步態識別特征進行序列建模
Bridging Gait Recognition And Large Language Models Sequence Modeling
論文作者:楊少鵬*,王繼隆*,侯賽輝,劉旭,曹春水,王亮,黃永禎
步態序列展現出與自然語言相似的序列結構和上下文關系,其中每個元素——無論是單詞還是步態步驟——都與其前后元素相關聯。這種相似性使得步態序列可以轉化為包含身份信息的“文本”。大型語言模型(LLMs)旨在理解和生成序列數據,因此可以用于步態序列建模,以提升步態識別的性能。基于這些見解,我們首次嘗試將LLMs應用于步態識別,并將其稱為GaitLLM。我們提出了步態到語言模塊,將步態序列轉化為適合LLMs的文本格式,以及語言到步態模塊,將LLMs的輸出映射回步態特征空間,從而彌合LLM輸出與步態識別之間的差距。值得注意的是,GaitLLM利用LLMs強大的建模能力,而無需依賴復雜的架構設計,僅通過少量可訓練參數即可提升步態識別性能。我們的方法在四個流行的步態數據集上取得了最先進的結果,證明了LLMs在這一領域應用的有效性。
GaitLLM的概念示意圖
31.在多模態大型語言模型的安全對齊中我們是否真的需要精心挑選的惡意數據?
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?
論文作者:王彥博,關霽洋,梁堅,赫然
多模態大型語言模型 (MLLM) 取得了重大進展,但其安全性對齊仍然有限。通常,當前的樊齊航開源 MLLM 依靠從其語言模塊繼承的對齊來避免有害內容的生成。然而,缺乏專門為多模態輸入設計的安全措施會造成模態間的對齊差距,使 MLLM 容易受到視覺域攻擊,例如排版操縱攻擊。當前的安全對齊方法利用精心設計的安全數據集來增強模型防御能力,但仍不清楚模型從高質量數據集學到了什么具體的特定知識或模式。通過比較實驗,我們發現對齊差距主要源于數據分布偏差,而圖像內容、響應質量或數據集的對比行為對提高多模態安全性貢獻有限。為了進一步研究這一點并確定提高 MLLM 安全性的關鍵因素,我們建議在一小組良性的指令遵循數據上對 MLLM 進行微調,將響應替換為簡單、清晰的拒絕回答格式。實驗表明,無需耗費大量人力收集高質量惡意數據,只要微調集中存在特定比例的拒絕數據,模型安全性仍可得到顯著提升,這表明在多模態預訓練或指令微調期間,安全性對齊不會丟失,而僅僅會被掩蓋。只需糾正底層數據偏差,即可縮小視覺領域的安全差距。
研究流程示意圖
32.PhysVLM: 讓視覺語言模型理解機器人的物理可達性
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability
論文作者:周偉杰,陶滿禮,趙朝陽,郭海云,董宏輝,唐明,王金橋
大模型作為具身智能體決策的“大腦”,是實現現實世界中泛化操作的關鍵要素之一,但環境的視覺感知與物理空間約束的協同理解仍是實現可靠操作的主要挑戰。本研究提出首個機器人物理空間具身大模型——PhysVLM,有效整合了對環境的視覺理解和對具身智能體的物理空間約束感知,從而生成更加可行和可靠的動作決策。研究亮點體現為:
(1)具身空間-物理約束建模(S-P Map encoding)。將機器人物理空間約束轉化為可學習的視覺語義表征,使模型無需學習具體機械參數,即可實現跨機器人平臺的泛化能力。
(2)視覺-物理空間協同推理架構。PhysVLM創新性地采用雙分支特征編碼器設計,實現環境視覺語義與本體物理空間約束的特征交互,在保持通用視覺推理性能的同時,顯著增強對操作可行性的推理能力。
(3)具身物理空間多模態數據集Phys100K。包括6類工業機械臂、10萬組操作場景,涵蓋RGB圖像—可達物理空間圖(S-P Map)—具身物理問答三元組數據。配套開發的EQA-phys評估基準包含帶有4類工業機械臂的仿真環境和問答數據。
實驗結果表明,PhysVLM相較于GPT-4o實現了14%的性能提升;在通用具身推理任務中,超越RoboMamba等具身多模態大模型(+8.6%)。所提方法展現出優秀兼容性,與GPT-4o集成后,操作可行性判斷準確率提升7.1%。模型可準確識別機器人對物體的空間不可達性,并提出如“先利用地盤移動靠近目標再進行機械臂操作”等合理建議。
圖1.PhysVLM框架圖
圖2.機器人物理可達性理解任務展示
33.UniVAD: 面向小樣本視覺異常檢測的跨領域統一模型
UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection
論文作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋
視覺異常檢測旨在識別圖像中偏離正常模式的異常樣本,涵蓋工業、邏輯、醫療等多個領域。由于這些領域之間存在數據分布差異,現有的異常檢測方法通常需要針對每個特定領域量身定制,采用專門設計的檢測技術和模型架構,難以在不同領域之間泛化應用,這阻礙了異常檢測的跨領域統一。
為解決這一問題,我們提出了一種無需訓練的跨領域統一的小樣本異常檢測方法——UniVAD。UniVAD無需在特定領域數據上進行訓練,僅在測試階段提供少量正常樣本作為參考,即可檢測先前從未見過的物品類別中的異常。具體而言,UniVAD采用基于視覺基礎模型和聚類方法的上下文組件聚類(C3)模塊精確分割圖像中的組件,并利用組件感知補丁匹配(CAPM)和圖增強組件建模(GECM)模塊分別檢測圖像中不同語義層次的異常,從而實現跨領域統一異常檢測。
在涵蓋工業、邏輯、醫療領域的九個數據集上的實驗結果表明,UniVAD在多個領域的小樣本異常檢測任務中均實現了最先進的性能,優于特定領域的異常檢測模型。相關代碼已開源。
圖1. UniVAD 與現有異常檢測方法在 1-shot 場景下的性能對比
圖2.?UniVAD 整體結構圖
34.基于對話優化的跨模態對齊的對話式行人檢索
Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment
論文作者:白楊,季榆程,曹敏,王金橋,葉茫
傳統基于文本的行人檢索依賴單次輸入的文本描述作為查詢。然而,在實際場景中,難以確保該查詢能夠完全反映用戶的檢索意圖。為解決這一問題,我們提出了一種新的檢索范式——對話式行人檢索,通過交互式對話作為查詢,并結合對話上下文逐步優化查詢內容,從而實現更精準的行人檢索。然而,該任務面臨的首要挑戰是缺乏可用的對話-圖像配對數據。為此,我們構建了首個面向對話式行人檢索的數據集ChatPedes,該數據集利用大語言模型自動生成問題并模擬用戶響應,從而完成對話構建。此外,為了減少對話與圖像之間的模態差異,我們提出了一種對話優化的跨模態對齊框架,該框架通過兩個自適應屬性挖掘模塊,分別從對話和圖像中提取行人關鍵屬性,從而實現細粒度的跨模態對齊。同時,我們還設計了一種針對對話的數據增強策略——隨機輪次保留,以增強模型在不同對話長度下的泛化能力。
對話式行人檢索概述:對話構建(Dialogue Building)通過對話歷史生成后續問題,提示用戶逐步提供更多關于目標行人的信息,最終形成關于目標行人的對話查詢(Dialogue Query)。對話優化的跨模態對齊框架(DiaNA)旨在減少對話與圖像之間的模態差異,并利用可學習的屬性查詢提取關鍵信息,從而實現細粒度的跨模態對齊。
35.合成數據是持續視覺語言模型的一份優雅禮物
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
論文作者:吳彬,施武軒,王金橋,葉茫
預訓練視覺語言模型(VLM)需要通過持續學習來更新知識并適應多種下游任務。然而,在持續微調的過程中,VLM不僅容易遺忘歷史下游任務,還可能遺忘預訓練習得的通用知識,導致泛化能力退化。傳統方法依賴重放部分歷史數據來緩解遺忘,不適用于預訓練數據通常無法獲取的VLM。本文提出合成數據輔助的持續微調(GIFT),利用擴散模型重現VLM的預訓練和下游任務數據。我們設計了對比蒸餾損失和圖文對齊約束,通過匹配合成圖像和對應的文本提示,引導VLM在知識蒸餾中回顧習得的知識。此外,為了降低合成數據量有限帶來的過擬合風險并提升蒸餾效果,我們引入了自適應權重鞏固,基于合成圖像-文本對中的Fisher信息實現更好的穩定性-可塑性平衡。實驗結果表明,當提示詞分別由語義多樣的外部視覺概念和下游任務類別名構建時,擴散模型生成的圖像能夠有效近似VLM的預訓練和下游任務數據,從而有助于維持VLM在持續微調中的泛化能力并減輕災難性遺忘。
GIFT框架圖。子圖(a)為基于合成數據的蒸餾,通過對比蒸餾損失對齊當前模型和歷史模型在匹配合成圖像-文本對時的輸出,通過圖文對齊約束修正教師模型可能存在的錯誤。子圖(b)為自適應權重鞏固,使用合成圖像-文本對的Fisher信息加權L2約束,懲罰導致遺忘的參數更新。
36.運動感知的高效視頻多模態語言模型
Efficient Motion-Aware Video MLLM
論文作者:趙子嘉,霍宇琦,岳同天,郭龍騰,盧浩宇,王炳寧,陳煒鵬,劉靜
大多數當前的視頻多模態語言模型(MLLM)依賴于均勻幀采樣和圖像級編碼器,這導致了數據處理效率低下和有限的運動感知。為了解決這些問題,我們提出了EMA,一種高效的運動感知視頻多模態語言模型,利用壓縮視頻結構作為輸入。我們提出了一種運動感知GOP(圖像組)編碼器,它在壓縮視頻流中的GOP單元內融合空間和運動信息,生成緊湊且富有語義的視覺標記。通過在這種原生慢-快輸入架構中,將較少但密集的RGB幀與更多但稀疏的運動向量結合,我們的方法減少了冗余并增強了運動表示。此外,我們還引入了MotionBench,一個評估四種運動類型(線性、曲線、旋轉和基于接觸的)運動理解的基準。實驗結果表明,EMA在MotionBench和流行的視頻問答基準上均達到了最先進的性能,同時降低了推理成本。此外,EMA還表現出強大的可擴展性,在長視頻理解基準上也展現了具有競爭力的性能。
基于GOP編碼模式的高效理解架構
37.面向異步視頻生成的自回歸擴散生成方法
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion
論文作者:孫銘真,王衛寧,李根,劉佳偉,孫家輝,馮萬泉,勞珊珊,周思宇,何茜,劉靜
視頻生成的任務需要合成視覺上逼真且時間上連貫的視頻幀。現有的方法主要使用異步自回歸模型或同步擴散模型來解決這一挑戰。然而,異步自回歸模型通常存在誤差累積等問題,而同步擴散模型則受限于其對固定序列長度的依賴。為了解決這些問題,我們提出了一種新穎的模型——自回歸擴散模型(Auto-Regressive Diffusion, AR-Diffusion),它結合了自回歸模型和擴散模型的優勢,實現了靈活、異步的視頻生成。具體來說,我們的方法利用擴散過程在訓練和推理階段逐漸破壞視頻幀,從而減少這兩個階段之間的差異。受自回歸生成的啟發,我們在單個幀的破壞時間步上引入了非遞減約束,確保較早的幀比后續的幀保持更清晰的狀態。此外,我們設計了兩種專門的時間步調度器:FoPP調度器用于在訓練期間平衡時間步采樣,AD調度器用于在推理期間實現靈活的時間步差異,支持同步和異步生成。大量實驗證明了我們提出的方法的優越性,該方法在四個具有挑戰性的基準測試中取得了具有競爭力且領先的結果。
圖1.不同的生成模型表現的不同特性
圖2. AR-Diffusion的整體框架圖
來源:中國科學院自動化研究所