CVPR全稱為IEEE國際計算機視覺與模式識別會議,是計算機視覺領(lǐng)域三大頂級會議之一。CVPR 2024將在美國西雅圖舉辦。下文對自動化所在本屆會議上的錄用研究成果進(jìn)行簡要介紹。

1.?駛向未來:面向自動駕駛的多視圖預(yù)測與規(guī)劃的世界模型

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

論文作者:王宇琪,何嘉偉,范略,李鴻鑫,陳韞韜,張兆翔?

最近,世界模型的概念引發(fā)了廣泛關(guān)注。我們首次提出了一種名為Drive-WM的全新多視圖世界模型,旨在增強端到端自動駕駛規(guī)劃的安全性。Drive-WM模型通過多視圖世界模型,能夠想象不同規(guī)劃路線的未來情景,并根據(jù)視覺預(yù)測獲取相應(yīng)的獎懲反饋,從而優(yōu)化當(dāng)前的路線選擇,為自動駕駛系統(tǒng)的安全提供了保障。Drive-WM是與現(xiàn)有端到端規(guī)劃模型兼容的第一個駕駛世界模型。通過視圖因子分解促進(jìn)的聯(lián)合時空建模,我們的模型在駕駛場景中生成了高保真度的多視角視頻。在其強大的生成能力基礎(chǔ)上,我們首次展示了將世界模型應(yīng)用于安全駕駛規(guī)劃的潛力。對真實世界駕駛數(shù)據(jù)集的評估驗證了我們的方法可以生成高質(zhì)量、一致性和可控性的多視角視頻,為真實世界的模擬和安全規(guī)劃開辟了新的可能性。

1.自動駕駛世界模型

2.?基于多視圖世界模型的預(yù)測和規(guī)劃

論文鏈接:?https://arxiv.org/abs/2311.17918?

代碼鏈接:?https://github.com/BraveGroup/Drive-WM?

Project Page:?https://drive-wm.github.io?

2. PanoOcc:面向視覺三維全景分割任務(wù)的統(tǒng)一柵格占用表示

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation?

作者:王宇琪,陳韞韜,廖星宇,范略,張兆翔?

全面的三維場景感知對于自動駕駛和機器人領(lǐng)域至關(guān)重要?;谙鄼C的三維感知取得了迅速發(fā)展,但過去的任務(wù)如三維目標(biāo)檢測、地圖語義分割等,各自關(guān)注場景表示的某一方面,且表示方式不統(tǒng)一。我們希望能夠探索一種統(tǒng)一的場景表示,使其能統(tǒng)一表達(dá)這些任務(wù),并將背景和前景物體統(tǒng)一建模。目前基于鳥瞰圖特征的方法在三維目標(biāo)檢測上表現(xiàn)出色,但由于缺失了高度和形狀信息,直接應(yīng)用于三維場景感知任務(wù)時性能較差。這啟示需要探索適合三維場景的特征表示,這也使得三維的柵格占用表示重新受到關(guān)注。然而,與二維空間相比,三維空間更加稀疏,直接將二維鳥瞰圖特征擴展到三維體素表示將帶來巨大的顯存和計算開銷。本研究提出PanoOcc模型,將檢測和分割任務(wù)聯(lián)合學(xué)習(xí),統(tǒng)一了檢測和分割任務(wù)的輸出表示。為實現(xiàn)高效的特征學(xué)習(xí),我們設(shè)計了從粗到細(xì)的解碼層結(jié)構(gòu),并探索了稀疏表示的應(yīng)用。本研究進(jìn)行了大量消融研究以驗證有效性和效率,在基于相機的機的三維語義分割、全景分割和密集占用柵格預(yù)測等任務(wù)中都取得了最先進(jìn)性能。

. PanoOcc的整體模型設(shè)計

論文鏈接:?https://arxiv.org/abs/2306.10013?

代碼鏈接:?https://github.com/Robertwyq/PanoOcc

3.?基于可靠持續(xù)學(xué)習(xí)的失敗檢測

RCL: Reliable Continual Learning for Unified Failure Detection?

作者:朱飛,程真,張煦堯,劉成林,張兆翔?

深度神經(jīng)網(wǎng)絡(luò)往往對未知輸入過于自信,給實際應(yīng)用帶來了較大風(fēng)險。已有研究主要關(guān)注檢測來自未知類別的分布外樣本,而忽略了來自已知類別的錯分樣本。最近的研究發(fā)現(xiàn),分布外檢測方法往往對錯分檢測有害,表明這兩項任務(wù)之間似乎存在折中。本文研究了統(tǒng)一失敗檢測問題,即同時檢測錯分樣本和分布外樣本。我們發(fā)現(xiàn)對二者的學(xué)習(xí)目標(biāo)進(jìn)行聯(lián)合訓(xùn)練不足以獲得統(tǒng)一檢測的能力,而序列學(xué)習(xí)的模式有較大潛力。受此啟發(fā),本文提出了一種可靠的持續(xù)學(xué)習(xí)范式,使模型先具備錯分檢測的能力,然后在不降低已有可靠性的前提下通過持續(xù)學(xué)習(xí)提升模型的分布外檢測能力。實驗表明,該方法具有優(yōu)異的失敗檢測性能。

可靠持續(xù)學(xué)習(xí)示意圖

4.?基于偏振光融合優(yōu)化的深度測量增強方法

Robust Depth Enhancement via Polarization Prompt Fusion Tuning?

作者:池村敬,黃一鳴,菲利克斯·海德,張兆翔,陳啟峰,雷晨陽?

本文提出了一個利用偏振成像改進(jìn)各種深度傳感器不準(zhǔn)確深度測量的通用框架?,F(xiàn)有的深度傳感器在存在透明或反射物體的復(fù)雜場景中會提供不準(zhǔn)確的深度值,而此前基于偏振的深度增強方法主要利用純物理公式來處理單一傳感器的數(shù)據(jù)。相比之下,本文所提出的方法采用深度學(xué)習(xí),通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)從偏振數(shù)據(jù)和來自不同傳感器的傳感器深度圖來獲得更稠密準(zhǔn)確的深度圖。本文提出了一種稱為Polarization Prompt Fusion Tuning (PPFT)的策略,其利用在大規(guī)模RGB數(shù)據(jù)集上預(yù)訓(xùn)練的模型,在規(guī)模有限的偏振數(shù)據(jù)集上進(jìn)行融合增強,從而有效地訓(xùn)練出更強大的深度增強模型。本文在一個公共數(shù)據(jù)集上進(jìn)行了大量實驗證明,與現(xiàn)有的深度增強基準(zhǔn)方法相比,所提出的方法表現(xiàn)最佳。?

1.?圖中數(shù)據(jù)來自偏振相機以及d-ToF深度傳感器,本方法在具有挑戰(zhàn)性的深度增強問題上產(chǎn)生準(zhǔn)確的結(jié)果,包括深度補全、透明表面的深度修復(fù)、形狀校正等。如圖所示,透明水瓶處的深度被有效修復(fù)。

2.?本文所提出的偏振提示融合塊(PPFB)將偏振光信息作為額外視覺提示輸入,采用遞進(jìn)的方法依次融合到從預(yù)訓(xùn)練層提取的特征中。

 相關(guān)鏈接:?https://lastbasket.github.io/PPFT/?

5. MemoNav:?基于類人工作記憶的視覺導(dǎo)航智能體

MemoNav: Working Memory Model for Visual Navigation?

論文作者:李鴻鑫,王澤禹,楊旭,楊雨然,梅樹起,張兆翔?

人類導(dǎo)航至多目標(biāo)時,會回憶起與目標(biāo)相關(guān)的地點特征,忽視其他無關(guān)區(qū)域的記憶,并利用激活的這部分局部信息來快速規(guī)劃路線,無需重復(fù)探索。MemoNav借鑒人類這種工作記憶機制,結(jié)合短期記憶和長期記憶一起提升導(dǎo)航?jīng)Q策性能(圖1)。其引入了遺忘機制、長期記憶、和工作記憶三個協(xié)同組件:?

選擇性遺忘機制由于并非所有地圖結(jié)點都和導(dǎo)航目標(biāo)有關(guān),MemoNav提出利用目標(biāo)注意力機制,計算地圖結(jié)點和當(dāng)前目標(biāo)的注意力分?jǐn)?shù),然后暫時遺忘分?jǐn)?shù)較低即對導(dǎo)航幫助不大的偏遠(yuǎn)結(jié)點,被保留的則用于下游決策。?

長期記憶 為了習(xí)得場景的全局表征,智能體維護(hù)一個和所有短期記憶結(jié)點相連的全局結(jié)點作為長期記憶,不斷地通過圖注意力機制聚合短期記憶特征。?

工作記憶 利用一個圖注意力機制編碼保留的短期記憶和長期記憶,得到和當(dāng)前導(dǎo)航任務(wù)最相關(guān)的工作記憶,輸入給下游策略模塊以得到最終導(dǎo)航行為。?

GibsonMatterport3D場景中,該方法的多目標(biāo)導(dǎo)航性能大幅超越SoTA模型。定性實驗顯示其可以規(guī)劃更快捷的路徑,且死鎖概率更?。▓D2)。

1. MemoNav借鑒人腦工作記憶的導(dǎo)航模型。MemoNav通過注意力機制選擇與當(dāng)前導(dǎo)航目標(biāo)相關(guān)的短期記憶(即地圖結(jié)點)和長期記憶(即全局結(jié)點)一起生成工作記憶,用于下游決策。

2. MemoNav和現(xiàn)有其它方法的定性對比。

代碼鏈接:https://github.com/ZJULiHongxin/MemoNav?

論文鏈接:https://arxiv.org/abs/2402.19161?

6.?預(yù)訓(xùn)練視覺模型的連續(xù)遺忘

Continual Forgetting for Pre-trained Vision Models?

論文作者:趙宏博、尼博琳、樊峻菘、王玉璽、陳韞韜、孟高峰、張兆翔?

出于隱私和安全考慮,如今變得越來越明顯的是,需要從預(yù)訓(xùn)練的視覺模型中擦除不需要的信息。在現(xiàn)實世界場景中,用戶和模型擁有者可以隨時提出擦除請求。這些請求通常形成一個序列。因此,在這樣的設(shè)置下,期望從預(yù)訓(xùn)練模型中連續(xù)移除選定信息,同時保留其余信息。我們將這個問題定義為持續(xù)遺忘,并確定了兩個關(guān)鍵挑戰(zhàn)。(i)?對于不需要的知識,有效且高效的刪除至關(guān)重要。(ii)?對于剩余的知識,遺忘過程帶來的影響應(yīng)盡可能小。為了解決這些問題,我們提出了群稀疏LoRAGS-LoRA)。具體來說,針對(i),我們使用LoRA模塊獨立地對Transformer塊中的FFN層進(jìn)行微調(diào),以應(yīng)對每個遺忘任務(wù),并針對(ii),采用了簡單的組稀疏正則化,實現(xiàn)了特定LoRA群組的自動選擇并將其他群歸零。GS-LoRA有效、參數(shù)高效、數(shù)據(jù)高效且易于實現(xiàn)。我們在人臉識別、目標(biāo)檢測和圖像分類上進(jìn)行了廣泛實驗,并展示了GS-LoRA能夠在對其他類別影響最小的情況下忘記特定類別。?

1.?連續(xù)遺忘

2. GS-LoRA管線示意圖

論文鏈接:arxiv.org/pdf/2403.11530.pdf?

代碼鏈接:https://github.com/bjzhb666/GS-LoRA?

7.?通過語言引導(dǎo)監(jiān)督加強視覺連續(xù)學(xué)習(xí)

Enhancing Visual Continual Learning with Language-Guided Supervision?

論文作者:尼博琳、趙宏博、張承灝、胡珂、孟高峰、張兆翔、向世明?

連續(xù)學(xué)習(xí)旨在使模型能夠在不忘記先前獲得的知識的情況下學(xué)習(xí)新的任務(wù)。當(dāng)前的工作往往集中在網(wǎng)絡(luò)結(jié)構(gòu)、回放數(shù)據(jù)和正則化等技術(shù)。然而,數(shù)據(jù)類別標(biāo)簽中的語義信息在很大程度上被忽略了。當(dāng)前的方法往往使用獨熱標(biāo)簽,每個任務(wù)獨立學(xué)習(xí)分類頭。我們認(rèn)為,獨熱標(biāo)簽無法捕捉連續(xù)學(xué)習(xí)場景下不同類別跨任務(wù)的語義關(guān)系,阻礙了知識在任務(wù)間的有效轉(zhuǎn)移。在本工作中,我們重新審視了分類頭在連續(xù)學(xué)習(xí)場景中的作用,并用來自預(yù)訓(xùn)練語言模型的語義知識取代了隨機初始化的分類頭。具體來說,我們使用預(yù)訓(xùn)練語言模型為每個類別生成語義目標(biāo),這些目標(biāo)在訓(xùn)練期間被凍結(jié)作為監(jiān)督信號。這些目標(biāo)充分考慮了跨任務(wù)的所有類之間的語義相關(guān)性。實證研究表明,我們的方法通過減輕表征漂移和促進(jìn)跨任務(wù)的知識轉(zhuǎn)移來減輕遺忘。所提出的方法易于實現(xiàn),并且可以無縫地插入到現(xiàn)有方法中。

1. LingoCL示意圖及效果

8. HardMo:一個大規(guī)模難例動作捕捉數(shù)據(jù)集?

HardMo: A Large-Scale Hardcase Dataset for Motion Capture?

論文作者:廖佳琪,羅傳琛,杜伊諾,王玉璽,殷緒成,張曼,張兆翔,彭君然?

本文介紹了一個大規(guī)模的難例動作捕捉數(shù)據(jù)集——HardMo,旨在彌補現(xiàn)有人體mesh恢復(fù)方法(HMR)在處理舞蹈和武術(shù)等場景中不常見姿勢的不足。由于這些領(lǐng)域的動作具有高速度和高張力特征,而現(xiàn)有數(shù)據(jù)集大多聚焦于日常動作,缺乏這類復(fù)雜動作的樣本,導(dǎo)致模型難以有效處理舞蹈和武術(shù)場景。為此,我們提出了一套數(shù)據(jù)收集流程,包括自動爬取、精確標(biāo)注和難例挖掘,基于此流程快速建立了包含700萬張圖片的大型數(shù)據(jù)集HardMo。這些圖片覆蓋了15類舞蹈和14類武術(shù),每張圖片都配有精確的標(biāo)注。實驗發(fā)現(xiàn),舞蹈和武術(shù)中的預(yù)測失敗主要表現(xiàn)在手腕和腳踝的不對齊上。此外針對這兩個難點,我們利用提出的自動化流程篩選出相關(guān)數(shù)據(jù),構(gòu)建了名為HardMo-HandHardMo-Foot的子集。廣泛的實驗表明,我們的標(biāo)注流程和數(shù)據(jù)驅(qū)動解決方案的有效性。特別是,經(jīng)HardMo訓(xùn)練后的HMR方法甚至在我們的基準(zhǔn)測試上超過了當(dāng)前的最先進(jìn)技術(shù)4DHumans。

1. HardMo?數(shù)據(jù)集概覽

2.?自動化標(biāo)注流程

9.?屬性引導(dǎo)的行人檢索:跨越行人重識別中的內(nèi)在屬性變化?

Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute Variability?

論文作者:黃延、張彰、吳強、鐘怡、王亮?

在智能監(jiān)控領(lǐng)域中,行人檢索(重識別)技術(shù),扮演著至關(guān)重要的角色。目前的Re-ID方法常常忽略對行人細(xì)微屬性變化所導(dǎo)致的外觀變化顯式建模。針對這一問題,我們的研究提出了視覺屬性引導(dǎo)的行人檢索(AGPR)任務(wù),旨在通過對特定人體屬性查詢條件與查詢圖像的整合來提高行人檢索準(zhǔn)確性。我們提出的基于ViT屬性引導(dǎo)的行人檢索(ATPR)框架通過對行人屬性組間相關(guān)性和屬性組內(nèi)去相關(guān)性建立正則化項,有效地融合了全局行人ID識別與局部屬性學(xué)習(xí)。我們基于RAP行人屬性數(shù)據(jù)集構(gòu)建了新的AGPR任務(wù)基準(zhǔn),并進(jìn)行了廣泛實驗,結(jié)果驗證了我們提出的ATPR方法在AGPR任務(wù)中的有效性。?

.?視覺屬性引導(dǎo)的行人檢索(AGPR)示意圖

10.?調(diào)查視覺-語言模型在視覺定位任務(wù)上的組合關(guān)系挑戰(zhàn)?

Investigating Compositional Challenges in Vision-Language Models for Visual Grounding?

論文作者:曾宇楠,黃巖,張津津,揭澤群,柴振華,王亮?

預(yù)訓(xùn)練的視覺-語言模型(VLMs)在各種下游任務(wù)中取得了高性能,這些模型已被廣泛應(yīng)用于視覺定位任務(wù)。然而,盡管大規(guī)模的視覺和語言預(yù)訓(xùn)練貢獻(xiàn)了性能提升,我們發(fā)現(xiàn)最先進(jìn)的VLMs在定位任務(wù)的組合推理上存在困難。為了證明這一點,我們提出了屬性、關(guān)系和主次定位(ARPGrounding)基準(zhǔn)測試,以測試VLMs在視覺定位任務(wù)中的組合推理能力。ARPGrounding包含11,425個樣本,并從三個維度評估VLMs的組合理解能力:1)屬性,測試對目標(biāo)屬性的理解;2)關(guān)系,測試對目標(biāo)之間關(guān)系的理解;3)主次,反映了與名詞相關(guān)的詞性的意識。使用ARPGrounding基準(zhǔn)測試,我們評估了幾種主流的VLMs。實驗結(jié)果表明,這些模型在傳統(tǒng)的視覺定位數(shù)據(jù)集上表現(xiàn)相當(dāng)好,達(dá)到或超過了最先進(jìn)方法的性能,然而在組合推理上顯示出明顯的不足。更進(jìn)一步,我們提出了組合關(guān)系感知的微調(diào)流程,展示了利用低成本的圖像-文本標(biāo)注來增強VLMs在定位任務(wù)中的組合理解能力的潛力。

.?在視覺定位任務(wù)中測試CLIP的組合關(guān)系理解的例子。CLIP在辨別真實目標(biāo)和欺騙性目標(biāo)時遇到挑戰(zhàn)。(左)CLIP被一只不同顏色的狗誤導(dǎo)。(右)CLIP被短語中的另一個目標(biāo)誤導(dǎo)。這兩個例子都表明CLIP對組合結(jié)構(gòu)的把握存在不足。

11.?多模態(tài)提示感知器:為多功能圖像復(fù)原賦能自適應(yīng)性、泛化性和保真度?

Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration?

論文作者:艾雨昂,黃懷波,周曉強,王杰翔,赫然?

本文介紹了一種名為MPerceiver的多模態(tài)提示學(xué)習(xí)方法,旨在解決多功能圖像復(fù)原中面臨的復(fù)雜真實場景退化問題。MPerceiver通過利用Stable Diffusion中的先驗知識來增強自適應(yīng)性、泛化性和保真度。具體來說,本文提出了一個雙分支模塊提供多模態(tài)提示:文本提示用于整體表征,而視覺提示用于多尺度細(xì)節(jié)表征。這兩種提示通過CLIP圖像編碼器的退化預(yù)測動態(tài)調(diào)整,能夠適應(yīng)各種未知的退化情況。此外,MPerceiver采用了一個插件式細(xì)節(jié)精煉模塊,通過編碼器到解碼器的信息跳連,改善了圖像復(fù)原的保真度。MPerceiver9個圖像復(fù)原任務(wù)中進(jìn)行了訓(xùn)練,并且在許多任務(wù)中甚至超越了最先進(jìn)的特定任務(wù)方法。在多任務(wù)預(yù)訓(xùn)練之后,MPerceiver學(xué)習(xí)到了底層視覺的通用表征,展現(xiàn)了強大的Zero-ShotFew-Shot能力。在16個復(fù)原任務(wù)上的實驗證明了MPerceiver在自適應(yīng)性、泛化性和保真度方面的優(yōu)越性。

. MPerceiver雙分支結(jié)構(gòu)

 論文鏈接:https://arxiv.org/abs/2312.02918

12.?基于小波增強Transformer和不確定性感知的無源自適應(yīng)圖像超分辨率?

Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer?

論文作者:艾雨昂,周曉強,黃懷波,張磊,赫然?

無監(jiān)督領(lǐng)域適應(yīng)能夠通過同時訪問源數(shù)據(jù)和目標(biāo)數(shù)據(jù),有效地解決真實場景圖像超分辨率中的域差異問題??紤]到實際場景中源數(shù)據(jù)的隱私政策或傳輸限制,本文提出了一種無源領(lǐng)域自適應(yīng)框架SODA-SR用于圖像超分辨率。SODA-SR利用源訓(xùn)練模型生成精細(xì)化的偽標(biāo)簽,用于師生學(xué)習(xí)。為了更好地利用偽標(biāo)簽,本文提出了一種新穎的基于小波的增強方法,名為小波增強Transformer,它可以靈活地結(jié)合現(xiàn)有網(wǎng)絡(luò),隱式地產(chǎn)生有用的增強數(shù)據(jù)。此外,本文提出了一種不確定性感知的自訓(xùn)練機制,以提高偽標(biāo)簽的準(zhǔn)確性,不準(zhǔn)確的預(yù)測將通過不確定性估計得到糾正。實驗表明,即使不訪問源數(shù)據(jù),SODA-SR也在多種設(shè)置中超越最先進(jìn)的UDA方法,并且不受特定網(wǎng)絡(luò)架構(gòu)的限制。?

. SODA-SR結(jié)構(gòu)

論文鏈接:https://arxiv.org/abs/2303.17783

13. RMTRetentive Network遇上Vision Transformer?

RMT: Retentive Networks Meet Vision Transformers?

論文作者:樊齊航,黃懷波,陳銘銳,劉紅敏,赫然?

最近,Retentive NetworkRetNet)作為一種有可能取代Transformer的架構(gòu)出現(xiàn),引起了自然語言處理社區(qū)的廣泛關(guān)注。作者將RetNet的思想遷移到視覺領(lǐng)域并將RetNetTransformer結(jié)合起來,提出了RMT。受RetNet啟發(fā),RMT在視覺Backbone中引入了顯式衰減,將與空間距離相關(guān)的先驗知識引入到視覺模型中。這種與距離相關(guān)的空間先驗允許顯式控制每個Token可以關(guān)注的Token范圍。此外,為了降低全局建模的計算成本,作者沿圖像的兩個坐標(biāo)軸分解了這個建模過程。大量的實驗表明,RMT在各種計算機視覺任務(wù)如分類、目標(biāo)檢測、實例分割和語義分割等中表現(xiàn)出色。

. RMT示意圖

論文鏈接:https://arxiv.org/abs/2309.11523?

代碼鏈接:https://github.com/qhfan/RMT?

14.?面向測試過程檢測及修復(fù)的神經(jīng)后門防御?

Backdoor Defense via Test-Time Detecting and Repairing?

論文作者:關(guān)霽洋,梁堅,赫然?

針對神經(jīng)后門防御問題,之前的工作主要在模型部署之前使用干凈樣本來去除模型神經(jīng)后門,而本文研究了利用部分污染的模型測試數(shù)據(jù)從模型中去除神經(jīng)后門,并提出了一種兩階段的神經(jīng)后門防御方法。在第一階段,本文提出了一種后門樣本檢測方法DDP,它從一批混合的部分投毒數(shù)據(jù)中識別出后門樣本,其后,本文使用夏普利值估計定位并去除模型中的神經(jīng)后門。我們的的方法TTBD在多種網(wǎng)絡(luò)結(jié)構(gòu)下針對多種不同的神經(jīng)后門攻擊,均取得了良好的神經(jīng)后門防御效果。


15. MoPE-CLIP:使用模塊化剪枝誤差度量的高效視覺-語言模型結(jié)構(gòu)化剪枝方法?

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric?

論文作者:林浩坤,柏昊立,劉智立,侯璐,孫沐毅,宋林琦,魏穎,孫哲南?

本文探索了多種多模態(tài)視覺語言預(yù)訓(xùn)練模型(如CLIP)的小型化方案,研究發(fā)現(xiàn)直接使用較小的預(yù)訓(xùn)練模型或應(yīng)用基于權(quán)重大小的剪枝,往往導(dǎo)致靈活性不足和性能不佳。針對上述挑戰(zhàn),我們提出了一種新穎的模塊化剪枝誤差(MoPE)度量方法,旨在精確評估CLIP模塊在跨模態(tài)任務(wù)中的重要性。利用MoPE度量,我們進(jìn)一步提出適用于預(yù)訓(xùn)練和特定任務(wù)微調(diào)兩個壓縮階段的剪枝框架,同時設(shè)計了更高效的知識蒸餾損失函數(shù)。在預(yù)訓(xùn)練階段,MoPE-CLIP利用教師模型的知識,顯著減少了預(yù)訓(xùn)練成本,并保持CLIP模型強大的零樣本能力。在微調(diào)階段,通過先寬度剪枝再深度剪枝的方式,我們能夠在特定任務(wù)上產(chǎn)生性能強大的專用模型。我們通過兩個階段的廣泛實驗驗證了MoPE度量的有效性,?MoPE-CLIP超越了之前最先進(jìn)的多模型模型剪枝方案,與先前采用單一模態(tài)剪枝度量或涉及昂貴的可學(xué)習(xí)掩模搜索過程的方法相比,我們的方法不僅提高了性能,而且提供了一種更靈活、成本效益更高的解決方案。

  論文鏈接:https://arxiv.org/abs/2403.07839

16. SfmCAD:基于草圖+特征建模的無監(jiān)督CAD重建?

SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations?

論文作者:李樸,郭建偉,李慧斌,Bedrich Benes,嚴(yán)冬明?

SfmCAD通過學(xué)習(xí)現(xiàn)代CAD工作流中基于草圖的特征建模操作來重構(gòu)三維形狀。給定一個體素形式表示的三維形狀,SfmCAD能夠無監(jiān)督地學(xué)習(xí)一種草圖+路徑參數(shù)化表示方法,包括形狀部件的二維草圖及其三維掃掠路徑。SfmCAD利用二維草圖來表達(dá)局部幾何細(xì)節(jié),并通過三維路徑捕捉整體結(jié)構(gòu),實現(xiàn)了形狀細(xì)節(jié)與結(jié)構(gòu)之間的解耦。這種轉(zhuǎn)化為參數(shù)化形式的方法不僅增強了模型的可解釋性,還提高了輸出結(jié)果的可編輯性,使用戶能夠方便地編輯形狀的幾何和結(jié)構(gòu)特征。我們通過將SfmCAD應(yīng)用于各種不同類型的對象,如CAD部件、ShapeNet形狀和樹干結(jié)構(gòu),展示了我們方法的有效性。

.?草圖+特征CAD重建結(jié)果示意圖

17. SVDTree:基于語義體素擴散模型的單張圖像樹木三維重建?

SVDTree: Semantic Voxel Diffusion for Single Image Tree Reconstruction?

論文作者:李源、劉志浩、Bedrich Benes、張曉鵬、郭建偉?

高效地表示和重建樹木的三維幾何仍然是計算機視覺和圖形領(lǐng)域中的一個極具挑戰(zhàn)性的問題。本研究提出了一種新穎的方法,用于從單個視角的照片生成逼真的樹木三維模型。本研究將三維信息推理問題轉(zhuǎn)化為語義體素擴散過程,該過程將樹木的輸入圖像轉(zhuǎn)換為三維空間中的新穎語義體素結(jié)構(gòu)(SVS)。SVS編碼了幾何外觀和語義結(jié)構(gòu)信息(例如樹干、樹枝和樹葉),從而保留了復(fù)雜的樹木內(nèi)部特征。針對SVS,本研究提出了一種新的混合樹木建模方法,SVDTree,包括面向結(jié)構(gòu)的樹干重建和基于自組織的樹冠重建兩部分。本研究使用合成和真實樹木的圖像對SVDTree進(jìn)行了算法驗證和對比,結(jié)果表明,本研究方法能夠更好地保留樹木細(xì)節(jié),并實現(xiàn)了更為逼真和準(zhǔn)確的重建結(jié)果。

. SVDTree用于單張圖像樹木三維重建。給定一張帶掩碼的圖像,SVDTree使用擴散模型自動推斷出樹木的語義體素結(jié)構(gòu),并通過一個混合幾何重建算法,生成具有高視覺保真度的三維樹木模型。

18. UnionFormer:?用于圖像篡改檢測和定位的多視角表征聯(lián)合學(xué)習(xí)Transformer模型?

UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization?

論文作者:李帥伯、馬偉、郭建偉、徐世彪、李本沖、張曉鵬?

本研究提出了UnionFormer,一種針對圖像篡改檢測與定位的新穎Transformer框架,它采用聯(lián)合學(xué)習(xí)機制,整合了三個不同視角的篡改信息,以準(zhǔn)確判別真?zhèn)螆D像。在該研究中,我們設(shè)計了能夠從RGB視角和噪聲視角交互提取篡改表征的BSFI-Net,其不僅對邊界處的異常痕跡有著敏感的響應(yīng),而且能夠建模多尺度的空間連續(xù)性。此外,本研究引入圖像內(nèi)不同目標(biāo)間的不一致性作為全新的判別視角,并將其構(gòu)建過程與檢測、定位任務(wù)融合于一個統(tǒng)一的三任務(wù)聯(lián)合學(xué)習(xí)架構(gòu)中,從而實現(xiàn)不同任務(wù)間的相互促進(jìn)。由此,本研究提出的模型在多重監(jiān)督下,成功學(xué)習(xí)并整合三個視角的篡改判別特征,實現(xiàn)了高性能的同步檢測與定位。實驗結(jié)果表明,與先前的方法相比,本研究方法對多種類型的圖像篡改具有更高的檢測與定位準(zhǔn)確率。

. UnionFormer?整體框架。本方法通過BSFI-Net獲取RGB視角和噪聲視角下的篡改痕跡特征,并基于兩者在聯(lián)合學(xué)習(xí)中構(gòu)建對象視角的表征。三個視角的信息被交互融合為統(tǒng)一的篡改判別表征?UMDR,用于同步檢測與定位。每種視角由不同顏色表示。

19.?面向開放集測試階段自適應(yīng)的統(tǒng)一熵優(yōu)化方法?

Unified Entropy Optimization for Open-Set Test-Time Adaptation?

論文作者:高正清、張煦堯、劉成林?

測試階段自適應(yīng)(Test-time adaptation,TTA)旨在將一個在標(biāo)記源域上預(yù)訓(xùn)練的模型適應(yīng)到未標(biāo)記的目標(biāo)域。現(xiàn)有方法通常專注于在協(xié)變量偏移下改善TTA性能,而忽略了語義偏移。在這篇論文中,我們探索了一種更加符合實際的開放集TTA場景,其中目標(biāo)域可能包含來自未知類別的樣本。許多現(xiàn)有的封閉集TTA方法在應(yīng)用于開放集場景時表現(xiàn)不佳,這可以歸因于對數(shù)據(jù)分布和模型置信度的不準(zhǔn)確估計。為了解決這些問題,我們提出了一個簡單有效的框架,稱為統(tǒng)一熵優(yōu)化(Unified Entropy Optimization,UniEnt),它能夠同時適應(yīng)協(xié)變量偏移的分布內(nèi)(csID)數(shù)據(jù)和檢測協(xié)變量偏移的分布外(csOOD)數(shù)據(jù)。具體來說,UniEnt首先從測試數(shù)據(jù)中挖掘出偽csID和偽csOOD樣本,隨后對偽csID數(shù)據(jù)進(jìn)行熵最小化處理,以及對偽csOOD數(shù)據(jù)進(jìn)行熵最大化處理。此外,我們引入了UniEnt+以利用樣本級置信度減輕硬數(shù)據(jù)劃分造成的噪聲。在CIFAR基準(zhǔn)和Tiny-ImageNet-C上的廣泛實驗顯示了我們框架的優(yōu)越性。?

.統(tǒng)一熵優(yōu)化框架說明

20.?主動廣義類別發(fā)現(xiàn)?

Active Generalized Category Discovery?

論文作者:馬時杰、朱飛、鐘準(zhǔn)、張煦堯、劉成林?

廣義類別發(fā)現(xiàn)是一項現(xiàn)實且具有挑戰(zhàn)性的開放環(huán)境任務(wù),其目標(biāo)是利用部分有標(biāo)記的舊類別樣本,對同時含有新類別和舊類別的無標(biāo)簽數(shù)據(jù)進(jìn)行分類(聚類)。由于從舊類別中學(xué)到的知識不能完全遷移到新類中,并且新類完全未標(biāo)記,這個任務(wù)存在固有的問題,包括:新舊類別之間分類性能不均衡、模型對新舊類別置信度分布不一致,特別是在標(biāo)簽很少的條件下。因此,對于新類的標(biāo)注是很有必要的。然而,標(biāo)記新類的成本極其高昂。為了解決這個問題,我們借鑒主動學(xué)習(xí)的思想,提出了一個新任務(wù):主動廣義類別發(fā)現(xiàn)。其目標(biāo)是通過主動從無標(biāo)注樣本中選擇有限數(shù)量的有價值樣本進(jìn)行標(biāo)記,來提高新舊類的分類性能。為了解決這個問題,我們設(shè)計了一種自適應(yīng)采樣策略,考慮樣本的新穎性、信息量和多樣性,以自適應(yīng)地選擇具有適當(dāng)不確定性的潛在新類樣本。然而,由于新類發(fā)現(xiàn)本質(zhì)是聚類問題,這會導(dǎo)致模型預(yù)測和ground truth標(biāo)簽索引的排序不同,查詢的標(biāo)簽不能直接應(yīng)用于后續(xù)訓(xùn)練。為了克服這個問題,我們進(jìn)一步提出了一種穩(wěn)定的標(biāo)簽映射算法,將真實標(biāo)簽轉(zhuǎn)換到模型的標(biāo)簽空間,從而確保不同主動學(xué)習(xí)階段的一致訓(xùn)練。我們的方法在通用和細(xì)粒度數(shù)據(jù)集上都實現(xiàn)了最先進(jìn)的性能。

圖.主動廣義類別發(fā)現(xiàn)與相關(guān)任務(wù)的區(qū)別

論文鏈接:https://arxiv.org/abs/2403.04272?

代碼鏈接:https://github.com/mashijie1028/ActiveGCD

21.?模態(tài)協(xié)同測試時自適應(yīng)動作識別?

Modality-Collaborative Test-Time Adaptation for Action Recognition?

論文作者:熊寶琛、楊小汕、宋亞光、王耀威、徐常勝?

基于視頻的無監(jiān)督域自適應(yīng)方法提高了視頻模型的泛化程度,使其能夠應(yīng)用于不同環(huán)境下的動作識別任務(wù)。然而,這些方法需要在適配過程中持續(xù)訪問源數(shù)據(jù),這在源視頻不可用的真實場景中是不切實際的,因為存在傳輸效率或隱私問題的問題。為了解決這個問題,本文重點介紹了多模態(tài)視頻測試時自適應(yīng)(MVTTA)任務(wù)?,F(xiàn)有的基于圖像的TTA方法無法直接應(yīng)用于這項任務(wù),因為視頻在多模態(tài)和時序上存在域偏移,這帶來了新的困難。為了應(yīng)對上述挑戰(zhàn),我們提出了一個模態(tài)協(xié)同測試時間適應(yīng)(MC-TTA)網(wǎng)絡(luò)。MC-TTA包含分別用于生成偽原型和目標(biāo)原型的教師和學(xué)生記憶庫。在教師模型中,我們提出了自組裝源友好特征重建模塊(SSFR),以鼓勵教師記憶庫存儲更有可能與源分布一致的特征。通過多模態(tài)原型對齊和跨模態(tài)相對一致性,我們的方法可以有效緩解視頻中的域差異。

1?僅有預(yù)訓(xùn)練后的源模型和未標(biāo)記的目標(biāo)視頻才能用于目標(biāo)模型學(xué)習(xí)。我們提出自組裝源友好型特征重構(gòu)?(SSFR)?模塊,以構(gòu)建來自目標(biāo)域的偽源域特征。此外,通過模態(tài)協(xié)同可以保持易受域偏移影響模態(tài)的判別性。

2?模態(tài)協(xié)同測試時間適應(yīng)(MC-TTA)網(wǎng)絡(luò)

22.?如何讓交互編碼器成為高效圖文檢索的良師??

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval??

論文作者:陳禹昕、馬宗揚、張子琦、祁仲昂、原春鋒、李兵、蒲俊福、單瀛、齊曉娟、胡衛(wèi)明?

針對雙流預(yù)訓(xùn)練結(jié)構(gòu)簡單,難以建模豐富圖文關(guān)聯(lián)知識的問題,本文提出了一種基于對比式局部排序蒸餾的圖像文本預(yù)訓(xùn)練方法。預(yù)訓(xùn)練蒸餾方法通常使用具有高匹配精度的單流模型作為教師模型,在預(yù)訓(xùn)練的過程中指導(dǎo)計算高效的雙流模型對豐富圖文知識的學(xué)習(xí)?,F(xiàn)有方法通常采用基于相似度分布蒸餾的方式,然而由于單流模型與雙流模型之間的相似度分布差異極大,這種方法難以有效實現(xiàn)知識傳遞。本文采用了一種排序蒸餾的方法,將單流模型對于不同圖像文本對的相似度排序作為知識監(jiān)督,要求雙流模型對這些圖文對的相似度排序與單流模型保持一致。同時,本文通過分析及實驗發(fā)現(xiàn),只有難負(fù)樣本對之間的相對順序包含有效的知識,并且蒸餾損失需要與圖文對比學(xué)習(xí)損失保持協(xié)調(diào)以免產(chǎn)生干擾。因此,本文專注于蒸餾難負(fù)樣本之間的相對順序,忽略簡單負(fù)樣本的排序,并通過對比學(xué)習(xí)的方式實現(xiàn)知識蒸餾目標(biāo),實現(xiàn)了知識的有效傳遞。實驗結(jié)果表明,本文方法在兩個公開圖像文本檢索數(shù)據(jù)集MSCOCOFlickr30K,以及圖像文本匹配數(shù)據(jù)集CrissCrossed Captions數(shù)據(jù)集上有效提高了雙流模型的圖文檢索和匹配精度,超越了同期的蒸餾方法。

1.a)雙流編碼器與交互編碼器的相似度分?jǐn)?shù)分布。(b)不同蒸餾方法的蒸餾目標(biāo)及學(xué)生模型輸出結(jié)果。對于局部排序蒸餾,簡單樣本之間的相對順序被忽略。

圖2.?對比式局部排序蒸餾方法示意圖。左側(cè)展示了整體訓(xùn)練流程。右側(cè)展示了圖文對齊和對比式局部排序蒸餾的詳細(xì)計算流程。

23.?類別感知提示學(xué)習(xí)?

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model?

論文作者:姚涵濤、張蕊、徐常勝?

為了有效的遷移視覺語言模型中包含的百科知識到下游任務(wù),提示學(xué)習(xí)(Prompt Tuning)被廣泛用于新知識的學(xué)習(xí)。在CLIP中,固定的模板(a photo of {})被用來建模類別的文本空間描述并用于預(yù)測。不同于CLIP,基于提示學(xué)習(xí)的文本優(yōu)化近來被用于建模新數(shù)據(jù)的有效類別特征空間。但是,目前的提示學(xué)習(xí)算法可以概括為域共享的提示學(xué)習(xí)和圖像感知的提示學(xué)習(xí),但是這些提示學(xué)習(xí)算法的文本優(yōu)化器會過擬合于訓(xùn)練域而在未知測試域上具有較差的性能。為了進(jìn)一步提升文本編碼器生成的分類器的辨別能力和泛化能力,我們提出了類感知提示學(xué)習(xí)(1)。由于預(yù)訓(xùn)練生成的類別特征具有一定的辨別能力,通過在預(yù)訓(xùn)練模型中顯式的插入包含類別先驗的基于類別特征生成的類別感知提示模板提升的提示學(xué)習(xí)的泛化性和辨別性。在一系列的數(shù)據(jù)集上驗證了類別感知提示學(xué)習(xí)在零樣本學(xué)習(xí)、域泛化學(xué)習(xí)和小樣本學(xué)習(xí)等任務(wù)上都取得了很好的性能。另外我們提出的類別感知提示模塊具有很好的即插即用性,可以簡單高效地融合于提示學(xué)習(xí)算法。


圖.?類別感知提示學(xué)習(xí)的框架

論文鏈接:https://arxiv.org/abs/2311.18231?

代碼鏈接:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning

24.?用于?3D?半監(jiān)督物體檢測的非對稱網(wǎng)絡(luò)?

A-Teacher: Asymmetric Network for 3D Semi-Supervised Object Detection?

論文作者:王漢石、張志鵬、胡衛(wèi)明、高晉?

本文提出了首個基于LiDAR3D對象檢測的在線非對稱半監(jiān)督框架,即A-Teacher。本文的動機來源于觀察到現(xiàn)有的對稱教師-學(xué)生方法雖簡單,但由于要求模型結(jié)構(gòu)和輸入數(shù)據(jù)格式相同,限制了教師與學(xué)生之間的知識傳遞效率。與之相反,復(fù)雜的離線非對稱方法能生成更精確的偽標(biāo)簽,但共同優(yōu)化教師和學(xué)生模型卻具有挑戰(zhàn)。因此,我們提出了一種不同的方法,可以利用離線教師的能力同時保留共同更新整個框架的優(yōu)勢,并設(shè)計了基于注意力機制的Refine模型,高效處理復(fù)雜情況。在Waymo數(shù)據(jù)集上的實驗結(jié)果顯示,我們的方法在減少訓(xùn)練資源的同時,性能超過了之前的最佳方法。?

25.?人臉分割幾何信息指導(dǎo)下的三維人臉重建?

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation?

論文作者:王子都、朱翔昱、張?zhí)锎T、王柏欽、雷震?

本文面向單目三維人臉重建任務(wù),實現(xiàn)了對人臉極端表情的精確三維重建。我們利用二維人臉分割的幾何信息來引導(dǎo)人臉重建,設(shè)計了一個強大的幾何約束函數(shù)。該約束函數(shù)首先將人臉部件的分割信息轉(zhuǎn)化為點集,把三維部件形狀的擬合問題轉(zhuǎn)化為點集分布的匹配問題。該函數(shù)使用一組已知點作為錨點,分別計算錨點與預(yù)測點集以及目標(biāo)點集之間的各種統(tǒng)計距離,并通過減少這些距離的差異來確保預(yù)測點集和目標(biāo)點集具有相同的幾何覆蓋區(qū)域。大量的定量和定性實驗證明了我們方法的有效性,它可以非常準(zhǔn)確地捕捉不對稱和奇怪的面部表情。此外,我們還合成了一個包含皺眉、歪嘴、閉眼等極端表情的人臉數(shù)據(jù)集,以促進(jìn)相關(guān)研究。?

1.?方法的主要流程圖

圖2.?與其他SOTA方法進(jìn)行定性比較

論文鏈接:https://arxiv.org/abs/2312.00311?

代碼鏈接:https://github.com/wang-zidu/3DDFA_V3?

26.?基于免類別提示學(xué)習(xí)的域泛化人臉活體檢測?

CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing?

論文作者:劉阿建、薛帥、甘劍文、萬軍、梁延研、鄧健康、Sergio Escalera、雷震?

在基于領(lǐng)域泛化(DG)的面部反欺詐(FAS)領(lǐng)域中,傳統(tǒng)方法常依賴于領(lǐng)域標(biāo)簽來對齊不變的特征空間,或是從整體樣本中分離出可泛化的特征,這兩種方式都可能導(dǎo)致語義特征結(jié)構(gòu)的扭曲,從而限制了模型的泛化能力。本工作針對現(xiàn)有基于域泛化的人臉防偽模型存在的泛化性能不足問題,設(shè)計了一種新型的免類別提示學(xué)習(xí)(CFPL)方法。該方法不直接操作視覺特征,而是利用大規(guī)模視覺語言模型(如CLIP)和文本特征,動態(tài)調(diào)整分類器的權(quán)重,以探索可泛化的視覺特征。CFPL通過兩個輕量級變換器內(nèi)容Q-FormerCQF)和風(fēng)格Q-FormerSQF),利用一組可學(xué)習(xí)的查詢向量,分別根據(jù)內(nèi)容和風(fēng)格特征學(xué)習(xí)不同的語義提示。通過引入提示文本匹配(PTM)監(jiān)督和多樣化風(fēng)格提示(DSP)技術(shù),進(jìn)一步提升了模型的泛化能力。學(xué)到的文本特征通過設(shè)計的提示調(diào)制(PM)機制來調(diào)節(jié)視覺特征,以實現(xiàn)泛化。最終在多個數(shù)據(jù)集上達(dá)到了優(yōu)于現(xiàn)有先進(jìn)算法的性能。?

圖.?基于免類別提示學(xué)習(xí)的域泛化人臉活體檢測框架

27.?基于密度引導(dǎo)和雙空間困難采樣的3D半監(jiān)督語義分割?

Density-guided Semi-supervised 3D Semantic Segmentation with Dual-space Hardness Sampling?

論文作者:李嘉楠,董秋雷?

現(xiàn)有的3D半監(jiān)督語義分割通常使用點對點的對比學(xué)習(xí),但這種技術(shù)容易受到外點影響,為解決該問題,我們提出了DDSemi。其中,DDSemi使用密度引導(dǎo)的點對錨的對比學(xué)習(xí)。考慮到聚類中心通常位于密度較大的區(qū)域,我們使用特征存儲體中密度較大的特征來為每個類別估計一個錨向量。為了從無標(biāo)簽數(shù)據(jù)中挖掘出有效信息,我們使用不同的數(shù)據(jù)增強技術(shù)處理不同分支中的無標(biāo)簽點云,并分別計算分支內(nèi)的點對錨對比損失和分支間的點對錨對比損失。除此之外,為了給位于密度較低區(qū)域的點更多的關(guān)注,我們提出了雙空間困難采樣技術(shù),該技術(shù)能夠基于每個點在幾何空間和特征空間中的密度為其賦予不同的損失權(quán)重。在室內(nèi)和室外的公開數(shù)據(jù)集中的分割結(jié)果表明DDSemi的性能超過了現(xiàn)有的3D半監(jiān)督語義分割方法。

. DDSemi的結(jié)構(gòu)圖

28. CrossMAE:?基于MAE的跨模態(tài)區(qū)域感知視聽預(yù)訓(xùn)練模型?

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training?

論文作者:郭雨欣、孫思洋、馬帥磊、鄭可成、包笑一、馬時杰、鄒偉、鄭?

模態(tài)對齊的表征是視聽學(xué)習(xí)中不可或缺的部分,然而現(xiàn)有視聽預(yù)訓(xùn)練方法僅關(guān)注了全局特征以及分類或檢索任務(wù),忽略了細(xì)粒度特征的交互和對齊,導(dǎo)致下游密集預(yù)測任務(wù)出現(xiàn)次優(yōu)性能。針對上述問題,我們研究了可局部區(qū)域感知的視聽預(yù)訓(xùn)練,提出具有出色的跨模態(tài)交互和局部區(qū)域?qū)R能力的通用視聽預(yù)訓(xùn)練模型:CrossMAE。具體來說,我們提出了像素級和特征級兩個難度遞進(jìn)的MAE子任務(wù)。以視覺模態(tài)為例(反之亦然),首先,被隨機掩碼的視覺模態(tài)在聽覺模態(tài)的attentive tokens的指導(dǎo)下重建圖像像素,從而有效關(guān)注細(xì)粒度特征并促進(jìn)區(qū)域感知能力;進(jìn)一步地,視覺模態(tài)在可學(xué)習(xí)learnable queries的指導(dǎo)下重建聽覺模態(tài)的完整特征,從而有效加強模態(tài)間交互。實驗表明,CrossMAE能夠在分類,檢索,定位,分割,事件定位等多個任務(wù)上均取得SOTA性能,證明了所提出預(yù)訓(xùn)練模型的有效性。同時,我們探究了模態(tài)交互及局部區(qū)域?qū)R對于單模態(tài)和跨模態(tài)表征能力的提升,并深入分析了所提出的attentive tokenslearnable queries具體的作用機理,證明了本模型的有效性。

1. CrossMAE框架圖

2.?定性分析圖

29.?開放場景自監(jiān)督學(xué)習(xí)?

Self-Supervised Representation Learning from Arbitrary Scenarios?

論文作者:李朝聞、朱優(yōu)松、陳志揚、高宗鑫、趙瑞、趙朝陽、唐明、王金橋?

當(dāng)前,自監(jiān)督方法主要分為對比學(xué)習(xí)和掩碼圖像模型兩大類。目前性能最強大的自監(jiān)督模型正是組合這兩種方法所構(gòu)建的。然而,本文指出,組合方法本質(zhì)上加強了全局一致性,卻沒有考慮對比學(xué)習(xí)和掩碼圖像模型之間的潛在沖突,這嚴(yán)重影響了它們在開放場景下的學(xué)習(xí)能力。本文從理論上證實了掩碼圖像模型實質(zhì)上是一種基于區(qū)域級別的對比學(xué)習(xí)方法,圖像中的每個區(qū)域被視為一個不同的類別。這與全局級別的對比學(xué)習(xí)形成了顯著的沖突,后者將圖像中的所有區(qū)域視為相同的類別。?

為了解決這一沖突,本文放棄了全局性約束,并提出了一種顯式的區(qū)域性學(xué)習(xí)解決方案。具體來說,本文提出的技術(shù)在訓(xùn)練階段采用了一種區(qū)域特征增強策略來構(gòu)建解碼雙分支學(xué)習(xí)方案。這種學(xué)習(xí)方案使模型能夠從開放場景中提取非同質(zhì)化的特征表示,解決了組合方法中的學(xué)習(xí)沖突。通過在多個公開和混合數(shù)據(jù)集上的實驗,本文證明了其在開放場景下的學(xué)習(xí)能力。

30. SC-Tune:解鎖視覺語言模型的自洽指代理解能力?

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models?

論文作者:岳同天、程杰、郭龍騰、戴星原、趙子嘉、何興建、熊剛、呂宜生、劉靜?

當(dāng)前大型視覺語言模型的研究日益聚焦于超越通用圖像理解,朝向更細(xì)致的、目標(biāo)級別的指代性理解。在本文中,我們提出并深入探討了大型視覺語言模型的自恰性。這反映在模型具備既能為特定目標(biāo)生成準(zhǔn)確詳細(xì)的描述,又能利用這些描述準(zhǔn)確地重新定位原始目標(biāo)的“閉環(huán)”式能力。該能力在很大程度上反映了模型細(xì)粒度視覺-語言理解的精確性和可靠性。然而先期實驗表明,現(xiàn)有模型的自恰性水平未能達(dá)到預(yù)期,極大限制了它們的實際應(yīng)用性和潛力。為了解決這一差距,我們引入了一種新穎的微調(diào)范式SC-Tune。它實現(xiàn)了模型描述-定位能力的循環(huán)式互促學(xué)習(xí)。這一范式不僅數(shù)據(jù)高效,而且在多個模型上展現(xiàn)了廣泛的泛化能力。實驗表明,SC-Tune顯著提升了基線模型在一系列目標(biāo)級視覺-語言基準(zhǔn)測試中的性能,并在圖像級視覺-語言基準(zhǔn)測試中同樣具備性能改善。

31.?聯(lián)合目標(biāo)及其部件的精細(xì)粒度指代分割?

Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation?

論文作者:王文軒、岳同天、張毅思、郭龍騰、何興建、王鑫龍、劉靜?

指代分割任務(wù)(RES)旨在分割與描述性自然語言表達(dá)相匹配的前景實體掩膜。以往的數(shù)據(jù)集和經(jīng)典的指代分割方法嚴(yán)重依賴于一個假設(shè),即一條文本表達(dá)必須指向?qū)ο蠹壞繕?biāo)。在本文中,我們進(jìn)一步深入探索更細(xì)粒度的部件級指代分割任務(wù)。為了推動對象級指代分割任務(wù)朝著更細(xì)粒度的視覺語言理解發(fā)展,我們提出了一個全新的多粒度指代分割(MRES)任務(wù),并通過手工注釋的方式構(gòu)建了一個名為RefCOCOm的評估基準(zhǔn)。通過使用我們搭建的模型輔助的自動數(shù)據(jù)生成引擎,我們構(gòu)建了迄今為止最大的視覺定位數(shù)據(jù)集,即MRES-32M,它包含提供的100萬圖像上的超過3220萬個高質(zhì)量視覺掩膜和相應(yīng)的文本描述。此外,我們設(shè)計了一個簡單而強大的基線模型UniRES,用以完成統(tǒng)一的對象級和部件級視覺定位任務(wù)。在我們的RefCOCOm上針對MRES任務(wù)的廣泛實驗以及三個經(jīng)典RES任務(wù)的數(shù)據(jù)集(即RefCOCO、RefCOCO+RefCOCOg)上的實驗,證明了我們的方法相較于以往最先進(jìn)方法的優(yōu)越性。

1.?經(jīng)典的指代分割任務(wù)(RES)僅支持表示單一目標(biāo)對象的自然語言表達(dá),例如(a)。與經(jīng)典RES相比,我們提出的聯(lián)合目標(biāo)及其部件的多粒度指代分割任務(wù)(MRES)支持表示目標(biāo)對象的特定部分級區(qū)域的自然語言表達(dá),例如,我們新構(gòu)建的RefCOCOm基準(zhǔn)測試集中的部分級自然語言表達(dá)(b)到(e)。

圖2.?構(gòu)建MRES-32M視覺定位數(shù)據(jù)集的數(shù)據(jù)收集引擎示意圖

項目主頁鏈接:https://rubics-xuan.github.io/MRES/?

Github鏈接:https://github.com/Rubics-Xuan/MRES

32.?傳統(tǒng)的?SNN?真的高效嗎?從模型量化的視角出發(fā)?

Are Conventional SNNs Really Efficient? A Perspective from Network Quantization?

論文作者:申國斌、趙東城、李騰龍、李金東、曾毅?

脈沖神經(jīng)網(wǎng)絡(luò)(SNN)以其事件驅(qū)動特性而聞名,展示出高能效和巨大的發(fā)展?jié)摿ΑH欢?,?span style="margin-top: 10px; margin-bottom: 15px;">SNN與量化人工神經(jīng)網(wǎng)絡(luò)(QANN)進(jìn)行深入的比較和相關(guān)性研究仍然不足,導(dǎo)致對這兩者的評估可能缺乏公平性。我們引入了一種新的視角,發(fā)現(xiàn)SNN中的時間步長與QANN中激活值的量化位寬有著相似的表征特性。基于此,我們提出了一種更加實用和精確的方法來計算SNN的能量消耗。我們推出的比特預(yù)算Bit Budget)概念,不同于傳統(tǒng)的突觸操作(SynOps),使我們能夠在嚴(yán)格的硬件限制下深入探討如何在權(quán)重、激活值和時間步長之間進(jìn)行合理的計算和存儲資源分配。在“比特預(yù)算”指導(dǎo)下,我們認(rèn)識到對SNN而言,關(guān)注脈沖模式和權(quán)重量化比時間步長更能顯著影響模型性能。利用比特預(yù)算進(jìn)行SNNs的綜合設(shè)計,可提升模型在不同數(shù)據(jù)類型(包括靜態(tài)圖像和神經(jīng)形態(tài)數(shù)據(jù)集)中的性能。我們的研究不僅加深了對SNN與量化ANN之間相互關(guān)系的理解,也為未來高效能神經(jīng)計算領(lǐng)域的探索指明了方向。

1.?具有相同數(shù)量的特征位時,SNN?和量?ANN?具有相同的復(fù)雜度的表示

2.?在不同的FPGA平臺和設(shè)置下,?單個突觸操作的比特預(yù)算與能量消耗的關(guān)系

33. PeLK:?參數(shù)高效的大核外圍卷積網(wǎng)絡(luò)?

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution?

論文作者:陳宏昊、初祥祥、任泳健、趙鑫、黃凱奇?

近期,一些大核卷積神經(jīng)網(wǎng)絡(luò)以其優(yōu)異的性能和效率卷土重來。然而,考慮到卷積的平方復(fù)雜度,直接擴大卷積核會產(chǎn)生大量的參數(shù),而急劇增長的參數(shù)會導(dǎo)致嚴(yán)重的優(yōu)化問題。由于這些問題,目前的CNN妥協(xié)于以條形卷積的形式擴展到51×51(51×5+5×51),并隨著內(nèi)核大小的持續(xù)增長性能開始飽和。在本文中,我們深入研究了這些關(guān)鍵問題,并探討是否可以繼續(xù)擴展內(nèi)核以獲得更多性能提升。受人類視覺的啟發(fā),我們提出了一種類似人類的外圍卷積,通過參數(shù)共享有效地減少了密集網(wǎng)格卷積90%以上的參數(shù)計數(shù),并將卷積核大小擴展到非常大。我們的外圍卷積的特征與人類非常相似,將卷積的復(fù)雜度從O(K^2)降低到O(logK)而不會影響精度。在此基礎(chǔ)上,我們提出了參數(shù)高效的大核網(wǎng)絡(luò)(PeLK)。我們的PeLK在各種視覺任務(wù)上優(yōu)于現(xiàn)代視覺TransformerConvNet架構(gòu),如Swin, ConvNeXt, RepLKNetSLaK,包括ImageNet分類,ADE20K上的語義分割和MS COCO上的目標(biāo)檢測。我們第一次成功地將CNN的內(nèi)核大小擴展到前所未有的101×101,并展示了持續(xù)的改進(jìn)。?

34.?重新審視融合特征軌跡的全局式相機平移估計方法?

Revisiting Global Translation Estimation with Feature Tracks?

論文作者:陶沛霖、崔海楠、榮夢琪、申抒含?

全局式相機平移估計是全局式運動恢復(fù)結(jié)構(gòu)算法中極具挑戰(zhàn)性的一步。絕大部分傳統(tǒng)方法僅依賴于相機間相對平移作為輸入,導(dǎo)致在低視差或相機共線運動場景下的相機位置估計出現(xiàn)退化問題。雖然一些方法通過融合特征點軌跡來緩解這些問題,但它們通常對異常值非常敏感。在本文中,我們首先回顧了已有利用特征點軌跡的全局式相機平移估計方法,并將其分為顯式和隱式方法兩類。然后,我們提出并分析了基于叉乘度量的目標(biāo)函數(shù)的優(yōu)越性,并提出了一種以相機相對平移和特征點軌跡同時作為輸入的顯式全局式相機平移估計新框架。另外,為了提高系統(tǒng)輸入的準(zhǔn)確性,我們使用極平面的共面性約束重新估計兩視圖相對平移,并提出一種簡單而有效的策略來挑選可靠的特征點軌跡。通過在街景視頻序列和無序互聯(lián)網(wǎng)圖像數(shù)據(jù)集上測試,并與許多最先進(jìn)的技術(shù)相比,我們的方法展示了卓越的準(zhǔn)確性和魯棒性。?

.?該圖展示了在自動駕駛數(shù)據(jù)集KITTI上,我們的方法HETA和其他SOTA方法估計的相機軌跡與真實相機軌跡對比。通過標(biāo)定軌跡可以看出我們方法的準(zhǔn)確性明顯由于傳統(tǒng)方法。其中,對比SOTA方法LUD發(fā)表于CVPR 2015CReTA發(fā)表于ECCV 2022,LiGT發(fā)表于IEEE TPAMI 2021,PGILP發(fā)表于RAL 2019。

35. PanoPose:自監(jiān)督全景圖像相對位姿估計?

PanoPose: Self-supervised Relative Pose Estimation for Panoramic Images?

論文作者:屠殿韜、崔海楠、鄭先偉、申抒含?

在全局式從運動恢復(fù)結(jié)構(gòu)(SfM)中,一個主要難點是估計具有尺度的相對位姿,即兩張圖像之間的相對旋轉(zhuǎn)和具有尺度的相對平移。這個問題是由于傳統(tǒng)的幾何視覺方法(例如五點法)得到的相對平移是無尺度的。目前絕大部分方法都是在絕對位姿估計階段解決該問題,而我們則考慮在相對位姿估計階段解決。所以,我們提出了PanoPose,以完全自監(jiān)督的方式估計有尺度的相對運動,并為全景圖像構(gòu)建了一個完整的全局式?SfM?流程。PanoPose?包含一個深度網(wǎng)絡(luò)和一個位姿網(wǎng)絡(luò),通過估計的深度和相對位姿從相鄰圖像重建參考圖像來實現(xiàn)自監(jiān)督。為了提升大視角變換下位姿估計的精度,我們提出了一種純旋轉(zhuǎn)預(yù)訓(xùn)練策略。為了提升相對平移尺度的精度,我們使用一個融合模塊將深度信息引入位姿估計中。

1. (a)PanoPose的整體網(wǎng)絡(luò)結(jié)構(gòu)。(b)我們提出的融合模塊的具體結(jié)構(gòu)。

2:在不同數(shù)據(jù)集上絕對位姿估計結(jié)果。紅色軌跡是位姿的真值,藍(lán)色的軌跡是位姿的估計值。第一行是五點法和BATA得到的結(jié)果。第二行是PanoPoseBATA的結(jié)果。第三行是PanoPoseL2IRLS的結(jié)果。

36.?基于無監(jiān)督聚類分析的免對應(yīng)非剛體點集配準(zhǔn)?

Correspondence-Free Non-Rigid Point Set Registration Using Unsupervised Clustering Analysis?

論文作者:趙明陽、江敬恩、馬雷、辛士慶、孟高峰、嚴(yán)冬明?

本文提出了一種受無監(jiān)督聚類分析啟發(fā)的非剛性點集配準(zhǔn)范式。不同于此前方法,將源點集和目標(biāo)點集視作兩個獨立部分,本文采用整體框架,將它們分別建模為聚類中心和聚類成員,從而將點集配準(zhǔn)過程轉(zhuǎn)化為無監(jiān)督聚類優(yōu)化問題。為確保位移場的光滑性和魯棒性,本文分別采用Tikhonov正則化和L1范數(shù)誘導(dǎo)的拉普拉斯核來約束和刻畫位移場??梢宰C明,本文方法具有閉形式解,不依賴空間維數(shù)且可處理大形變。進(jìn)一步,本文采用聚類誘導(dǎo)的Nystrm低秩逼近算法,將Gram矩陣的計算和存儲復(fù)雜性顯著降低到線性,同時,本文為低秩近似結(jié)果給出了嚴(yán)格的理論誤差界。實驗表面,本文方法在各種標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了最優(yōu)性能,特別是對于大形變的物體。此外,本文還展示了所提出的方法在挑戰(zhàn)性形狀分析任務(wù)中的應(yīng)用,包括醫(yī)學(xué)數(shù)據(jù)配準(zhǔn)和形狀遷移。?

.?三維點集上的非剛性配準(zhǔn)。藍(lán)色和灰色模型分別代表源點云和目標(biāo)點云,黃色模型是本文方法的配準(zhǔn)結(jié)果。即使對于大形變的模型,本文方法也有很好配準(zhǔn)效果。

附件: