無需文字標(biāo)簽,完全自監(jiān)督的 Meta 視覺大模型來了!
小扎親自官宣,發(fā)布即收獲大量關(guān)注度 ——
在語義分割、實(shí)例分割、深度估計(jì)和圖像檢索等任務(wù)中,這個名叫 DINOv2 的視覺大模型均取得了非常不錯的效果。
甚至有超過當(dāng)前最好的開源視覺模型 OpenCLIP 之勢。
雖然此前 Meta 就發(fā)布過自監(jiān)督學(xué)習(xí)視覺大模型 DINO,不過這次 AI 識別圖像特征的能力顯然更進(jìn)一步,準(zhǔn)確分割出了視頻中的主體:
換而言之,DINOv2 自己學(xué)會了找圖像特征。
目前 Meta 官方不僅已經(jīng)放出了開源代碼,而且還給了網(wǎng)頁版 Demo 試玩。有網(wǎng)友內(nèi)涵:
什么叫開源,LLaMA,SAM,DINOv2 這才叫開源!
一起來看看,DINOv2 的效果究竟如何。
準(zhǔn)確識別不同畫風(fēng)的同種物體
事實(shí)上,DINOv2 是基于上一代 DINOv1 打造的視覺大模型。
這個模型參數(shù)量是 10 億級,也仍然是視覺 Transformer 架構(gòu),但與 DINO 不太一樣的是,這次 DINOv2 在數(shù)據(jù)集上經(jīng)過了精心挑選。
采用這類數(shù)據(jù)訓(xùn)練出來的視覺模型,效果如何?
這是 DINOv2 在 8 個視覺任務(wù)上的表現(xiàn),包括語義分割、分類、深度估計(jì)等,其中橙色是自監(jiān)督方法的效果,深粉色是弱監(jiān)督方法的效果。
可以看見,經(jīng)過自監(jiān)督學(xué)習(xí)的視覺模型,表現(xiàn)上已經(jīng)與經(jīng)過弱監(jiān)督學(xué)習(xí)的模型性能相當(dāng)。
實(shí)際效果也不錯,即便在一系列照片中,相同物體的畫風(fēng)并不相似,DINOv2 也能準(zhǔn)確識別它們的特征,并分到相似的列表中。
如組中都具有翅膀的鳥和飛機(jī)、(b)組中的大象和大象雕塑、(c)組中的汽車和汽車玩具模型、(d)組中的馬和涂鴉版馬:
而且從 PCA圖像效果來看,DINOv2 不僅能準(zhǔn)確分類,還能用不同顏色標(biāo)出它們“相同”的部分,例如象鼻都是綠色、車輪都是紅色、馬的尾巴是黃色等。
換而言之,DINOv2 能理解這些圖像中的相似之處,就像人會形容飛機(jī)“看起來像一只鳥”一樣。
目前 DINOv2 已經(jīng)放出 Demo,我們也試了試它的實(shí)際效果。
Demo 直接可玩
據(jù) Meta 介紹,這幾個任務(wù)中,DINOv2 在大多數(shù)基準(zhǔn)上超過了目前開源視覺模型中表現(xiàn)最好的 OpenCLIP。
我們先來看看深度估計(jì)的效果。
值得一提的是,在效果更好的情況下,DINOv2 運(yùn)行的速度也比 iBOT 更快,相同硬件下只需三分之一的內(nèi)存,運(yùn)行速度就能比 DINOv2 快上 2 倍多。
這是 Meta 論文中與 OpenCLIP 在實(shí)際例子上的比較效果:
接下來是語義分割的效果,這里也先給出 Meta 論文中的數(shù)據(jù)對比情況:
那么,這樣的自監(jiān)督視覺大模型可以用在哪里?
從 Meta 給出的視頻來看,目前有一些比較環(huán)保的用途,例如用于估計(jì)全球各地的樹木高度:
除此之外,如同扎克伯格所說,DINOv2 還能被用于改善醫(yī)學(xué)成像、糧食作物生長等。當(dāng)然這里小扎還進(jìn)一步強(qiáng)調(diào):
可以被用于制作更具沉浸感的元宇宙。
嗯,看來 Meta 的元宇宙路線還將繼續(xù)……
試玩 Demo 地址:
項(xiàng)目地址:
參考鏈接:
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。