當(dāng)前位置： 蘇州資訊網(wǎng) >財(cái)經(jīng) >

開源CV數(shù)據(jù)集生成器Kubric火了，支持13類復(fù)雜CV任務(wù)，DeepM

時間：2022-03-20 23:18 閱讀量：14767

這年頭，AI 玩家們想找到合適的圖像數(shù)據(jù)集，簡直是越來越難了不僅數(shù)據(jù)質(zhì)量參差不齊，合適的數(shù)據(jù)類型也難找

開源CV數(shù)據(jù)集生成器Kubric火了，支持13類復(fù)雜CV任務(wù)，DeepM

為了解決這些問題，來自谷歌，MIT，DeepMind，MILA 和劍橋大學(xué)等 11 家機(jī)構(gòu)的 34 名研究人員，聯(lián)手打造了一個名叫 Kubric 的數(shù)據(jù)集生成器，不僅能自己渲染，而且圖像效果也非常真實(shí)。

不僅各種圖像數(shù)據(jù)都能做，像語義分割，深度圖或光流圖這種特殊數(shù)據(jù)都能一鍵生成:

還能控制渲染的真實(shí)度，渲染出的視頻可以達(dá)到以假亂真的效果:

可生成 13 類 CV 任務(wù)所需數(shù)據(jù)

先來看看這個 Kubric 數(shù)據(jù)集生成器究竟是個啥簡單來說，它有點(diǎn)像是一個專為圖像 AI 打造的數(shù)據(jù)車間，基于跨平臺開源物理引擎 PyBullet 和 3D 圖像渲染軟件 Blender 打造

其中，PyBullet 給用戶提供了一個模擬 3D 物體運(yùn)動的平臺，例如兩個球之間的彈性碰撞參數(shù)就可以用它來模擬。之前使用torchDataLoader類直接加載圖像并將其轉(zhuǎn)換為張量。

Blender 則是一個渲染 3D 動畫的平臺，但它的優(yōu)勢在于操作方便，而且既可以做出照片級逼真的渲染圖像，也可以輸出 3D 動畫效果。

可能這時候你會問，Kubric 相比自己手動渲染視頻或圖像數(shù)據(jù)集，方便在哪一方面，Kubric 自帶一系列預(yù)處理的基礎(chǔ)圖像數(shù)據(jù)庫

還內(nèi)置了 Google Scanned Objects室內(nèi)家具物品數(shù)據(jù)集中的一系列模型，以及包含背景，光照，材料紋理等參數(shù)的 Polyhaven 數(shù)據(jù)集，還有 ShapeNet 數(shù)據(jù)集等也就是說，如果你對渲染不太了解，也能利用內(nèi)置的數(shù)據(jù)庫快速生成想要的圖像

另一方面，Kubric 直接提供了從渲染數(shù)據(jù)到輸出AI 訓(xùn)練數(shù)據(jù)的管道，省去了將渲染圖像轉(zhuǎn)成特殊數(shù)據(jù)，或是額外收集如視場，相機(jī)參數(shù)，光照等數(shù)據(jù)的麻煩這也使得 Kubric 支持生成 13 類 CV 任務(wù)所需的圖像數(shù)據(jù)，具體包括光流，NeRF，姿態(tài)估計(jì)，3D 重建等

Kubric 生成的光流圖

那么，這樣的數(shù)據(jù)集生成器究竟要怎么用呢?，F(xiàn)在結(jié)合torchvision和torchtext介紹torch中的內(nèi)置數(shù)據(jù)集。

自帶 Python 接口

然后，再通過這兩步，分別創(chuàng)建一塊地板，和一個球體:

接下來就是在場景中加一個照明，以及渲染攝像頭采集圖像:

導(dǎo)出文件后，就能獲取一個 3D 球體的圖像了:

Blender 中的效果

如果需要深度圖，灰度圖等特殊圖層的話，也是幾行代碼就能搞定:

比自己手動導(dǎo)出要更方便一些:

在原基礎(chǔ)上，再加 5 行代碼就能直接運(yùn)行出動態(tài)視頻版:

看起來，做完數(shù)據(jù)集后，即使不懂渲染的也能成為半個行家了

目前新的一批內(nèi)置數(shù)據(jù)集還在施工中，感興趣的小伙伴可以先上手試玩~