欧美精品一区二区三区_孕妇孕妇aaaaa级真人片视频_在线观看亚洲免费视频_日本亚州视频在线八a

當(dāng)前位置: 蘇州資訊網(wǎng) >熱點(diǎn) >

用AI做視頻編解碼器現(xiàn)在有點(diǎn)野了GAN

時(shí)間:2021-10-03 01:38   閱讀量:10115   

用AI做視頻編解碼器現(xiàn)在有點(diǎn)野了。

插幀,過(guò)擬合,語(yǔ)義感知,GAN你有沒(méi)有想過(guò)這些腦洞或者AI算法也可以用在編解碼器上

比如原算法壓縮到每幀16.4KB后,森林開(kāi)始變得極度模糊。

但是使用GAN后,不僅畫面更清晰,而且每幀圖像也更小,只需要14.5KB!

例如,將幀插入的思想與神經(jīng)編解碼器相結(jié)合,可以使最新的壓縮算法更好.

這一系列算法背后的原理是什么,使用AI制作編解碼器的潛力有多大。

我們采訪了高通工程技術(shù)副總裁,AI研究方向負(fù)責(zé)人侯繼磊博士,了解了高通部分AI編解碼器的算法細(xì)節(jié)和原理。

編解碼器逐漸被引入。

當(dāng)然,在了解AI算法的原理之前,我們需要知道視頻是如何壓縮的。

沒(méi)有壓縮,每秒30幀,8—8位單通道色深的480p視頻每秒會(huì)傳輸80 Mbps的數(shù)據(jù),在互聯(lián)網(wǎng)上實(shí)時(shí)觀看高清視頻幾乎是不可能的。

目前,壓縮方法主要有色度二次采樣,幀內(nèi)預(yù)測(cè)和幀間預(yù)測(cè)。

色度子采樣主要是基于我們的眼睛對(duì)亮度比對(duì)顏色更敏感的原理,對(duì)圖像的顏色數(shù)據(jù)進(jìn)行壓縮,但在視覺(jué)上仍能保持接近原始圖像的效果。

幀內(nèi)預(yù)測(cè)使用同一幀中的大量相同顏色塊來(lái)預(yù)測(cè)圖像中相鄰像素的值,使得結(jié)果比原始數(shù)據(jù)更容易壓縮。

幀間預(yù)測(cè)是一種用于消除相鄰幀之間大量重復(fù)數(shù)據(jù)的方法。使用稱為運(yùn)動(dòng)補(bǔ)償?shù)姆椒?,通過(guò)使用運(yùn)動(dòng)矢量和預(yù)測(cè)值來(lái)計(jì)算兩個(gè)幀之間的像素差:

這些針對(duì)視頻編解碼器的視頻壓縮方法,有大量的壓縮工作要做,包括分區(qū),量化,熵編碼等。

但據(jù)侯吉磊博士介紹,從H.265到H.266,雖然壓縮性能提升了30%左右,但這是在編碼復(fù)雜度增加30倍,解碼復(fù)雜度增加2倍的情況下實(shí)現(xiàn)的。

這意味著編解碼標(biāo)準(zhǔn)逐漸進(jìn)入內(nèi)卷化狀態(tài),提升的壓縮效果本質(zhì)上是與編解碼的復(fù)雜度交換的,并不是真正的創(chuàng)新。

因此,高通從現(xiàn)有壓縮方法的原理和編解碼器的構(gòu)造出發(fā),開(kāi)發(fā)了幾種有趣的AI視頻編碼和解碼方法。

提高3個(gè)方向的壓縮性能。

具體來(lái)說(shuō),目前的AI研究包括三個(gè)方向:幀間預(yù)測(cè)方法,降低解碼復(fù)雜度和提高壓縮質(zhì)量。

預(yù)測(cè)了乙?guī)念A(yù)測(cè)

從幀間預(yù)測(cè)的角度來(lái)看,高通提出了B幀編解碼的新思路,論文已在《ICCV 2021》上發(fā)表。

I :幀內(nèi)編碼幀,P :前向預(yù)測(cè)編碼幀和B :雙向插值預(yù)測(cè)編碼幀。

目前大部分編解碼器都側(cè)重于I幀和P幀,而B(niǎo)幀則采用I幀和P幀的雙向運(yùn)動(dòng)補(bǔ)償來(lái)提高壓縮性能,這在H.265中是官方支持的。

雖然使用B幀后視頻壓縮性能更好,但仍然存在兩個(gè)問(wèn)題。

一是視頻需要提前加載,另一個(gè)是仍然會(huì)有冗余如果I幀和P幀高度相關(guān),使用雙向運(yùn)動(dòng)補(bǔ)償是很浪費(fèi)的

例如,如果視頻中只有一個(gè)球在距離I幀,B幀和P幀一定距離的直線上移動(dòng),如果使用雙向運(yùn)動(dòng)補(bǔ)償,將會(huì)浪費(fèi)33,360。

在這種情況下,使用幀插入似乎更好,并且可以通過(guò)時(shí)間戳直接預(yù)測(cè)對(duì)象運(yùn)動(dòng)的狀態(tài),并且編碼計(jì)算也更低。

但是,會(huì)有新的問(wèn)題:如果I幀和P幀之間有非常大的突變,比如球在B幀突然彈起,那么插幀的效果就非常差。

因此,高通選擇將兩者結(jié)合起來(lái),基于神經(jīng)網(wǎng)絡(luò)的p幀壓縮和幀插入補(bǔ)償,并使用AI來(lái)預(yù)測(cè)幀插入后的運(yùn)動(dòng)補(bǔ)償。

不用說(shuō),效果真的很好,比之前谷歌在CVPR 2020上保持的SOTA紀(jì)錄還要好,也比目前基于H.265標(biāo)準(zhǔn)的開(kāi)源編解碼器的壓縮性能要好。

除此之外,高通還嘗試了一些其他的AI算法。

通過(guò)過(guò)擬合降低解碼復(fù)雜度。

鑒于編解碼器的標(biāo)準(zhǔn)內(nèi)卷化,高通還想到使用人工智能作為自適應(yīng)算法,根據(jù)視頻比特流像過(guò)擬合一樣更新模型的權(quán)重增量部分相關(guān)論文已在《ICLR 2021》發(fā)表

這種方法意味著過(guò)度擬合單個(gè)模型,對(duì)比特流中的權(quán)重增量進(jìn)行編碼,然后將其與原始比特流進(jìn)行比較如果效果更好,使用這種傳輸模式

實(shí)驗(yàn)證明,該方法在不降低壓縮性能的情況下,解碼復(fù)雜度降低了72%,同時(shí)仍然保持了之前B幀模型所獲得的SOTA結(jié)果。

當(dāng)然,除了視頻壓縮性能,還需要考慮單幀圖像的壓縮質(zhì)量畢竟視覺(jué)效果也是視頻壓縮追求的標(biāo)準(zhǔn)之一

利用語(yǔ)義感知和GAN提高壓縮質(zhì)量。

使用語(yǔ)義感知和GAN更簡(jiǎn)單。

語(yǔ)義感知就是讓AI基于人類視覺(jué)進(jìn)行考慮,選擇你在看視頻時(shí)最關(guān)注的地方,關(guān)注那部分的比特分配。

比如看網(wǎng)球比賽的時(shí)候,往往不關(guān)注觀眾是什么樣子的,不關(guān)注比賽旁邊的風(fēng)景是什么樣子的,更多的是關(guān)注球員自己的動(dòng)作和擊球方法。

然后,就訓(xùn)練AI,在目標(biāo)人物身上多放點(diǎn)位,就像這樣:

從結(jié)構(gòu)上講,也是。

比較簡(jiǎn)單,也就是我們常見(jiàn)的語(yǔ)義分割 Mask:

這種方法能很好地將受關(guān)注的局部區(qū)域幀質(zhì)量提升,讓我們有更好的觀看效果,而不是在視頻被壓縮時(shí),看到的整幅圖像都是打上馬賽克的樣子。

據(jù)高通表示,這種語(yǔ)義感知的圖像壓縮,目前已經(jīng)在擴(kuò)展到視頻壓縮上了,同樣是關(guān)注局部的方法,效果也非常不錯(cuò)。

而基于 GAN 的方法,則更加致力于用更少的比特?cái)?shù)生成視覺(jué)效果同樣好的圖像質(zhì)量:

期待這些技術(shù)能馬上應(yīng)用到手機(jī)等設(shè)備上,讓我們看視頻的時(shí)候真正變得不卡。

相關(guān)論文:

參考鏈接:

來(lái)源: IT之家 編輯: 葉知秋

鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

  • 蘇州
  • 江蘇
  • 財(cái)經(jīng)
  • 資訊
  • 旅游
  • 文化
周莊 今晚亮燈“燈”你,共度佳節(jié)
周莊 今晚亮燈“燈”你,共度佳節(jié)
第十四屆全國(guó)運(yùn)動(dòng)會(huì)開(kāi)幕 目前已決出多枚金牌
第十四屆全國(guó)運(yùn)動(dòng)會(huì)開(kāi)幕 目前已決
億聯(lián)銀行同業(yè)交流會(huì)開(kāi)幕,全國(guó)各地近66家金融機(jī)構(gòu)125名代表出席會(huì)議
億聯(lián)銀行同業(yè)交流會(huì)開(kāi)幕,全國(guó)各地
【傳承民族經(jīng)典 弘揚(yáng)中華武術(shù)】蘇州市青少年武術(shù)錦標(biāo)賽開(kāi)賽
【傳承民族經(jīng)典 弘揚(yáng)中華武術(shù)】蘇
“鷺島”為家:蒼鷺的東北安家之旅
“鷺島”為家:蒼鷺的東北安家之旅
國(guó)家大劇院周末音樂(lè)會(huì)迎來(lái)600場(chǎng)
國(guó)家大劇院周末音樂(lè)會(huì)迎來(lái)600場(chǎng)