資源描述:
《h.2642favc視頻編碼標(biāo)準(zhǔn)的算法研究與優(yōu)化》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、空域冗余:一般一幅圖像中經(jīng)常存在著大量內(nèi)容一致的區(qū)域的,在空間上存在著很大的相關(guān)性,例如圖像的背景區(qū)域,對于該類冗余可以通過幀內(nèi)預(yù)測、變換等技術(shù)進(jìn)行消除。時域冗余:指視頻序列在時域上存在極強(qiáng)的相關(guān)性,具體體現(xiàn)為連續(xù)圖像間的內(nèi)容變化不大。通常對視頻序列而言,除非發(fā)生場景切換,否則相繼幀在時間上都是連續(xù)的。在前后兩幀中往往包含與當(dāng)前幀相同的背景和對象。只是由于鏡頭的轉(zhuǎn)動或?qū)ο蟮囊苿邮沟每臻g位置發(fā)生變化。對于該類冗余通常采取幀間預(yù)測的手段消除。統(tǒng)計冗余:指在對信息進(jìn)行熵編碼的過程中,若采用不同的編碼方法,則編
2、碼每個信源符號的平均比特數(shù)有時會大不相同,即編碼碼字間存在不同程度的冗余,因此編碼效率有時也會相差甚遠(yuǎn),如我們熟知的香農(nóng)編碼、哈夫曼碼、游程編碼等,對不同的信源所表現(xiàn)出來的性能也是不同的。結(jié)構(gòu)冗余和知識冗余:圖像的某些區(qū)域存在非常強(qiáng)的紋理結(jié)構(gòu),圖像像素值有明顯的分布模式,形成結(jié)構(gòu)冗余。或者圖像中包含的信息與某些先驗知識有關(guān),例如人的五官位置對于人臉而言就是一種先驗知識,這種冗余構(gòu)成知識冗余。心理視覺冗余:主要指人眼視覺系統(tǒng)對圖像的對比度、色彩、空間、時間、以及頻率等特性的分辨能力有一定的限度,因此在一定
3、程度上降低表示信號的精度,人眼察覺不到,從而能夠降低數(shù)據(jù)量,達(dá)到壓縮的目的。主要包括對比度敏感性、色彩敏感性、紋理敏感性、空間頻率敏感性等幾個方面,這些特性在降低數(shù)據(jù)采樣速率、分級量化等技術(shù)中得到廣泛應(yīng)用。1.2.2視頻數(shù)據(jù)壓縮原理視頻數(shù)據(jù)壓縮的根由在于上述冗余能夠得以削弱,為了消除視頻數(shù)據(jù)的上述冗余,從上個世紀(jì)四、五十年代開始人們就進(jìn)行了很多研究。對于視頻數(shù)據(jù)中的空域冗余,正交變換能夠?qū)⒖沼蛳嚓P(guān)的數(shù)據(jù)轉(zhuǎn)換成頻域內(nèi)不相關(guān)的變換系數(shù)來表示,同時正交變換還起到能量集中的作用,能夠用若干個低頻系數(shù)近似表示原來
4、的能量。因此變換與隨后的量化相結(jié)合能夠舍棄一些高頻部分不重要的系數(shù),從而達(dá)到壓縮的目的。視頻數(shù)據(jù)中的時域冗余可以用運動預(yù)測技術(shù)來消除,其基本思想是將連續(xù)的視頻圖像內(nèi)容進(jìn)行匹配,對匹配的內(nèi)容進(jìn)行做差預(yù)測,從而降低冗余,匹配既可以是基于幀的,也可以基于塊的,甚至像素級的匹配。對于統(tǒng)計冗余,主要是通過熵編碼技術(shù)的研究,通過其提高熵編碼效率來降低統(tǒng)計冗余,如從哈夫曼變長碼到算術(shù)編碼。以上這些技術(shù)在發(fā)展過程中逐漸融合,形成了典型的基于變換/預(yù)測的混合編碼框架,主要包括熵編碼、變換編碼與預(yù)測編碼等關(guān)鍵技術(shù)。如圖1-
5、1所示,對熵編碼的研究早在40年代就開始了,并在60年代開始用于視頻編碼,80年代中期出現(xiàn)了二維變長編碼(2DVLC)和算術(shù)編碼。對于預(yù)測技術(shù),50年代出現(xiàn)的DPCM技術(shù)最初只是用于空域預(yù)測,到七十年代開始用于時域預(yù)測編碼,一直到80年代初期,DPCM才不再作為一個單獨的視頻編碼方案,而是與自602年代末期發(fā)展起來的變換技術(shù)結(jié)合起來形成了初步的混合編碼框架,80年代初期開始為MPEG標(biāo)準(zhǔn)采用,再后來DPCM預(yù)測編碼方法發(fā)展為運動補(bǔ)償預(yù)測,形成了傳統(tǒng)的視頻編碼標(biāo)準(zhǔn)基本框架。技術(shù)發(fā)展總是無止境的,這些技術(shù)從
6、產(chǎn)生的那天起就不斷地在提高、改進(jìn),運動預(yù)測部分后從單一的前向預(yù)測變?yōu)楹笙蝾A(yù)測、雙向預(yù)測、多參考幀預(yù)測、加權(quán)預(yù)測等,進(jìn)行運動補(bǔ)償預(yù)測的塊大小從單一的16×16,演變?yōu)閺?6×16一直到4×4的可變塊大小運動補(bǔ)償;運動矢量的精確度也從整像素、半像素發(fā)展到現(xiàn)在的四分之一像素,甚至也不乏更高精度的研究如八分之一像素精度;在變換部分從原來的浮點DCT變換演變?yōu)檎麛?shù)變換;熵編碼也從簡單的二維變長編碼,發(fā)展為三維變長編碼,再到后來進(jìn)一步利用上下文信息進(jìn)行編碼的適應(yīng)性編碼方案,在這些技術(shù)的發(fā)展過程中,形成了如今一系列用
7、于滿足不同應(yīng)用的視頻編碼標(biāo)準(zhǔn),下一節(jié)將對這些標(biāo)準(zhǔn)的歷程及技術(shù)細(xì)節(jié)進(jìn)行介紹。圖1-1視頻編碼技術(shù)發(fā)展史1.2.2視頻編碼標(biāo)準(zhǔn)介紹國際上有兩個國際組織專門進(jìn)行視頻編碼標(biāo)準(zhǔn)的制定工作,即ISO/IEC下的MPEG組織與ITU-T的VCEG組織。成立于1986年的運動圖像專家組MPEG(MotionPictureExpertsGroup)專門負(fù)責(zé)制定多媒體領(lǐng)域內(nèi)的相關(guān)標(biāo)準(zhǔn),主要應(yīng)用于存儲、廣播電視、因特網(wǎng)或無線網(wǎng)上的流媒體等。國際電信聯(lián)盟ITU則主要制定面向?qū)崟r視頻通信領(lǐng)域的視頻編碼標(biāo)準(zhǔn),如視頻電話、視頻會議等
8、應(yīng)用。在國內(nèi)于2002年6月成立的AVS工作組專門負(fù)責(zé)為國內(nèi)多媒體工業(yè)界制定相應(yīng)的數(shù)字音視頻編碼標(biāo)準(zhǔn)。如圖1-2為到目前為止由國內(nèi)外各組織已經(jīng)制定的編碼標(biāo)準(zhǔn)。MPEG組織在1992制定了面向VCD應(yīng)用的MPEG-1標(biāo)準(zhǔn)(啟動于1988年,是ITUH.261的一個超集),數(shù)據(jù)速率在1.5Mbps左右;1994年發(fā)布了面向DVD,數(shù)字視頻廣播等應(yīng)用的MPEG-2標(biāo)準(zhǔn)(啟動于1990年),適用于1.5-60Mbps甚至更高碼率;1998年制定了面