資源描述:
《網(wǎng)絡(luò)多媒體技術(shù)(西電版)第2章多媒體數(shù)據(jù)壓縮編碼技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第2章多媒體數(shù)據(jù)壓縮編碼技術(shù)2.1多媒體數(shù)據(jù)壓縮的必要性和可行性2.2多媒體數(shù)據(jù)壓縮理論基礎(chǔ)2.3壓縮算法的分類及性能評價(jià)2.4熵編碼2.5預(yù)測編碼第2章多媒體數(shù)據(jù)壓縮編碼技術(shù)2.6變換編碼2.7矢量量化編碼2.8壓縮編碼新技術(shù)2.9本章小結(jié)思考練習(xí)題在多媒體系統(tǒng)中,處理、傳輸、存儲(chǔ)的多媒體信息主要包括文字、聲音、圖形、圖像、視頻等媒體類型,這些媒體以大量數(shù)據(jù)的形式存在,如果不對它們進(jìn)行壓縮,是無法在計(jì)算機(jī)中存儲(chǔ)、處理和傳輸?shù)?。所以,多媒體數(shù)據(jù)的壓縮編碼技術(shù)是網(wǎng)絡(luò)多媒體技術(shù)中的重要基礎(chǔ)。本章主要討論多媒體數(shù)據(jù)編碼基本原理、常用壓縮編碼方法以及新型壓縮編碼技術(shù)。2.
2、1.1多媒體數(shù)據(jù)壓縮的必要性信息時(shí)代的重要特征是信息的數(shù)字化,而數(shù)字化后的視頻和音頻等媒體信息具有媒體海量性,這與當(dāng)前硬件技術(shù)所能提供的計(jì)算機(jī)存儲(chǔ)資源和網(wǎng)絡(luò)帶寬之間有很大差距。這樣,就對多媒體信息的存儲(chǔ)和傳輸造成了很大困難,成為阻礙人們有效獲取和利用信息的一個(gè)瓶頸問題。不能對多媒體數(shù)據(jù)進(jìn)行有效的壓縮,就難以保證通信的順利進(jìn)行。數(shù)字化了的視頻和音頻信號的數(shù)據(jù)量是非常驚人的。下面舉例來說明。2.1多媒體數(shù)據(jù)壓縮的必要性和可行性對于音頻信息來說,人在正常說話時(shí)的音頻一般為200Hz~3.4kHz,即人類語音的寬度約為3.4kHz。同樣依據(jù)采樣定理,并設(shè)數(shù)字化精度為8bi
3、t,則每秒的數(shù)據(jù)量為3.4×2×8=54.4kb即在上述采樣條件下講1分鐘話的數(shù)據(jù)量約為400kb。 以一般彩色電視信號為例,設(shè)代表光強(qiáng)、色彩和色飽和度的YIQ空間中各分量的帶寬分別為4MHz、1.3MHz和0.5MHz。根據(jù)采樣定理,僅當(dāng)采樣頻率大于或等于2倍的原始信號的頻率時(shí),才能保證采樣后的信號可被無失真地恢復(fù)為原始信號。再設(shè)各樣點(diǎn)均被數(shù)字化為8bit,從而1秒鐘的電視信號的數(shù)據(jù)量為(4+1.3+0.5)×2×8=92.8MB因而一張640MB容量的CD-ROM能夠存放的原始電視數(shù)據(jù)(每字節(jié)附有2位校驗(yàn)位)為也就是說,一張普通光盤只
4、能存放44s的原始數(shù)據(jù)。 表2-1列出了支持語音、圖像、視頻等多媒體信號高質(zhì)量存儲(chǔ)和傳輸所必需的未壓縮速率以及信號特性。表2-1各種信號的特性和未壓縮速率從以上兩個(gè)例子以及表2-1可以看出:未進(jìn)行任何形式的編碼和壓縮的多媒體信息數(shù)據(jù)量龐大,如果不進(jìn)行壓縮處理,計(jì)算機(jī)系統(tǒng)幾乎無法對其進(jìn)行存取和交換。因此,對多媒體數(shù)據(jù)進(jìn)行壓縮十分必要。2.1.2多媒體數(shù)據(jù)壓縮的可行性從信息論觀點(diǎn)來看,描述信源的數(shù)據(jù)是信息量(信源熵)和信息冗余量之和。數(shù)據(jù)壓縮編碼的本質(zhì)就是減少這些冗余量,從而可以減少數(shù)據(jù)量而不是減少信源的信息量。一般而言,圖像、視頻、音頻數(shù)據(jù)中存在的數(shù)據(jù)冗余類型主
5、要有以下這些:(1)空間冗余。在同一幅圖像中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性,這些相關(guān)性的光成像結(jié)果在數(shù)字化圖像中就表現(xiàn)為數(shù)據(jù)冗余。(2)時(shí)間冗余。時(shí)間冗余反映在圖像序列中就是相鄰幀圖像之間有較大的相關(guān)性,一幀圖像中的某物體或場景可以由其他幀圖像中的物體或場景重構(gòu)出來。音頻的前后樣值之間也同樣有時(shí)間冗余。(3)信息熵冗余。信源編碼時(shí),當(dāng)分配給第i個(gè)碼元類的比特?cái)?shù)b(yi)=-lbPi(Pi為第i個(gè)碼元類的概率)時(shí),才能使編碼后的單位數(shù)據(jù)量等于其信源熵,即達(dá)到其壓縮極限。但實(shí)際中各碼元類的先驗(yàn)概率很難預(yù)知,比特分配不能達(dá)到最佳,因而使實(shí)際單位數(shù)據(jù)量大于信
6、源熵,即存在信息熵冗余。(4)視覺冗余。人眼對于圖像場的注意是非均勻的,人眼并不能察覺圖像場的所有變化。事實(shí)上人類視覺的一般分辨能力為26灰度等級,而一般圖像的量化采用的是28灰度等級,即存在著視覺冗余。(5)聽覺冗余。人耳對不同頻率的聲音的敏感度是不同的,并不能察覺所有頻率的變化,因此存在聽覺冗余。(6)其他冗余,包括結(jié)構(gòu)冗余、知識冗余等。 在實(shí)際編碼中,人們總是利用這些冗余進(jìn)行壓縮。例如圖2-1中,F(xiàn)1幀中有一輛汽車和一個(gè)路標(biāo)P,經(jīng)過時(shí)間T后,圖像F2仍包含以上兩個(gè)物體,只是小車向前行駛了一段路程。此時(shí),F(xiàn)1和F2是時(shí)間相關(guān)的,后一幅圖像F2在參照圖像F1
7、的基礎(chǔ)上只需很少數(shù)據(jù)量即可表示出來,從而減少了存儲(chǔ)空間,實(shí)現(xiàn)了數(shù)據(jù)壓縮。再比如人臉的圖像有固定的結(jié)構(gòu),嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于臉的中線上,等等。根據(jù)已有的這些知識,可以構(gòu)造其基本模型,因而圖像的存儲(chǔ)只需要保存一些特征參數(shù),從而可以大大減少數(shù)據(jù)量。 隨著對人類視覺系統(tǒng)和圖像模型的進(jìn)一步研究,人們可能會(huì)發(fā)現(xiàn)更多的冗余性,使圖像數(shù)據(jù)壓縮編碼的可行性越來越大,從而推動(dòng)圖像壓縮技術(shù)的進(jìn)一步發(fā)展。圖2-1時(shí)間冗余多媒體數(shù)據(jù)壓縮編碼必須在保持信息源內(nèi)容不變或損失不大的前提下才有意義,這就必然涉及信息的度量問題。下面首先討論信源模型及其熵,然后介紹無失真編碼
8、理論和有失