LZ77壓縮算法原理的理解
LZ77壓縮算法原理的理解
數(shù)據(jù)壓縮是一個(gè)減小數(shù)據(jù)存儲(chǔ)空間的過(guò)程,目前被應(yīng)用在軟件工程的各個(gè)地方,了解其一些原理,方便我們更好的甄選壓縮方案。
壓縮方案有很多種,常見的就是有損和無(wú)損壓縮?;舴蚵幋a和LZ77(Lempel-Ziv-1977)都是無(wú)損壓縮,其中霍夫曼是采用最小冗余編碼的算法進(jìn)行壓縮,而LZ77是采用字典的方式進(jìn)行壓縮。關(guān)于霍夫曼編碼的算法,網(wǎng)上有很多對(duì)其詳細(xì)的講解,我們本篇幅不在細(xì)說(shuō),主要圖解一下LZ77壓縮算法的方式,看看其有哪些優(yōu)缺點(diǎn)。
信息熵
數(shù)據(jù)為何是可以壓縮的,因?yàn)閿?shù)據(jù)都會(huì)表現(xiàn)出一定的特性,稱為熵。絕大多數(shù)的數(shù)據(jù)所表現(xiàn)出來(lái)的容量往往大于其熵所建議的最佳容量。比如所有的數(shù)據(jù)都會(huì)有一定的冗余性,我們可以把冗余的數(shù)據(jù)采用更少的位對(duì)頻繁出現(xiàn)的字符進(jìn)行標(biāo)記,也可以基于數(shù)據(jù)的一些特性基于字典編碼,代替重復(fù)多余的短語(yǔ)。
LZ77算法原理
LZ77壓縮算法采用字典的方式進(jìn)行壓縮,是一個(gè)簡(jiǎn)單但十分高效的數(shù)據(jù)壓縮算法。其方式就是把數(shù)據(jù)中一些可以組織成短語(yǔ)(最長(zhǎng)字符)的字符加入字典,然后再有相同字符出現(xiàn)采用標(biāo)記來(lái)代替字典中的短語(yǔ),如此通過(guò)標(biāo)記代替多數(shù)重復(fù)出現(xiàn)的方式以進(jìn)行壓縮。要理解這種算法,我們先了解3個(gè)關(guān)鍵詞:短語(yǔ)字典,滑動(dòng)窗口和向前緩沖區(qū)。
關(guān)鍵詞:
1.前向緩沖區(qū)
每次讀取數(shù)據(jù)的時(shí)候,先把一部分?jǐn)?shù)據(jù)預(yù)載入前向緩沖區(qū)。為移入滑動(dòng)窗口做準(zhǔn)備
2.滑動(dòng)窗口
一旦數(shù)據(jù)通過(guò)緩沖區(qū),那么它將移動(dòng)到滑動(dòng)窗口中,并變成字典的一部分。
3.短語(yǔ)字典
從字符序列S1...Sn,組成n個(gè)短語(yǔ)。比如字符(A,B,D) ,可以組合的短語(yǔ)為{(A),(A,B),(A,B,D),(B),(B,D),(D)},如果這些字符在滑動(dòng)窗口里面,就可以記為當(dāng)前的短語(yǔ)字典,因?yàn)榛瑒?dòng)窗口不斷的向前滑動(dòng),所以短語(yǔ)字典也是不斷的變化。
LZ77的主要算法邏輯就是,先通過(guò)前向緩沖區(qū)預(yù)讀數(shù)據(jù),然后再向滑動(dòng)窗口移入(滑動(dòng)窗口有一定的長(zhǎng)度),不斷的尋找能與字典中短語(yǔ)匹配的最長(zhǎng)短語(yǔ),然后通過(guò)標(biāo)記符標(biāo)記。我們還以字符ABD為例子,看如下圖:
目前從前向緩沖區(qū)中可以和滑動(dòng)窗口中可以匹配的最長(zhǎng)短語(yǔ)就是(A,B),然后向前移動(dòng)的時(shí)候再次遇到(A,B)的時(shí)候采用標(biāo)記符代替。
壓縮
當(dāng)壓縮數(shù)據(jù)的時(shí)候,前向緩沖區(qū)與移動(dòng)窗口之間在做短語(yǔ)匹配的是后會(huì)存在2種情況:
- 找不到匹配時(shí):將未匹配的符號(hào)編碼成符號(hào)標(biāo)記(多數(shù)都是字符本身)
 - 找到匹配時(shí):將其最長(zhǎng)的匹配編碼成短語(yǔ)標(biāo)記。
 - 短語(yǔ)標(biāo)記包含三部分信息:(滑動(dòng)窗口中的偏移量(從匹配開始的地方計(jì)算)、匹配中的符號(hào)個(gè)數(shù)、匹配結(jié)束后的前向緩沖區(qū)中的第一個(gè)符號(hào))。
 
一旦把n個(gè)符號(hào)編碼并生成響應(yīng)的標(biāo)記,就將這n個(gè)符號(hào)從滑動(dòng)窗口的一端移出,并用前向緩沖區(qū)中同樣數(shù)量的符號(hào)來(lái)代替它們,如此,滑動(dòng)窗口中始終有最新的短語(yǔ)。
我們采用圖例來(lái)看:
1、開始
2、滑動(dòng)窗口中沒有數(shù)據(jù),所以沒有匹配到短語(yǔ),將字符A標(biāo)記為A
3、滑動(dòng)窗口中有A,沒有從緩沖區(qū)中字符(BABC)中匹配到短語(yǔ),依然把B標(biāo)記為B
4、緩沖區(qū)字符(ABCB)在滑動(dòng)窗口的位移6位置找到AB,成功匹配到短語(yǔ)AB,將AB編碼為(6,2,C)
5、緩沖區(qū)字符(BABA)在滑動(dòng)窗口位移4的位置匹配到短語(yǔ)BAB,將BAB編碼為(4,3,A)
6、緩沖區(qū)字符(BCAD)在滑動(dòng)窗口位移2的位置匹配到短語(yǔ)BC,將BC編碼為(2,2,A)
7、緩沖區(qū)字符D,在滑動(dòng)窗口中沒有找到匹配短語(yǔ),標(biāo)記為D
8、緩沖區(qū)中沒有數(shù)據(jù)進(jìn)入了,結(jié)束
解壓
解壓類似于壓縮的逆向過(guò)程,通過(guò)解碼標(biāo)記和保持滑動(dòng)窗口中的符號(hào)來(lái)更新解壓數(shù)據(jù)。
當(dāng)解碼字符標(biāo)記:將標(biāo)記編碼成字符拷貝到滑動(dòng)窗口中
解碼短語(yǔ)標(biāo)記:在滑動(dòng)窗口中查找響應(yīng)偏移量,同時(shí)找到指定長(zhǎng)短的短語(yǔ)進(jìn)行替換。
我們還是采用圖例來(lái)看下:
1、開始
2、符號(hào)標(biāo)記A解碼
3、符號(hào)標(biāo)記B解碼
4、短語(yǔ)標(biāo)記(6,2,C)解碼
5、短語(yǔ)標(biāo)記(4,3,A)解碼
6、短語(yǔ)標(biāo)記(2,2,A)解碼
7、符號(hào)標(biāo)記D解碼
優(yōu)缺點(diǎn)
大多數(shù)情況下LZ77壓縮算法的壓縮比相當(dāng)高,當(dāng)然了也和你選擇滑動(dòng)窗口大小,以及前向緩沖區(qū)大小,以及數(shù)據(jù)熵有關(guān)系。其壓縮過(guò)程是比較耗時(shí)的,因?yàn)橐ㄙM(fèi)很多時(shí)間尋找滑動(dòng)窗口中的短語(yǔ)匹配,不過(guò)解壓過(guò)程會(huì)很快,因?yàn)槊總€(gè)標(biāo)記都明確告知在哪個(gè)位置可以讀取了。
以上就是LZ77壓縮算法原理的理解,如有疑問(wèn)請(qǐng)留言或者到本站社區(qū)交流討論,感謝閱讀,希望能幫助到大家,謝謝大家對(duì)本站的支持!
上一篇:C++利用std::forward_list查找插入數(shù)據(jù)方法示例
欄 目:C語(yǔ)言
下一篇:C語(yǔ)言中棧和隊(duì)列實(shí)現(xiàn)表達(dá)式求值的實(shí)例
本文標(biāo)題:LZ77壓縮算法原理的理解
本文地址:http://www.jygsgssxh.com/a1/Cyuyan/1258.html
您可能感興趣的文章
- 01-10使用C++實(shí)現(xiàn)全排列算法的方法詳解
 - 01-10深入第K大數(shù)問(wèn)題以及算法概要的詳解
 - 01-10深入N皇后問(wèn)題的兩個(gè)最高效算法的詳解
 - 01-10用C++實(shí)現(xiàn)DBSCAN聚類算法
 - 01-10深入全排列算法及其實(shí)現(xiàn)方法
 - 01-10全排列算法的非遞歸實(shí)現(xiàn)與遞歸實(shí)現(xiàn)的方法(C++)
 - 01-10貪心算法 WOODEN STICKS 實(shí)例代碼
 - 01-10輸出1000以內(nèi)的素?cái)?shù)的算法(實(shí)例代碼)
 - 01-10快速模式匹配算法(KMP)的深入理解
 - 01-10海量數(shù)據(jù)處理系列之:用C++實(shí)現(xiàn)Bitmap算法
 


閱讀排行
- 1C語(yǔ)言 while語(yǔ)句的用法詳解
 - 2java 實(shí)現(xiàn)簡(jiǎn)單圣誕樹的示例代碼(圣誕
 - 3利用C語(yǔ)言實(shí)現(xiàn)“百馬百擔(dān)”問(wèn)題方法
 - 4C語(yǔ)言中計(jì)算正弦的相關(guān)函數(shù)總結(jié)
 - 5c語(yǔ)言計(jì)算三角形面積代碼
 - 6什么是 WSH(腳本宿主)的詳細(xì)解釋
 - 7C++ 中隨機(jī)函數(shù)random函數(shù)的使用方法
 - 8正則表達(dá)式匹配各種特殊字符
 - 9C語(yǔ)言十進(jìn)制轉(zhuǎn)二進(jìn)制代碼實(shí)例
 - 10C語(yǔ)言查找數(shù)組里數(shù)字重復(fù)次數(shù)的方法
 
本欄相關(guān)
- 04-02c語(yǔ)言函數(shù)調(diào)用后清空內(nèi)存 c語(yǔ)言調(diào)用
 - 04-02func函數(shù)+在C語(yǔ)言 func函數(shù)在c語(yǔ)言中
 - 04-02c語(yǔ)言的正則匹配函數(shù) c語(yǔ)言正則表達(dá)
 - 04-02c語(yǔ)言用函數(shù)寫分段 用c語(yǔ)言表示分段
 - 04-02c語(yǔ)言中對(duì)數(shù)函數(shù)的表達(dá)式 c語(yǔ)言中對(duì)
 - 04-02c語(yǔ)言編寫函數(shù)冒泡排序 c語(yǔ)言冒泡排
 - 04-02c語(yǔ)言沒有round函數(shù) round c語(yǔ)言
 - 04-02c語(yǔ)言分段函數(shù)怎么求 用c語(yǔ)言求分段
 - 04-02C語(yǔ)言中怎么打出三角函數(shù) c語(yǔ)言中怎
 - 04-02c語(yǔ)言調(diào)用函數(shù)求fibo C語(yǔ)言調(diào)用函數(shù)求
 
隨機(jī)閱讀
- 08-05dedecms(織夢(mèng))副欄目數(shù)量限制代碼修改
 - 01-10SublimeText編譯C開發(fā)環(huán)境設(shè)置
 - 01-10使用C語(yǔ)言求解撲克牌的順子及n個(gè)骰子
 - 08-05織夢(mèng)dedecms什么時(shí)候用欄目交叉功能?
 - 01-11ajax實(shí)現(xiàn)頁(yè)面的局部加載
 - 08-05DEDE織夢(mèng)data目錄下的sessions文件夾有什
 - 01-10delphi制作wav文件的方法
 - 01-11Mac OSX 打開原生自帶讀寫NTFS功能(圖文
 - 01-10C#中split用法實(shí)例總結(jié)
 - 04-02jquery與jsp,用jquery
 


