版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-信息冗余

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

在信息論中,信息冗余是傳輸消息所用數(shù)據(jù)位的數(shù)目與消息中所包含的實際信息的數(shù)據(jù)位的數(shù)目的差值。數(shù)據(jù)壓縮是一種用來消除不需要的冗余的方法,校驗和是在經(jīng)過有限信道容量的噪聲信道中通信,為了進行錯誤校正而增加冗余的方法。

定量定義在描述原始數(shù)據(jù)的冗余時,信源信息率為平均每個符號的熵。對于無記憶信源,這僅是每個符號的熵;而對于一個隨機過程的最普遍形式為前n個符號的聯(lián)合熵除以n之后,隨著n趨于無窮時的極限

在信息論中經(jīng)常提及一種語言的“熵率”或者“信息熵”。當(dāng)信源是英文散文時這是正確的。由于無記憶信源的消息之間沒有相互依賴性,所以無記憶信源的信息率為 。

信源的絕對信息率

即是消息空間基數(shù)的對數(shù)值。這個公式也稱作Hartley函數(shù)。這是傳送用這個字母表表示的信息的最大信息率。其中對數(shù)要根據(jù)所用的測量單位選擇合適的底數(shù)。當(dāng)且僅當(dāng)信源是無記憶的且均勻分布的時候,絕對信息率等于信息率。

絕對信息冗余定義為

即信息率與絕對信息率之間的差。

稱為相對信息冗余,它表示了最大的數(shù)據(jù)壓縮率,這個壓縮率用文件大小減小比例所表示。當(dāng)用原始文件與壓縮后的文件表示的時候, 表示能夠得到的最大壓縮率。與相對信息冗余互補的是效率 ,于是 。均勻分布的無記憶信源的冗余為0,效率為100%,因此無法壓縮。1

其它的冗余概念兩個變量之間冗余的度量是互信息或者正規(guī)化變量。多個變量之間冗余的度量是全相關(guān)(total correlation)。

壓縮數(shù)據(jù)的冗余是指 n}個消息的期望壓縮數(shù)據(jù)長度為(或期望數(shù)據(jù)熵率 )與熵值 (或熵率)的差。(這里我們假設(shè)數(shù)據(jù)是遍歷的也是平穩(wěn)的,例如無記憶信源。)雖然熵率之差 會隨著 增加而任意小,實際的差 已不能(盡管理論上可以)在有限熵的無記憶信源情況下上界為 1。2

本詞條內(nèi)容貢獻者為:

吳晨濤 - 副研究員 - 上海交通大學(xué)