对于信息论的认识
二十世纪四十年代末CESHANNON建立了一套计算信息数
量的方法。我们可以根据事情发生概率的大小,用下式计算信
息量I:
I=-log2P(1)
式中P是收到的消息中所指的事件的概率。信息量的单位简称
‘比特’bit(它来自英语binary的b和digit的it,笔者注)。
有了(1)式,我们就可以对信息进行定量计算。
例如,通常中文电报是四位阿拉伯数字。假定每个阿拉伯
数字出现的可能性是相同的,即每个数字出现的概率为十分之
一。那么我们可以计算出收到每个阿拉伯数字所含的信息量
为I=-log21/10=3.3比特,因而每个汉字是4×3.3=13.2比
特。
下面我们计算一封10000个字母的英文信所含的信息量。
假定每个字母都以等可能性出现,英文字母共26个,把空白
也算作一个字母,那么共有27个字母。于是每个字母出现的
概率为1/27。每个字母的信息量均为-log21/27=4.76比特。
拿27个字母来平均,得到的结果也是4.76比特。一万个字母
共有47600比特的信息量。如果考虑各个字母出现的概率不相
同,那么每个字母的平均信息量为
I=-ΣPilogPi(2)
根据统计结果,英文字母的出现概率如下表所示:
字母概率字母概率字母概率
空格0.2S0.052Y,W0.012
E0.105H0.047G0.011
T0.072D0.035B0.0105
O0.0654L0.029V0.008
A0.063C0.023K0.003
N0.059F,U0.0225X0.002
I0.055M0.021J,Q,Z0.001
R0.054P0.0175
把它们代入(2)式可以算出每个字母的平均信息量为4.03比
特。由此可见,字母的出现概率愈均匀,信息量愈大,反之就
愈小。在极端情况下,假设27个字母中有26个出现的概率为
零,一个字母出现的概率为1,则信息量为零。
从上述的例子可以看到,字母以等概率出现时,每个字母
所含的信息量最大。要传输同样的信息量,字母以等概率出现
时所需的长度(即字母个数)最短。从传输信息量的角度来看,
这是最理想的情况。因为可以用最少的字母传递最多的信息
量。
然而,实际的语言或文字总是达不到上述的极限。就是说,
传输同样的信息量需要较多的字母,具有一定的多余性。从信
息量的角度来看,这似乎是不利的。但是,我们将会看到,由
有了多余性,使人类的语言或文字具有一定的抗干扰能力。有
时候,我们甚至人为地加入一些多余性以换取较强的抗干扰能
力。所谓抗干扰编码就是这样做的。
英文的多余性,不但表现在字母出现的概率不相等,而且
还表现在字母前后之间有一定的相关性。例如,前一个字母是
T,跟着的字母是H的可能性就比较大。T后面跟着Q几乎是不
可能的。同样,IN后面是G的可能性较大,而后面是Y的可能
性较小。如果考虑英文中的两个字母、三个字母或多个字母同
时出现的概率,那么英文的多余性更大,也就是每个字母平均
含的信息量更少。SHANNON用实验方法测定了英文句子里每个
字母所含的信息量约为1.9比特左右。比起字母等概率的情况
(4.76比特),常用英语的多余性是很大的。
SHANNON的实验是先写一个英文句子,包括空白在内共
103个字母。找一个人来猜这个句子。从第一个字母猜起,直
到把整个句子猜出来为止。把对每个字母猜测的次数记录下
来。整个句子总共要猜198次。把猜测次数除以字母数就得到
每个字母的信息量为1.94。用不同的实验方法测定英文字母所
含的信息量,发现出入不大,都是1.9比特左右。
信息论将无始无终的信息理出了头绪,有一点像笛卡尔为
无限的空间设立了坐标。将信息量定义为I=-log2P是因为在
计算信息的时候需要将每个个体信息与整体信息同时对比、考
虑,P已经将个体与整体联系在一起了。
所谓的信息量并不是真正代表信息的数量,而是各个符号
之间相互区别的能力。也可以认为是将整个人类的知识划分成
多少份的一个指标。
汉字熵
熵,是物理名字,在信息论里则叫信息量。从控制论的角
度来看,应叫不确定性。当我们不知道某事物具体状态,却知
道它有几种可能性时,显然,可能性种类愈多,不确定性愈大。
不确定性愈大的事物,我们最后确定了、知道了,这就是说我
们从中得到了愈多的信息,也就是信息量大。所以,熵、不确
定性、信息量,这三者是同一个数值。
事情好像很简单,其实不然。试考虑还没有发明数字的远
古人,他用刻画来记数,用刻n画的方法记数目n。10以内的
数平均每个数要刻(1+10)/2=5.5画,每画的平均信息量是
3.32/5.5=0.604,而100以内的数平均每个数(1+100)/2=50.5
画,每画的平均信息量只有6.64/50.5=0.132。因为古人刻的
每一画是没有次序或位置的区别的,所以每一画的信息量随画
的数量增加而快速减小。次序或位置非常重要,罗马字和我国
古代的数码,也是短画,但要讲究位置组合,每画所含的信息
量就大大提高了。我们讨论的文字信号,都是有次序的。
英文有26个字母,每个字母的信息量H=㏒(26)/㏒(2)=
4.700。汉字个数不定,算1000个时等于3*3.32=9.96,算作
一万、十万时则分别为13.28、16.60。我们是否能随意增加大
量一辈子也用不到的汉字,来无限地增加每个汉字的信息量?
按这个公式计算汉字的信息量时,汉字的平均信息量在字
数达到1000时很快增至9.00,字数达到5000时就达到9.65,
以后几乎不再增加。学者冯志伟有一个“汉字容量极限定律”,
认为字数达到12366后,信息量不再增加。以下是各种语言的
字母的平均信息量:
法文3.98比特
意大利文4.00比特
西班牙文4.01比特
英文4.03比特
德文4.10比特
罗马尼亚文4.12比特
俄文4.35比特
中文9.65比特
有人用小样本统计数据,计算得英文的信息量是4.16。这
个数值稍大些,是因加了一个特殊字符“空格”,㏒(27)=4.755
就比㏒(26)大0.055。可见平均信息量是很稳定的。
多余度
由上可知,有n个符号的文字,每个字符最大的信息量(最
大熵)H
0
=㏒(n)(即-㏒(1/n)),当概率不相等时,其平均信
息量(平均熵)H=-∑p
i
㏒(p
i
)总小于最大信息量H
0
。例如英
文的最大信息量等于4.7,就要用5个二进制数码来编码和传
输。但它的平均信息量近于4.03,表示实际上可用比4个多一
点点的二进制位就可以了。方法是用不等长的编码,概率小的
用长码(多于4位),概率大的用短码(少于4位)。信息量
的计算就可指导我们编码设计,减小码长,提高通信效率。
文字符号除了一定的概率分布包含了一部分信息外,文字
的上下文关系,包含了更多的信息。因为已知一定的前文,且
已知前文愈长,其后的文字符号分布将更确定。计算条件信息
达到的最小的信息量,称为极限信息量(极限熵)H
L
。我们可
以进一步研制使传输更快的编码,即不是对个别文字符号,而
是对文字串进行编码,就可使平均码长减小,逼近极限熵。这
就像我们直接对中文词或句子编码可以提高输入速度一样,因
为许多汉字组合是不可能出现的。
据研究,英文和中文的极限熵为:
英文:0.93~1.56比特
中文:3.45~5.78比特
一个汉字相当于3.7个英文字母。
极限熵H
L
比最大熵H
0
小得多,它们之间的差很大,说明这一
部分熵是多余的,被浪费了。信息论研究这样的多余度:
R=(1-H
L
/H
0
)×100﹪
把以上数据代入公式,可以算得多余度如下:
英文:1-0.93/4.7=80﹪~1-1.56/4.7=67﹪
中文:1-3.45/13.29=74﹪~1-5.78/13.29=56﹪
(注:汉字的最大熵以1万个汉字计,即H
0
=㏒
2
(10000)=13.29)
可见中文的多余度略小。
“一个汉字相当于3.7个英文字母”,若按此计算,中文
比英文的效率高一倍左右(因为无论存储还是传输,每个汉字
都占2个字节,印刷也是每个汉字占两个字母的位置,却相当
于3.7个字节的作用,故3.7/2=1.85倍)。
中文比英文简洁,联合国的5种文件以中文的最薄,则是
事实。
信息论上研究多余度,是为了用编码方法提高传输速度,
多余度高时作用更大。但计算机上每个字符都是用等长码,没
有使用提高速度的编码方法,在这种情况下,文字的多余度小
即浪费小,反而有利。
在通讯上,有时会有意增加多余度,提高纠错能力,保证
可靠性。最常见的是奇偶效验和冗余和。冗余和是发送的一组
码的和。
多余度高,信息字符有缺损时,就有可能恢复。在计算机
上研制这样的软件,利用条件概率的统计规律进行恢复,并不
容易。而印刷或手写文字的恢复,由于汉字的二维结构信息大,
则更容易些,所以汉字的计算机识别也比英文好。
目前信息界,“汉字优越论”者不恰当地把汉字熵远大于
英文熵当作优点,实际上这却是问题的根源所在。作为阅读对
象,汉字信息量确实大,是优点。但作为信息化(数字化)的
对象,汉字信息量(熵)大却是坏事。熵是通讯理论用来估算
被编码对象的平均码长的。被编码的元素必须有限,有定数,
大概还没有在几万个汉字上应用这一理论。集合元素多,熵必
然大。如果对汉字笔画编码,相应的熵反而小,见下表:
编码对象元素数目x最大熵lg(x)平均熵极限熵
英文字母264.704.030.93-1.56
汉字笔画254.643.43
英文字3900(实际100万)11.939.35
汉字6759(实际13万)12.729.653.45-5.78
最后两行最大熵和平均熵的计算,是对6759个汉字和仅
3900英文字(一本英文书)进行的。实际上汉字数可达13万,
英文字达50万甚至有说100万以上。这里用的英文字统计量
是太小了,但平均熵已达9.35,如果统计英文字数超过1万,
达10万以上,其平均熵必大于汉字熵。而以汉字笔画为基础
计算的笔画平均熵为3.43,远小于英文字母的4.03。这是在
取笔画数目为25个,与英文字母数相近时取得的,如果笔画
种类分得更少,熵将更小。
最常用的一万个英文单词的词频表,我们计算一下,平均
每个英文单词的熵值是8.83,可是每个单词的平均字母数是
7.16,加上空格是8.16,动态平均码长是4.12,加上空格是
5.12个字母。
本文发布于:2023-01-03 22:47:35,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/87003.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |