概率的拼音

更新时间:2022-11-24 18:09:42 阅读: 评论:0


2022年11月24日发(作者:复制娇妻下载)

以拼⾳输⼊法(⾃然语⾔处理)为例,简单理解隐含马尔可夫

模型

最近在学习语⾳&搜索⽅⾯的知识,属于从门外汉起步,很多这⽅⾯的书在讲解的时候都是要求有相关知识背景或者是⼀堆公式让像我这

样不是学计算机出⾝⽽且数学也学得不好的菜鸟看得头晕眼花的,因此特地写下这篇⽂章讲讲⾃⼰对隐含马尔可夫模型的理解,尽量把它写

得通俗易懂,让⼩⽩也能读懂隐含马尔可夫模型。

所需知识背景:概率论

马尔可夫模型

⾸先我们来了解⼀下马尔可夫模型

百度百科给出的定义:马尔可夫模型(MarkovModel)是⼀种统计模型,⼴泛应⽤在语⾳识别,词性⾃动标注,⾳字转换,概率⽂法等各

个⾃然语⾔处理等应⽤领域。经过长期发展,尤其是在语⾳识别中的成功应⽤,使它成为⼀种通⽤的统计⼯具。

好吧。⼀说到模型可能就让⼈觉得有懵,在这⾥我们可以简单理解为⼀个模具或者⼀条公式,我们知道,公式可以当⼯具使⽤,把数字填进

去,就能获得你想要的结果,当然这⾥不⽌能填数字,还能填⼀些实际的东西。

它的公式是长这样的:

该图也称为马尔可夫链。圆圈就像是平常数学公式⾥的x⼀样,当然在这⾥我们称之为状态,⽽箭头我们可以理解为转移,看起来还是

有点难理解,下⾯我们举个⼩⼩的关于天⽓例⼦。

假设第⼀个圆圈代表第⼀天的天⽓,第⼆个圆圈代表第⼆天的天⽓,以此类推,我们得到下图。

那么这幅图就表明了,第⼀天天⽓状态是晴天,第⼆天天⽓状态还是转移到了晴天,第三天天⽓状态转移到⾬天,第四天天⽓状态转

移到了阴天。⽽马尔可夫模型中,转移⼀般是带有概率的,⽐如第⼀天是晴天,那么假定第⼆天是晴天的概率是80%,第三天是⾬天的概率

是30%,第四天是阴天的概率是50%

那么上图就可以变成如下:

这就是⼀个完整的马尔可夫链。

我们再更换为⼀个⾃然语⾔处理的例⼦,⽤⼀句话⾥的每个字表⽰状态,⽽转移概率则是说出这个字后⾯跟的下⼀个字的概率。下⾯举个例

⼦:“我不想你”

假设每⼀个字的概率只与前⾯⼀个字有关,⽽与前⾯其他字⽆关(“想”字的30%概率只与“不”字有关,⽽不考虑前⾯的“我”字,即为

⼆元模型,如果与前⾯2个字有关,则为三元模型),那么这条马尔可夫链就表⽰⼀个⼈说出“我”字后⾯跟上“不”字的概率是5%(当然

这个数据是编的),后⾯同理。所以我们先假设⼀个⼈说出“我”的概率是P(我)=10%,那么他在任意想说话的⼀刻想表达句⼦“我不想

你”的概率是:

(P(我不想你)=P(我,不,想,你)=P(我)*P(不|我)*P(想|不)*P(你|想)=0.1*0.5*0.3*0.4=0.0006)

推⼴到更⼀般的字句,我们可以假定S为有意义的句⼦,由字(w_1,w_2,w_3,ldots,w_n)组成,

则(P(S)=P(w_1,w_2,ldots,w_n)=P(w_1)*P(w_2|w_1)*ldots*P(w_n|w_{n-1}))

以上就是⼆元马尔可夫模型。

隐含马尔可夫模型

在⽇常⽣活中,我们⼀般利⽤拼⾳进⾏打字,从⽽使我们的想法能够在计算机中得到表达。例如,我想要在计算机中表达“我不想你”,那

么我们就需要往键盘敲⼊“wobuxiangni”这四串英⽂字符,我们从计算机的⾓度出发,假如我们现在是计算机,我们观测到的只有英⽂

字符,并不能直接从键盘中得到汉字“我不想你”,因此把我们观测到的信息,称作观测。

那么我们可以将这个过程⽤下图进⾏表⽰。

图中蓝⾊圆圈表⽰隐含的状态,橙⾊圆圈表⽰观测到的状态,同样地,连接蓝⾊圆圈之间的箭头称作转移,连接蓝⾊圆圈与橙⾊圆圈之

间的箭头我们称作输出。我们可以看到,蓝⾊圆圈是输⼊者⼼⾥所想的字,计算机是⽆法看到的,这就等于状态被隐藏起来了,这就是为

什么叫隐含马尔可夫模型的原因;⽽橙⾊圆圈是计算机能接收到的观测信息,那么现在计算机要做的就是怎样去“猜测”输⼊者所输⼊的橙

⾊圆圈链信息,就是想要表达的蓝⾊圆圈链信息。

当然,如果我是计算机的话,我当然会选择猜⼈们输⼊得最多的那⼀句“wobuxiangni”,那么这下⼜变成了概率的问题了。

⾸先由于没有⼿头数据,我们就随便编⼀下转移概率(后⼀个字会跟前⼀个字的概率)和输出概率(这个拼⾳是想表达这个字的)吧

转移概率前⾯讲过了,就不再多作解释;⽽蓝⾊圆圈到橙⾊圆圈之间的概率,表⽰的是,计算机接收到“wo”,然后猜测这串字母是想表

达“我”的概率是50%,其他同理。

那么我们就可以去算“wobuxiangni”是想要表达“我不想你”的概率:

$$P=P(我)*P(我|wo)*P(不|我)*P(不|bu)*P(想|不)*P(想|xiang)*P(你|

想)*P(想|xiang)=0.1*0.5*0.05*0.3*0.3*0.2*0.4*0.6=0.0000108$$

希望这⼀⼤串计算没有把你看懵,其实仔细慢慢看就能很清晰地看出来是怎么算的了。虽然这个概率看起来有点⼩,但是它在“wobu

xiangni”的各种猜测中已经是最⾼的了,所以它应该是被排到候选句的第⼀位去。

再假设“wobuxiangni”代表的是其他的候选句,如下图。

通过计算可以算出,其他情况都没有“我不想你”的概率⾼,因此,“我不想你”理应放在候选句⾸位。

实际情况:

这跟我们刚刚算出来的结果是⼀样的。

当然,实际应⽤中,拼⾳输⼊法不仅仅是像上⾯仅仅运⽤隐含马尔可夫模型那样简单,还涉及到其他模型,具体我⾃⼰也没有太多去了解,

我只是把它简化了便于讲解隐含马尔可夫模型,在其他⽅⾯的运⽤例如语⾳识别,中⽂分词,输⼊预测等等都是⼤同⼩异的,⾃⼰类⽐⼀下

就差不多啦。

关于转移概率和输出概率的设定,属于参数设定,在本⽂中是我⾃⼰瞎编的,但是在实际应⽤当中需要⽤到⼤数据进⾏统计得出,这就是为

什么各⼤⼚商热衷于收集⽤户的使⽤数据的原因了,收集更多更全⾯的有⽤数据,就能使参数更加准确,就能给⽤户提供更准确、更⼈性化

的体验(⼴告),想想以前还在⽤智能ABC,⼀个⼀个字敲那叫⼀个鸡肋。

以上均为个⼈浅略学习后的总结,不保证完全正确,如果有哪位⼤⼤发现哪些部分解释有误,欢迎并感谢你的指出。

本文发布于:2022-11-24 18:09:42,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/13404.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:cappuccino发音
下一篇:考核机制
标签:概率的拼音
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图