条件随机场（ConditionalRandomField）简介

更新时间:2023-06-03 07:26:03 阅读：评论：0

条件随机场（ConditionalRandomField ）简介

由Lafferty等⼈于2001年提出，是⼀种判别式概率模型，在许多⾃然语⾔处理任务中⽐如分词，命名实体识别等表现尤为出⾊。本篇与lafferty原始论⽂相同，将着重介绍条件随机场的⼀种特殊形式——线性链条件随机场(Linear Chain CRF)。

为什么需要CRF

作为Motivation，我们考虑如下词性标注任务：

对于⼀段输⼊⽂字“The dog barks”，我们希望获得他的词性标注“The/D(冠词) dog/N(名词) barks/V(动词)"。也就是对于⼀段输⼊序列，我们希望获得相应的特定任务的输出序列。⽐如刚刚举的词性标注例⼦，此时将对应字典集⾥⾯的词，则是词性集⾥⾯的元素

⼀个解决⽅案——MEMM碳原子

为了解决上述问题，⼀个解决思路是建⽴⼀个条件概率模型：

McCallum等⼈为了解决HMM模型表达能⼒的局限性，于2000年提出了MEMM(Maximum Entropy Markov Model)，该模型如下：

MEMM做了⼀个假设，就是状态的转移仅仅依赖于上⼀状态(这⾥我将标注标签称为⼀种状态)。在这样的假设下，转移概率被定义为：

其中是特征函数，作⽤是将当前状态和上⼀状态连同输⼊映射为⼀个数值向量：是权重向量，是模型的参数。通过这样定义，可以很容易求解模型参数，并⽤viterbi算法求出该模型下的最优序列。##Label Bias Problem

MEMM虽然可以很优雅地解决上述问题，然⽽却存在⼀个重⼤缺点，也就是所谓的“标注偏好”问题。什么是标注偏好呢？那就是模型在为输⼊序列打标签的时候，存在偏袒⼼⾥，会倾向于选择某些标签。且看stanford⼤学的⼀个：

=x [x ,x ,....,x ]12n =s [s ,s ,...,s ]12n x n V s n S p (∣)

s x p (∣)s x =p (s ,s ,....,s ∣x ,x ,...,x )12n 12n =p (s ∣s ,s ,...,s ,x ,x ,...,x )

i =1∏n i 12i −112n =

p (s ∣s ,x ,x ,...,x )i =1∏n i i −112n =i =1∏

n exp (f (s ,s ,))∑s ∈S ′w T ′i −1x exp (f (s ,s ,))

w T i i −1x p (s ∣s ,x ,x ,...,x )

i i −112n =exp (f (s ,s ,))

∑s ∈S ′w T ′i −1x exp (f (s ,s ,))

w T i i −1x f (s ,s ,)i i −1x f (s ,s ,)→i i −1x R d

w w s x

从图中可以观察，局部状态转移时，倾向于转移到，⽽倾向于停留在, 但是最终最好的序列却是：(0.40.450.5=0.09取得最⼤概率！)。为什么会这样呢？注意到只有两种转移状态：，⽽有5种转移状态:。对于的转移概率，由MEMM的定义，可得：

⽽对于的转移概率计算则是：白蛇与许仙

说明什么问题呢？因为的转移状态很少，所以不管实际训练观测值有多少，由于每⼀步的状态转移概率都要归⼀化，所以的转移概率都会被放⼤，⽽由于转移状态多，因此每⼀步转移概率归⼀化的时候都被平均分摊了。因此在计算最优序列的时候，MEMM会偏袒那些状

态转移少的标签，⽽忽略了实际观察值，为了说明该现象，我们再举出原始论⽂的例⼦，如下图：

s 1s 2s 2s 2s ,s ,s ,s 1111s 1s ,s 12s 2s ,s ,s ,s ,s 12345s 1p (s ∣s ,)=11x exp (f (s ,s ,))

∑s ∈s ,s ′12w T ′1x exp (f (s ,s ,))

w T 11x p (s ∣s ,)=21x exp (f (s ,s ,))

∑s ∈s ,s ′12w T ′1x exp (f (s ,s ,))

七下英语单词

w T 21x s 2p (s ∣s ,)=12x exp (f (s ,s ,))

∑s ∈s ,...,s ′15w T ′2x exp (f (s ,s ,))

w T 12x p (s ∣s ,)=22x exp (f (s ,s ,))

∑s ∈s ,...,s ′15w T ′2x exp (f (s ,s ,))

w T 22x ...p (s ∣s ,)=52x exp (f (s ,s ,))

∑s ∈s ,...,s ′15w T ′2x exp (f (s ,s ,))

w T 52x s 1s 1s 2

春节的对联

假设我们有⼀个辨别单词的状态机，对于单词rib和rob，从字母r出发分出两条边，经过i和o，最后到达b。对于MEMM，它对于⼀个单词判断是rib的概率为：

判断为rob的概率为：

注意到，因为这些状态的转移都只有⼀条边，所以必然转移到下⼀个状态，那么只要训练数据中rob更加多，也就是那么在预测阶段，预测值将始终是rob，⽽不管实际观测值。

1瓦特

#CRF

为了解决Label Bias Problem，CRF便诞⽣了。⾸先我们必须明确MEMM产⽣Label Bias的根源是什么，这是因为MEMM的状态转移概率的计算⽅式，为了获得转移概率，它每⼀步的状态转移都会进⾏归⼀化，从⽽导致问题的产⽣。CRF认清了问题的根源，只要不要在每⼀步状态转移进⾏归⼀化，⽽在全局进⾏归⼀化即可：

CRF相对于MEMM做了⼏个改动，⾸先在特征函数上⾯做了变动：

它将输⼊序列和输出标注映射为⼀个d维实数向量，⽽MEMM的特征函数拥有的信息只是输⼊序列和当前状态以及上⼀个状态，也就是说CRF的特征函数掌握信息量更多，从⽽表达能⼒更强。第⼆个的改进是它不再每⼀次状态转移进⾏归⼀化，⽽是在全局进⾏归⼀化，这样完美解决Label Bias问题。

什么待毙

有得必有失，注意到模型的分母需要罗列所有的状态序列，对于序列长度为的输⼊序列，状态序列的个数为，对于这种指数增长问题，在实际应⽤中⼀般都是intractable的，只能付诸于近似求解，⽐如我们之前提过的Variational Bayes或者Gibbs Sampling等等。不过有⼀种特殊结构的CRF，精确快速求解的⽅式是存在的，因此在早期得以⼴泛应⽤。

##Linear Chain CRF

此处揭晓我们的主⾓——线性链CRF。熟悉概率图模型的同学可以⼀睹它的容貌：

x p (rib ∣x )=p (r ∣∗,x )p (i ∣r ,x )p (b ∣i ,x )

p (rob ∣x )=p (r ∣∗,x )p (o ∣r ,x )p (b ∣o ,x )

p (b ∣i ,x )=p (b ∣o ,x )=1p (i ∣r ,x )<p (o ∣r ,x )x p (∣)=s x exp (Φ(,))

∑∈S s ′n w T s ′x exp (Φ(,))

w T s x Φ(,)→s x R d

x s x n ∣S ∣n

对于这样的⽆向图，通过定义特征函数，可以将原来intractable的问题变为tractable。我们来看看到底是如何定义的：广播

对于第维的特征函数值则记录为:

通过这样巧妙的定义：全局特征等于局部特征的和，⼀切阻碍都迎刃⽽解！

###参数估计

接下来我们介绍对于Linear Chain CRF如何进⾏参数参数估计的。假设我们有训练集，对应的标注集合，那么其对应的对数似然函数为：对进⾏求导可得：

问题出现在上⾯减号的右半部分，我们单独讨论(为了记号⽅便，我们省去上标)：

ΦΦ(,)=s x ϕ(s ,s ,)i ∑i −1i x k Φ(,)=k s x ϕ(s ,s ,)

i ∑k i −1i x ,,...,x 1x 2x N ,,...,s 1s 2s N L =

log p (∣)i ∑N s i x i =

log i ∑N exp (Φ(,))∑∈S s ′n w T s ′x i exp (Φ(,))w T s i x i =log i ∑N exp (w Φ(,))∑∈S s ′n ∑k k k s ′x i

exp (w Φ(,))∑k k k s i x i w j =∂w j ∂L Φ(,)−i ∑N j s i x i i ∑N exp (w Φ(,))∑∈S s ′n ∑k k k s ′x i exp (w Φ(,))Φ(,)∑s ∈S ′n ∑k k k s ′x i j s i x i =Φ(,)−i ∑N j s i x i p (∣x )Φ(,)i ∑N ∈S s ′n ∑s ′i j s i x i i p (∣x )Φ(,)∈S s n ∑

s j s x =p (∣x )

ϕ(s ,s ,)

∈S s n ∑s k ∑j k −1k x =

橄榄油怎么用p (∣x )ϕ(s ,s ,)

k ∑∈S s n ∑s j k −1k x (s =∑∑,)p (∣)

∑

现在问题在于对于任意我们是否能快速求解

Forward-Backward 算法

⾸先对于如下概率图模型：

根据定义，我们可得：

因此有：

对于熟悉概率图模型的同学，如果我们定义：

=ϕ(s =k ∑a ∈S ,b ∈S ∑j k −1a ,s =k b ,)p (∣)x ∈S ,s =b ,s =a s n k k −1∑

s x a ,b p (s ,s ,...,s ,s ,...,s ∣)∈S ,s =b ,s =a s n k k −1∑12i −1i n x =p (s ,s ,...,s ,s ,...,s ∣)

∈S ,s =b ,s =a s n k k −1∑

12k −1k n x =p (s =k −1a ,s =k b ∣)x p (∣)=s x =ψ()x ψ(,)

s x exp (Φ(,))∑∈S s ′n w T s ′x exp (Φ(,))w T s x ψ()=x exp (Φ(,))

∈S s n ∑w T s x =exp (

w ϕ(s ,s ,))∈S s n ∑k ∑k j ∑k j −1j x =exp (

w ϕ(s ,s ,))∈S s n ∑j ∑k ∑k k j −1j x =exp (w ϕ(s ,s ,))

∈S s n ∑j ∏k ∑k k j −1j x ψ(s ,s )=j −1j exp (w ϕ(s ,s ,))k ∑k k j −1j x

本文发布于:2023-06-03 07:26:03，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/973378.html

上一篇：2022年大专临床医学自我鉴定(6篇)

下一篇：最新大学临床医学生求职自荐信大学生临床医学专业自荐信(4篇)

标签：转移状态问题模型序列概率标注对应

留言与评论（共有 0 条评论）