条件随机场(ConditionalRandomField )简介
由Lafferty等⼈于2001年提出,是⼀种判别式概率模型,在许多⾃然语⾔处理任务中⽐如分词,命名实体识别等表现尤为出⾊。本篇与lafferty原始论⽂相同,将着重介绍条件随机场的⼀种特殊形式——线性链条件随机场(Linear Chain CRF)。
为什么需要CRF
作为Motivation,我们考虑如下词性标注任务:
对于⼀段输⼊⽂字“The dog barks”,我们希望获得他的词性标注“The/D(冠词) dog/N(名词) barks/V(动词)"。也就是对于⼀段输⼊序列,我们希望获得相应的特定任务的输出序列。⽐如刚刚举的词性标注例⼦,此时将对应字典集⾥⾯的词,则是词性集⾥⾯的元素
⼀个解决⽅案——MEMM碳原子
为了解决上述问题,⼀个解决思路是建⽴⼀个条件概率模型:
McCallum等⼈为了解决HMM模型表达能⼒的局限性,于2000年提出了MEMM(Maximum Entropy Markov Model),该模型如下:
MEMM做了⼀个假设,就是状态的转移仅仅依赖于上⼀状态(这⾥我将标注标签称为⼀种状态)。在这样的假设下,转移概率被定义为:
其中是特征函数,作⽤是将当前状态和上⼀状态连同输⼊映射为⼀个数值向量:是权重向量,是模型的参数。通过这样定义,可以很容易求解模型参数,并⽤viterbi算法求出该模型下的最优序列。##Label Bias Problem
MEMM虽然可以很优雅地解决上述问题,然⽽却存在⼀个重⼤缺点,也就是所谓的“标注偏好”问题。什么是标注偏好呢?那就是模型在为输⼊序列打标签的时候,存在偏袒⼼⾥,会倾向于选择某些标签。且看stanford⼤学的⼀个:
=x [x ,x ,....,x ]12n =s [s ,s ,...,s ]12n x n V s n S p (∣)
s x p (∣)s x =p (s ,s ,....,s ∣x ,x ,...,x )12n 12n =p (s ∣s ,s ,...,s ,x ,x ,...,x )
i =1∏n i 12i −112n =
p (s ∣s ,x ,x ,...,x )i =1∏n i i −112n =i =1∏
n exp (f (s ,s ,))∑s ∈S ′w T ′i −1x exp (f (s ,s ,))
w T i i −1x p (s ∣s ,x ,x ,...,x )
i i −112n =exp (f (s ,s ,))
∑s ∈S ′w T ′i −1x exp (f (s ,s ,))
w T i i −1x f (s ,s ,)i i −1x f (s ,s ,)→i i −1x R d
w w s x
从图中可以观察,局部状态转移时,倾向于转移到,⽽倾向于停留在, 但是最终最好的序列却是:(0.40.450.5=0.09取得最⼤概率!)。为什么会这样呢?注意到只有两种转移状态:,⽽有5种转移状态:。对于的转移概率,由MEMM的定义,可得:
⽽对于的转移概率计算则是:白蛇与许仙
说明什么问题呢?因为的转移状态很少,所以不管实际训练观测值有多少,由于每⼀步的状态转移概率都要归⼀化,所以的转移概率都会被放⼤,⽽由于转移状态多,因此每⼀步转移概率归⼀化的时候都被平均分摊了。因此在计算最优序列的时候,MEMM会偏袒那些状
态转移少的标签,⽽忽略了实际观察值,为了说明该现象,我们再举出原始论⽂的例⼦,如下图:
s 1s 2s 2s 2s ,s ,s ,s 1111s 1s ,s 12s 2s ,s ,s ,s ,s 12345s 1p (s ∣s ,)=11x exp (f (s ,s ,))
∑s ∈s ,s ′12w T ′1x exp (f (s ,s ,))
w T 11x p (s ∣s ,)=21x exp (f (s ,s ,))
∑s ∈s ,s ′12w T ′1x exp (f (s ,s ,))
七下英语单词
w T 21x s 2p (s ∣s ,)=12x exp (f (s ,s ,))
∑s ∈s ,...,s ′15w T ′2x exp (f (s ,s ,))
w T 12x p (s ∣s ,)=22x exp (f (s ,s ,))
∑s ∈s ,...,s ′15w T ′2x exp (f (s ,s ,))
w T 22x ...p (s ∣s ,)=52x exp (f (s ,s ,))
∑s ∈s ,...,s ′15w T ′2x exp (f (s ,s ,))
w T 52x s 1s 1s 2
春节的对联
假设我们有⼀个辨别单词的状态机,对于单词rib和rob,从字母r出发分出两条边,经过i和o,最后到达b。对于MEMM,它对于⼀个单词判断是rib的概率为:
判断为rob的概率为:
注意到,因为这些状态的转移都只有⼀条边,所以必然转移到下⼀个状态,那么只要训练数据中rob更加多,也就是那么在预测阶段,预测值将始终是rob,⽽不管实际观测值。
1瓦特
#CRF
为了解决Label Bias Problem,CRF便诞⽣了。⾸先我们必须明确MEMM产⽣Label Bias的根源是什么,这是因为MEMM的状态转移概率的计算⽅式,为了获得转移概率,它每⼀步的状态转移都会进⾏归⼀化,从⽽导致问题的产⽣。CRF认清了问题的根源,只要不要在每⼀步状态转移进⾏归⼀化,⽽在全局进⾏归⼀化即可:
CRF相对于MEMM做了⼏个改动,⾸先在特征函数上⾯做了变动:
它将输⼊序列和输出标注映射为⼀个d维实数向量,⽽MEMM的特征函数拥有的信息只是输⼊序列和当前状态以及上⼀个状态,也就是说CRF的特征函数掌握信息量更多,从⽽表达能⼒更强。第⼆个的改进是它不再每⼀次状态转移进⾏归⼀化,⽽是在全局进⾏归⼀化,这样完美解决Label Bias问题。
什么待毙
有得必有失,注意到模型的分母需要罗列所有的状态序列,对于序列长度为的输⼊序列,状态序列的个数为,对于这种指数增长问题,在实际应⽤中⼀般都是intractable的,只能付诸于近似求解,⽐如我们之前提过的Variational Bayes或者Gibbs Sampling等等。不过有⼀种特殊结构的CRF,精确快速求解的⽅式是存在的,因此在早期得以⼴泛应⽤。
##Linear Chain CRF
此处揭晓我们的主⾓——线性链CRF。熟悉概率图模型的同学可以⼀睹它的容貌:
x p (rib ∣x )=p (r ∣∗,x )p (i ∣r ,x )p (b ∣i ,x )
p (rob ∣x )=p (r ∣∗,x )p (o ∣r ,x )p (b ∣o ,x )
p (b ∣i ,x )=p (b ∣o ,x )=1p (i ∣r ,x )<p (o ∣r ,x )x p (∣)=s x exp (Φ(,))
∑∈S s ′n w T s ′x exp (Φ(,))
w T s x Φ(,)→s x R d
x s x n ∣S ∣n
对于这样的⽆向图,通过定义特征函数,可以将原来intractable的问题变为tractable。我们来看看到底是如何定义的:广播
对于第维的特征函数值则记录为:
通过这样巧妙的定义:全局特征等于局部特征的和,⼀切阻碍都迎刃⽽解!
###参数估计
接下来我们介绍对于Linear Chain CRF如何进⾏参数参数估计的。假设我们有训练集,对应的标注集合,那么其对应的对数似然函数为:对进⾏求导可得:
问题出现在上⾯减号的右半部分,我们单独讨论(为了记号⽅便,我们省去上标):
ΦΦ(,)=s x ϕ(s ,s ,)i ∑i −1i x k Φ(,)=k s x ϕ(s ,s ,)
i ∑k i −1i x ,,...,x 1x 2x N ,,...,s 1s 2s N L =
log p (∣)i ∑N s i x i =
log i ∑N exp (Φ(,))∑∈S s ′n w T s ′x i exp (Φ(,))w T s i x i =log i ∑N exp (w Φ(,))∑∈S s ′n ∑k k k s ′x i
exp (w Φ(,))∑k k k s i x i w j =∂w j ∂L Φ(,)−i ∑N j s i x i i ∑N exp (w Φ(,))∑∈S s ′n ∑k k k s ′x i exp (w Φ(,))Φ(,)∑s ∈S ′n ∑k k k s ′x i j s i x i =Φ(,)−i ∑N j s i x i p (∣x )Φ(,)i ∑N ∈S s ′n ∑s ′i j s i x i i p (∣x )Φ(,)∈S s n ∑
s j s x =p (∣x )
ϕ(s ,s ,)
∈S s n ∑s k ∑j k −1k x =
橄榄油怎么用p (∣x )ϕ(s ,s ,)
k ∑∈S s n ∑s j k −1k x (s =∑∑,)p (∣)
∑
现在问题在于对于任意我们是否能快速求解
Forward-Backward 算法
⾸先对于如下概率图模型:
根据定义,我们可得:
因此有:
对于熟悉概率图模型的同学,如果我们定义:
=ϕ(s =k ∑a ∈S ,b ∈S ∑j k −1a ,s =k b ,)p (∣)x ∈S ,s =b ,s =a s n k k −1∑
s x a ,b p (s ,s ,...,s ,s ,...,s ∣)∈S ,s =b ,s =a s n k k −1∑12i −1i n x =p (s ,s ,...,s ,s ,...,s ∣)
∈S ,s =b ,s =a s n k k −1∑
12k −1k n x =p (s =k −1a ,s =k b ∣)x p (∣)=s x =ψ()x ψ(,)
s x exp (Φ(,))∑∈S s ′n w T s ′x exp (Φ(,))w T s x ψ()=x exp (Φ(,))
∈S s n ∑w T s x =exp (
w ϕ(s ,s ,))∈S s n ∑k ∑k j ∑k j −1j x =exp (
w ϕ(s ,s ,))∈S s n ∑j ∑k ∑k k j −1j x =exp (w ϕ(s ,s ,))
∈S s n ∑j ∏k ∑k k j −1j x ψ(s ,s )=j −1j exp (w ϕ(s ,s ,))k ∑k k j −1j x