深度学习如何引⼊先验知识(临床医⽣的诊断经验)
深度学习的问题
在使⽤传统的深度学习⽹络对病灶进⾏分割时,如,FCNN, U-Net, Den U-Net等,⽹络均只考虑了本⾝图像上的信息,让⽹络本⾝通过⼤量的图像与label的对应关系,进⾏深度学习模型的训练。这⼀系列过程中没有任何⼈⼯的⼲预以及⼈为的先验信息。当数据量⼗分巨⼤时,这种做法往往能够取得⾮常好的分割效果,但当数据量相对较⼩时,如很多医学影像数据往往只有⼏⼗张精准标注的图像,引⼊医⽣本⾝的解剖学信息往往能够取得更好的分割效果。但问题的难点在于如何将医⽣的临床知识进⾏量化表⽰,并与深度学习的分割相结合。Zheng等⼈( )在⽛齿的CT图像上,在的Den U-Net基础上,考虑引⼊了解剖学的知识——病灶部位附近不会有background,materials不会直接连接⾻头。其具体⽅法以及训练过程下⾯进⾏详细阐述。
优化问题
在深度学习分割⽹络中,我们的优化的⽬标函数通常为如下形式:
其中为训练集,为深度学习模型,为原图,是原图对应的label,两者均为向量,向量的长度为图像像素点的个数。⽽⽂章在这⾥考虑了⼀个新的得分函数,,得分越⾼表⽰越符合解剖学的先验知识。为了更
好的适⽤于⼀组图像,这⾥考虑了平均意义下的得分函数,也就是对其添加了期望,期望是关于的条件分布下的。此时,⽬标优化问题变为了:
这⾥的为tuning parameter。但到这⾥会发现,上述的⽬标函数根本⽆法计算,原因是的维度过⾼,为像素点个数,因此对应的期望就⽆法进⾏求解。⽂章在这⾥考虑使⽤了变分推断的⽅法,⽤⼀个 函数来近似,根据标准的变分推断理论,只需使得两者之间的KL散度尽可能⼩,这⾥补充⼀下KL散度的定义:
KL散度(Kullback-Leibler divergence,简称KLD),在讯息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为讯息增益(information gain)。也称讯息散度(information divergence)。
KL散度是两个概率分布和差别的⾮对称性的度量,其通常⽤来度量使⽤基于的分布来编码服从的分布的样本所需的额外的平均⽐特数。典型情况下,表⽰数据的真实分布,表⽰数据的理论分布、估计的模型分布、或的近似分布。
对于离散随机变量,其概率分布P 和 Q的KL散度可按下式定义为
等价于
即按概率求得的P和Q的对数商的平均值。KL散度仅当概率P和Q各⾃总和均为,且对于任何i皆满⾜及时,才有定义。式中出现的情况,其值按处理。
(1/N )L y ,p (y ∣x )(x ,y )∈D l ∑
(θ)
D l p θx y f (y )p θL y ,p (y ∣x )−α
E (f (y ))
θmin ⎩⎨⎧N
1(x ,y )∈D l ∑
(θ)N 1x ∈D l ∑
p (y ∣x )θ⎭
⎬⎫αp θq p θP Q Q P P Q P D (P ∥Q )=KL −
P (i )ln .
i东晋时期
∑
P (i )Q (i )
D (P ∥Q )=
KL P (i )ln i
∑
Q (i )
P (i )
P 1Q (i )>0P (i )>00ln 00
对于连续随机变量,其概率分布和可按积分⽅式定义为:
其中p和q分别表⽰分布P和Q的密度。
更⼀般的,若和为集合的概率测度,且关于绝对连续,则从到的KL散度定义为
为使 与之间的KL散度尽可能⼩,只需使得在上的期望变为上的期望即可。此时的优化⽬标变为:
当我们给定时,上式的优化⽬标变为:
由于上式为凸的,对其进⾏求导,可以得到最优的显⽰表达式:
进⼀步需要考虑的问题
接下来考虑三个问题:1)得分函数的具体形式要怎么构造;2)转化为q函数上的期望是否就直接可计算,⽬前本质上还是⼀个⾮常⾼维的期望;3)如何进⾏算法优化?
1)得分函数的具体形式要怎么构造?
P Q D (P ∥Q )=KL p (x )ln d x
∫−∞∞
q (x )p (x )
P Q X P Q P Q D (P ∥Q )=ln d P
KL ∫X d Q d P
q p θp θq L y ,p (y ∣x )−αλE (f (Y ))−KL q (y ∣x )∥p (y ∣x )θ,q min ⎩⎨⎧N
1(x ,y )∈D l ∑
(θ)N 1x ∈D l ∑
(q (y ∣x )(θ))
⎭
⎬⎫θKL q (y ∣x )∥p (y ∣x )−q
min
(θ)λE (f (y ))
q (y ∣x )q q (y ∣∗x )=p (y ∣C 1
θx )exp{λf (y )}
小黄鱼怎么做
⽂章的对得分函数的构造如下:
其中:
其中表⽰每张图的像素点总个数,表⽰邻域的像素点,⽂章考虑了上下左右四个邻域。为当前像素的类别,为不能与k相接触的类别。这样若类与k类相接触,,对应的总得分就会变⼩,反之亦然。
2)转化为q 函数上的期望是否就直接可计算?
⽂章考虑函数为mean-field family,这样就可以在每个维度进⾏分解,求解时就可使⽤坐标下降法进⾏参数的迭代更新。
函数的分解如下:
经过⼀些计算之后,此时的优化函数可化简为:
为了达到上式的优化⽬标,下⾯接着考虑问题3)也就是如何进⾏优化求解。
3)如何进⾏算法优化?
⾸先可以通过预训练Den U-Net得到初始的,给定参数可通过求解下式,计算出.(先求偏导,⽽后
进⾏算法迭代)这⼀步就是EM算法中的E步。
下⾯给定,通过下式继续求解,这⾥是EM算法中的M步(直接修改深度学习的损失函数,进⾏训练即可)。
最终总体的优化框架为:
剩下优化细节,可参考原⽂,理解起来都⽐较简单了,本博客不再进⾏更详细的叙述。
f (y )=
f y ,y j =1∑
P《增广贤文》全文
j (j NE(j ))宣传方案怎么写
f y ,y =j (j NE(j )){1,∏
i ∈NE(j )y =k j I y =k ,(i ′)y =k j P NE k k ′k ′f =j 0q q q (y ∣x )=q y ∣x j =1∏
P
教师的职业
j (j )艺术哲学
L y ,p (y
∣x )−
E λf y ,y −
KL q y ∣x ∥p (y ∣x )θ,q ,…,q 1p
min ⎩⎨⎧
N
1(x ,y )∈D l ∑
(θ)q ,…,q 1p (j =1∑P
k ∈Ω∑
k j (k )
(j NE(j )))(j =1∏
神龙怎么画
P
j (j )θ)
⎭
⎬⎫
θθq ,…,q 1P q ,…,q 1P min
N 1x ∈D l ∑
(KL q y ∣x ∥p (y ∣x )−E λf y ,y (∏j =1P j (j )θ)q ,…,q 1P (∑j =1P ∑k ∈Ωk j (k )(j NE(j ))))
q ,…,q 1P θL y ,p (y ∣x )+αKL q y ∣x ∥p (y ∣x )θmin ⎩⎨⎧
中国瑰宝
N
1(x ,y )∈D l ∑
(θ)N 1x ∈D l ∑
(j =1∏P
j (j )θ)
⎭
⎬⎫
最终分割效果
画红框的为添加了先验知识的结果,可以发现效果更好。
参考⽂献
本⽂主要是对⽂章 进⾏解读,并参考了维基百科,同时引⼊⾃⼰的⼀些见解。