基于眼动注意力的视觉信息识别方法、系统、介质及设备
1.本发明涉及视觉分析技术领域,尤其涉及一种基于眼动注意力的视觉信息识别方法、系统、介质及设备。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.随着社会的逐渐发展,对视觉信息的分析带来的巨大信息量在各个领域均得到了利用,因此对于视觉信息的准确性判别尤为重要。其中,眼动数据是视觉信息的一种重要来源。人的眼动数据可以体现出多种信息,通过对眼动数据的分析可以对包括抑郁症在内的多种疾病提供帮助。抑郁症是一种常见的精神疾病,它发作时会严重影响到患者的日常生活,甚至会导致自杀。而目前抑郁症诊断方式大多很主观,对于医生的要求很高,且医生的水平良莠不齐,抑郁症误判的可能就大幅上升。因此通过提取眼动数据里的特征,识别其表示的视觉信息,可以大大降低抑郁症的误判机率。
4.然而发明人发现,对眼动数据的提取通常的检测方法是对数据直接进行预测。而因眼动数据数据量小但特征属性又多,导致特征提取困难,或者提取的特征不能准确反应其含有的视觉信息,降低了检测的准确度。
技术实现要素:
5.针对现有技术存在的不足,本发明的目的是提供一种基于眼动注意力的视觉信息识别方法、系统、介质及设备,可以提取眼动信息的注意力特征,并进一步在空间上提取空间注意力特征,在眼动数据有限的情况下,最大限度获取特征中的重点信息,提高视觉信息识别的准确率。
6.为了实现上述目的,本发明是通过如下的技术方案来实现:
7.本发明第一方面提供了一种基于眼动注意力的视觉信息识别方法,包括以下步骤:
8.根据所需视觉信息确定眼动数据的特征属性;
9.通过眼跳实验获得眼动数据,并对眼动数据进行筛选、配准和拟合;
10.基于注意力机制构建视觉信息识别模型,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估;
11.将待检测数据输入评估后的视觉信息识别模型,输出视觉信息识别结果。
12.进一步的,眼跳实验开始前采用九点校正法进行视线追踪系统的校正。
13.进一步的,确定眼动数据的特征属性具体步骤为,通过随机森林选择眼动数据的部分特征,根据随机森林基尼系数进行排序,去除对所需目标分类影响较小或没有影响的属性。
14.进一步的,眼跳实验分为正向眼跳和反向眼跳,正向眼跳为:首先,中央注视点显
示在屏幕上,然后注视点点消失,目标刺激出现在中央注视点的左侧或右侧,要求受试者立即看向目标刺激出现的位置;
15.反向眼跳类似于正向眼跳实验,但要求受试者向目标刺激出现的方向相反的方向看去。
16.进一步的,眼动数据进行筛选、配准和拟合的过程为:将每条实验记录空值超30%的数据删除,并对剩余数据进行配准,经过数据配准后,将每次独立实验都看作为一个样本,把每次独立实验的数据记录的特征拟合成一条多维数据。
17.进一步的,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估的具体过程为:将眼动数据集分为训练,测试,验证数据集,全输入到模型中去,用训练集训练模型,用验证集验证模型,不断调整模型并选择出其中最好的模型,再用训练集和验证集数据训练出一个最终的模型,最后用测试集评估最终的模型。
18.进一步的,视觉信息识别模型包括多头注意力单元,局部注意力(sa)单元以及加和(add)单元,多头注意力单元由多个自注意力层堆叠而成,局部注意力单元将从多头注意力单元获取的输出数据,输入到一维卷积网络,捕捉局部特征;加和单元用于将局部注意力单元输出的注意力矩阵直接相加,得到最终的注意力矩阵,然后通过一个全连接层得到模型的结果。
19.本发明第二方面提供了一种基于眼动注意力的视觉信息识别系统,包括:
20.特征属性模块,被配置为根据所需视觉信息确定眼动数据的特征属性;
21.数据获取模块,被配置为通过眼跳实验获得眼动数据,并对眼动数据进行筛选、配准和拟合;
22.模型构建模块,被配置为基于注意力机制构建视觉信息识别模型,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估;
23.信息识别模块,被配置为将待检测数据输入评估后的视觉信息识别模型,输出视觉信息识别结果。
24.本发明第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于眼动注意力的视觉信息识别方法中的步骤。
25.本发明第四方面提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于眼动注意力的视觉信息识别方法中的步骤。
26.以上一个或多个技术方案存在以下有益效果:
27.本技术方案提出了设置正向和反向眼跳实验来检测人们的反应,从而获取眼动数据,并且提出了基于眼动注意力的视觉信息识别新方法。在此方法中将每个独立实验都作为一个样本数据来处理。在本发明中,眼动数据经过处理后先进入多头注意力单元计算眼动数据的自注意力权重执行第一阶段的特征选择,然后进入局部注意力单元,进一步提取局部注意力特征,获取眼动数据重点信息,再通过加和单元加和数据信息,使得提取的特征更为全面更为准确,在眼动数据有限的情况下,最大限度获取特征中的重点信息,更准确的进行视觉信息的检测,该方法在实验阶段表现良好,在医学等各个领域有着良好的应用前景。
28.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得
明显,或通过本发明的实践了解到。
附图说明
29.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
30.图1为本发明实施例一中视觉信息识别的流程图。
31.图2为本发明实施例一中眼跳实验示意图;
32.图3为本发明实施例一中构建视觉信息识别模型的流程图;
具体实施方式
33.应该指出,以下详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
34.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
35.术语解释:
36.注意力:源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。在计算机领域,注意力核心重点就是让学习网络关注到它更需要关注的地方,是聚焦于局部信息的机制。
37.实施例一:
38.本发明实施例一提供了一种基于眼动注意力的视觉信息识别方法,本实施例以抑郁症为例,对抑郁症患者的视觉信息进行识别,如图1所示,包括以下步骤:
39.根据所需视觉信息确定眼动数据的特征属性,具体的,通过眼动仪提取的眼动数据包含瞳孔大小,位置,注视位置,角膜反射位置等50几个数值特征,通过随机森林选择眼动数据的部分特征,根据随机森林基尼系数进行排序,去除对所需目标分类影响较小或没有影响的属性。以抑郁症患者的视觉信息为例,根据随机森林基尼系数进行排序,去除对抑郁症分类影响较小或没有影响的属性。
40.作为进一步的技术方案,眼跳实验开始前采用九点校正法进行视线追踪系统的校正,以获取更为准确的实验结果,采用时九点校正法时,在x和y轴的偏差小于0.5度视角。
41.先利用眼动仪获取被试者在正向眼跳和反向眼跳实验中的数据,眼跳实验分为正向眼跳和反向眼跳,如图1所示,正向眼跳为:首先,中央凝视点(白“+”)显示在屏幕上,然后凝视点消失,目标刺激(绿点)出现在中心凝视点的左侧或右侧,要求受试者立即看向目标刺激出现的位置;
42.反向眼跳类似于正向眼跳实验,但要求受试者向目标刺激出现的方向相反的方向看去。
43.通过眼跳实验获得眼动数据,并对眼动数据进行筛选、配准和拟合,将拟合后的数据作为数据集进行训练评估。将每条实验记录空值超30%的数据删除,并对剩余数据进行配准,经过数据配准后,将每次独立实验都看作为一个样本,把每次独立实验的数据记录的特征拟合成一条多维数据。
44.具体的,每次正反眼跳实验会得到100条的眼动数据记录,将每条实验记录空值超30%的数据删除。经过数据配准后,正反眼跳分别得到2018个实验记录,又因为每人每次实验都是一次独立实验,将每次独立实验都看作为一个样本,把每次独立实验的100条数据记录全部特征通过均值、最大值、最小值、方差、中位数、四分位(1/4,3/4)等方法拟合成一条162维的数据。最终,正反眼跳实验分别得到2018*162的眼动数据。
45.基于注意力机制构建视觉信息识别模型,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估;将待检测数据输入评估后的视觉信息识别模型,输出视觉信息识别结果。
46.作为进一步的技术方案,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估的具体过程为:将眼动数据集按6:2:2的比例分为训练,测试,验证数据集。全输入到模型中去,用训练集训练模型,用验证集验证模型,根据情况不断调整模型,选择出其中最好的模型,再用训练集和验证集数据训练出一个最终的模型,最后用测试集评估最终的模型。
47.视觉信息识别模型包括多头注意力单元,局部注意力单元以及加和单元,多头注意力单元由多个自注意力层堆叠而成,局部注意力单元将从多头注意力单元获取的输出数据,输入到一维卷积网络,捕捉局部特征;加和单元用于将局部注意力单元输出的注意力矩阵直接相加,得到最终的注意力矩阵,然后通过一个全连接层得到模型的结果。
48.作为进一步的技术方案,多头注意力单元(multihead):顾名思义,它由多个自注意力层堆叠而成。其中自注意力就是就是把一个查询q(query),一个k键和v值(key-value)的集合映射成一个输出,输出就是v的加权求和,其中分配给每个值的权重通过一个相关函数计算q与当前k的相关程度。
49.局部注意力单元:此单元的作用主要是提取空间上局部表达能力更强的特征。将从multihead单元获取的输出数据,输入到两层一维卷积网络,捕捉局部特征。眼动注意力特征输入到第一层卷积网络后,输出维度按比率缩小,经过relu函数激活后,再经过一层卷积变换为原来的维度。随后对卷积过的的数据,每个特征点上的通道取最大值和平均值,压缩通道获取空间信息,将两份数据进行堆叠,再经过一层一维卷积网络学习空间注意力权重,最后通过sigmoid函数激活注意力权值。获取注意力权值后,我们在这个基础上再乘上原输入特征,得到需要的注意力矩阵。此单元的表达式如下:其中,conv1、conv2和conv3分别表示第一、第二和第三层的一维卷积层。
50.cvs((mh)=conv2(relu(conv1(mh)))
51.catm=sigmoid(conv3(concat(mean(cvs),max(cvs))))
52.sa(mh)=mh*catm
53.加和单元:用于对编码器(encoder)进行加和。将每个encoder单元输出的注意力矩阵直接相加,得到最终的注意力矩阵,然后通过一个全连接层得到模型的结果。
54.实施例二:
55.本发明实施例二提供了一种基于眼动注意力的视觉信息识别系统,包括:
56.特征属性模块,被配置为根据所需视觉信息确定眼动数据的特征属性;
57.数据获取模块,被配置为通过眼跳实验获得眼动数据,并对眼动数据进行筛选、配准和拟合;
58.模型构建模块,被配置为基于注意力机制构建视觉信息识别模型,将拟合后的数据作为数据集对视觉信息识别模型进行训练评估;
59.信息识别模块,被配置为将待检测数据输入评估后的视觉信息识别模型,输出视觉信息识别结果。
60.实施例三:
61.本发明实施例三提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本发明实施例一所述的基于眼动注意力的视觉信息识别方法中的步骤。
62.实施例四:
63.本发明实施例四提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例一所述的基于眼动注意力的视觉信息识别方法中的步骤。
64.以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
65.本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
66.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。