本文作者:kaifamei

一种基于图片对象表征的地点识别方法及相关设备与流程

更新时间:2025-01-09 07:02:47 0条评论

一种基于图片对象表征的地点识别方法及相关设备与流程



1.本技术涉及人工智能技术领域,尤其涉及一种基于图片对象表征的地点识别方法及相关设备。


背景技术:

2.近年来,随着数据科学技术爆炸式的发展,基于图片的地点识别作为其技术路线的一个重要分支,在学界与业界均受到广泛关注,尤其在众多保险行业,相似地点图片的检索,对于异常案件的判断具有重要意义。
3.地点识别,也称为基于图像的定位,是指获取一个当前图像,然后在预先构建的环境地图中进行查,获取一个最相似的参考图像,根据所述参考图像对应的地理位置来识别当前图像对应的地理位置。目前,基于图片的地点识别技术主要有三种分支,一种是基于全局的特征描述,一种是基于局部的特征描述,还有一种是融合全局和局部的特征描述,但上述方法的通用性较差。而在实际应用中,地点的识别往往通过标志建筑物、具有区分度的物体及其相互位置来判断,而上述方法在视角变换或者物体遮挡时,导致特征描述不准确,进而影响地点识别的精度。


技术实现要素:

4.本技术实施例的目的在于提出一种基于图片对象表征的地点识别方法及相关设备,以解决相关技术中地点识别特征描述不准确导致识别精度较低的技术问题。
5.为了解决上述技术问题,本技术实施例提供一种基于图片对象表征的地点识别方法,采用了如下所述的技术方案:
6.获取待识别图片,将所述待识别图片输入训练好的目标检测模型中,其中,所述目标检测模型包括特征提取模块、对象解码模块、相对位置解码模块和输出模块;
7.通过所述特征提取模块获取所述待识别图片的图像特征向量和位置编码向量,并将所述图像特征向量和所述位置编码向量进行融合,得到融合特征向量;
8.将所述融合特征向量输入所述对象解码模块,得到对象表征向量和对象绝对位置向量,并计算所述对象表征向量的置信度;
9.将所述对象表征向量和所述对象绝对位置输入所述相对位置解码模块,得到相对位置对象表征,并根据所述置信度优化所述相对位置对象表征得到优化对象表征;
10.将所述相对位置对象表征和所述优化对象表征输入所述输出模块进行融合,得到对象完整特征;
11.将所述对象完整特征与预设参考数据库中的参考图片的参考对象特征进行匹配,获得目标参考图片,基于所述目标参考图片的地理位置确定待识别图片的地点。
12.进一步的,所述通过所述特征提取模块获取所述待识别图片的图像特征向量和位置编码向量的步骤包括:
13.通过所述特征提取模块提取所述待识别图片每个子区域的子区域特征,根据各所
述子区域特征得到所述图像特征向量;
14.根据各所述子区域之间的位置关系,对每个所述子区域特征的位置进行编码,得到位置编码向量。
15.进一步的,所述对象解码模块包括对象嵌入层、对象注意力层和解耦线性层,所述将所述融合特征向量输入所述对象解码模块,得到对象表征向量和对象绝对位置向量的步骤包括:
16.将训练得到的对象编码输入所述对象嵌入层,生成对象查询向量;
17.将所述融合特征向量和所述对象查询向量输入所述对象注意力层,得到对象全局特征;
18.通过所述解耦线性层对所述对象全局特征进行解耦计算,得到对象表征向量和对象绝对位置向量。
19.进一步的,所述相对位置解码模块包括位置嵌入层和位置注意力层,所述将所述对象表征向量和所述对象绝对位置输入所述相对位置解码模块,计算得到相对位置对象表征的步骤包括:
20.根据所述对象绝对位置向量计算得到相对位置矩阵;
21.将训练好的位置编码输入所述位置嵌入层,得到位置查询向量;
22.将所述位置查询向量、所述对象表征向量和所述相对位置矩阵输入所述位置注意力层进行注意力计算,得到相对位置对象表征。
23.进一步的,所述根据所述置信度优化所述相对位置对象表征得到优化对象表征的步骤包括:
24.根据所述位置查询向量和所述对象绝对位置向量得到所述对象表征向量的特征权重;
25.使用所述置信度对所述特征权重进行调整;
26.基于调整后的所述特征权重对所述对象表征向量进行注意力计算,得到优化对象表征。
27.进一步的,在所述将所述待识别图片输入训练好的目标检测模型中的步骤之前还包括:
28.获取图像数据集,基于所述图像数据集得到图像训练集和图像验证集,所述图像数据集包括每个图像对应的图像标签;
29.将所述图像训练集输入预构建的初始目标检测模型中,输出预测识别结果;
30.基于所述预测识别结果对所述初始目标检测模型进行迭代更新,直至模型收敛,得到待验证模型;
31.将所述图像验证集输入所述待验证模型中进行验证,得到验证结果,在所述验证结果大于等于预设阈值时,确定所述待验证模型为所述目标检测模型。
32.进一步的,所述基于所述预测识别结果对所述初始目标检测模型进行迭代更新,直至模型收敛的步骤包括:
33.基于所述预测识别结果计算损失函数;
34.基于所述损失函数调整所述初始目标检测模型的模型参数,继续进行迭代训练,直至模型收敛。
35.为了解决上述技术问题,本技术实施例还提供一种基于图片对象表征的地点识别装置,采用了如下所述的技术方案:
36.获取模块,用于获取待识别图片,将所述待识别图片输入训练好的目标检测模型中,其中,所述目标检测模型包括特征提取模块、对象解码模块、相对位置解码模块和输出模块;
37.特征提取模块,用于通过所述特征提取模块获取所述待识别图片的图像特征向量和位置编码向量,并将所述图像特征向量和所述位置编码向量进行融合,得到融合特征向量;
38.对象解码模块,用于将所述融合特征向量输入所述对象解码模块,得到对象表征向量和对象绝对位置向量,并计算所述对象表征向量的置信度;
39.相对位置解码模块,用于将所述对象表征向量和所述对象绝对位置输入所述相对位置解码模块,得到相对位置对象表征,并根据所述置信度优化所述相对位置对象表征得到优化对象表征;
40.输出模块,用于将所述相对位置对象表征和所述优化对象表征输入所述输出模块进行融合,得到对象完整特征;
41.匹配模块,用于将所述对象完整特征与预设参考数据库中的参考图片的参考对象特征进行匹配,获得目标参考图片,基于所述目标参考图片的地理位置确定待识别图片的地点。
42.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
43.该计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于图片对象表征的地点识别方法的步骤。
44.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
45.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于图片对象表征的地点识别方法的步骤。
46.与现有技术相比,本技术实施例主要有以下有益效果:
47.本技术通过获取待识别图片,将待识别图片输入训练好的目标检测模型中,其中,目标检测模型包括特征提取模块、对象解码模块、相对位置解码模块和输出模块;通过特征提取模块获取待识别图片的图像特征向量和位置编码向量,并将图像特征向量和位置编码向量进行融合,得到融合特征向量;将融合特征向量输入对象解码模块,得到对象表征向量和对象绝对位置向量,并计算对象表征向量的置信度;将对象表征向量和对象绝对位置输入相对位置解码模块,得到相对位置对象表征,并根据置信度优化相对位置对象表征得到优化对象表征;将相对位置对象表征和优化对象表征输入输出模块进行融合,得到对象完整特征;将对象完整特征与预设参考数据库中的参考图片的参考对象特征进行匹配,获得目标参考图片,基于目标参考图片的地理位置确定待识别图片的地点;本技术通过将图像特征向量和位置编码向量进行融合得到的融合特征向量进行解码解耦,得到对象表征向量和对象绝对位置向量,再根据对象表征向量和对象绝对位置向量得到相对位置对象表征,
并使用置信度优化相对位置对象表征得到优化对象表征,融合优化对象表征和相对位置对象表征得到对象完整特征,可以获取到图片中对象的完整特征信息,使得特征表达更加丰富,也更加准确,进一步提高地点识别的精度,鲁棒性更强。
附图说明
48.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1是本技术可以应用于其中的示例性系统架构图;
50.图2是根据本技术的基于图片对象表征的地点识别方法的一个实施例的流程图;
51.图3是根据本技术的基于图片对象表征的地点识别装置的一个实施例的结构示意图;
52.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
53.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
54.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
55.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
56.本技术提供了一种基于图片对象表征的地点识别方法,涉及人工智能,可以应用于如图1所示的系统架构100中,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
57.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
58.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
59.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
60.需要说明的是,本技术实施例所提供的基于图片对象表征的地点识别方法一般由服务器/终端设备执行,相应地,基于图片对象表征的地点识别装置一般设置于服务器/终端设备中。
61.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
62.继续参考图2,示出了根据本技术的基于图片对象表征的地点识别方法的一个实施例的流程图,包括以下步骤:
63.步骤s201,获取待识别图片,将待识别图片输入训练好的目标检测模型中,其中,目标检测模型包括特征提取模块、对象解码模块、相对位置解码模块和输出模块。
64.在本实施例中,将获取到的待识别图片输入训练好的目标检测模型中,经过目标检测模型中的特征提取模块、对象解码模块、相对位置解码模块和输出模块,依次进行处理,可以输出地点识别结果。
65.步骤s202,通过特征提取模块获取待识别图片的图像特征向量和位置编码向量,并将图像特征向量和位置编码向量进行融合,得到融合特征向量。
66.在本实施例中,通过特征提取模块提取待识别图片的图像特征,得到图像特征向量,并对图像特征进行位置编码,得到待识别图片对应的位置编码向量。其中,特征提取模块可以使用骨干网络提取法、卷积神经网络cnn提取法或者基于transformer的深度学习网络提取法进行特征提取,在此并不做限制。
67.将图像特征向量和位置编码向量进行融合,得到融合特征向量vfp,包括:将图像特征向量进行展平,采用位置编码向量进行特征补充,得到融合特征向量,例如,可以将位置编码向量嵌入到图像特征向量中,将图像特征向量与位置编码向量进行相加,或者将图像特征向量与位置编码向量进行拼接,得到融合特征向量。
68.在本实施例中,上述通过特征提取模块获取待识别图片的图像特征向量和位置编码向量的步骤包括:
69.通过特征提取模块提取待识别图片每个子区域的子区域特征,根据各子区域特征得到图像特征向量;
70.根据各子区域之间的位置关系,对每个子区域特征的位置进行编码,得到位置编码向量。
71.其中,可以采用骨干网络提取法提取待识别图片的每个子区域的图像特征,骨干网络提取法主要是通过使用类似残差网络resnet、vgg等骨干特征提取网络直接生成特定尺寸大小的特征图。
72.对每个子区域的图像特征进行提取,得到每个子区域对应的子区域特征vf,将各个子区域特征进行拼接得到待识别图片的图像特征向量,该图像特征向量包含有待识别图片丰富的语义信息和准确的位置信息。
73.根据各个子区域之间的位置关系对相应的子区域特征进行位置编码,得到位置编码向量。其中,位置编码方式为固定位置编码,位置编码向量维度和子区域特征数量相同,可以将位置编码向量设置为可学习参数,在目标检测模型训练过程中,通过学习获取不同
子区域特征之间的位置关系。
74.本实施例通过对待识别图片每个子区域进行特征提取,并根据子区域之间的位置关系进行位置编码,使融合图像特征向量和位置编码向量得到的融合特征向量既含有图像信息又含有位置信息,图像信息更为完整。
75.步骤s203,将融合特征向量输入对象解码模块,得到对象表征向量和对象绝对位置向量,并计算对象表征向量的置信度。
76.在本实施例中,目标检测模型进行训练的过程中,为了控制整个模型处理过程的计算量,加快收敛速度,预先设置模型提取对象的数量为第一预设数量on,则相应的预设对象解码个数的超参数为on。
77.将融合特征向量输入对象解码模块解码为对象特征向量,对象的描述包括两部分,一个是对对象本身进行描述,一个是对对象位置进行描述,则对象特征向量也包括两部分,一个是通过对对象本身进行描述的对象表征向量,另一个是通过对对象位置进行描述的对象绝对位置向量。其中,对象包括但不限于标志性建筑物、物体、植物等。
78.在本实施例中,对象解码模块包括对象嵌入层、对象注意力层和解耦线性层,则将融合特征向量输入对象解码模块进行解码处理,包括:
79.将训练得到的对象编码输入对象嵌入层,生成对象查询向量;
80.将融合特征向量和对象查询向量输入对象注意力层进行注意力计算,得到对象全局特征;
81.通过解耦线性层对对象全局特征进行解耦计算,得到对象表征向量和对象绝对位置向量。
82.在本实施例中,对象编码ol是训练完成得到的,数量为on个,将on个对象编码ol输入对象嵌入层,生成on个对象查询向量q1(query)向量,并将融合特征向量vfp作为v1(value)向量和k1(key)向量,与对象查询向量组成qkv矩阵向量输入对象注意力层进行注意力计算,预测出对象全局特征of,对象全局特征of的数量也为on个。其中,对象全局特征of可以实现将整个图像信息贯穿上下文。
83.注意力计算公式如下:
[0084][0085]
将on个对象全局特征of输入解耦线性层进行解耦计算,得到对象表征向量ovf和对象绝对位置向量opf,具体的,解耦线性层包括对象表征线性层和位置表征线性层,将对象全局特征of分别输入对象表征线性层和位置表征线性层,分别预测出on个对象表征向量ovf和on个对象绝对位置向量opf。
[0086]
应当理解的是,在模型训练过程中,预设对象解码个数的超参数为on,对象编码ol通过随机初始化得到,随着模型的训练,会形成具有抽象意义的权重特征,在本实施例中,模型训练完成后,得到训练完成的对象编码ol,作为对象解码模块对象注意力层注意力计算的权重。
[0087]
计算每个对象表征向量ovf的置信度oc,置信度高表示对象存在且位置比较准确,置信度低表示可能没有对象或者即便有对象也存在较大的位置偏差。
[0088]
置信度oc表示预测边框内有无对象的概率,并不预测对象属于哪个类别,置信度
oc的计算公式如下:
[0089][0090]
其中,pr(object)表示预测边框内存在对象的概率,有对象存在则为1,无对象存在,则为0;表示预测边框与对象真实边框的iou(intersection over union,交并比),体现了预测边框与真实边框的接近程度。
[0091]
在本实施例中,将融合特征向量进行注意力计算之后进行解耦,将图片的图像特征和位置特征分开处理,可以提高特征处理效率,获取更为精确的特征描述,进而提高后续的识别准确度。
[0092]
步骤s204,将对象表征向量和对象绝对位置输入相对位置解码模块,得到相对位置对象表征,并根据置信度优化相对位置对象表征得到优化对象表征。
[0093]
在本实施例中,通过位置关系构建对象之间的关系。对象绝对位置向量opf是形状为on*c的特征矩阵,通过公式求得相对位置矩阵opfr,oprf是形状为on*on*c特征矩阵,公式如下:
[0094]
opfr
i,j
=f(opfi,opfj)
[0095]
其中,opfi表示第i个对象绝对位置向量opf,opfj表示第j个对象绝对位置向量opf,opfr
i,j
为第i个对象绝对位置向量opf的相对位置矩阵;f(x)的形式可以根据实际情况选择,例如,做差、求和或者直接拼接等。
[0096]
通过相对位置解码模块根据相对位置矩阵构建对象之间的关系,对于对象i,使用相对位置解码模块解码以获得相对位置对象表征。
[0097]
在本实施例中,相对位置解码模块包括位置嵌入层和位置注意力层,将训练好的位置编码输入位置嵌入层,得到位置查询向量q2,将位置查询向量q2、对象表征向量ovf和相对位置矩阵opfr输入位置注意力层进行注意力计算,得到相对位置对象表征。
[0098]
其中,在目标检测模型训练过程中,预设位置解码个数超参数为pn,超参数pn与超参数on相适应。通过pn个先验位置编码对相对位置解码模块进行训练,得到训练完成后的位置编码pl,训练完成后的位置编码pl可以作为位置注意力层注意力计算的权重特征。
[0099]
将训练好的位置编码pl输入位置嵌入层进行嵌入操作,得到pn个位置查询向量q2,使用相对位置矩阵opfr
i,j
作为k向量k2,对象表征向量ovfi作为v向量v2,经过位置注意力层进行注意力计算,得到对象i的相对位置对象表征orvi,数量为pn个。
[0100]
在步骤s203中,对提取到的每个对象的对象表征向量ovf进行了置信度计算,使用置信度oc对相对位置对象表征orvi的特征权重进行调整。应当理解,特征权重使用置信度oc调整后的特征权重
[0101]
根据调整后的权重对对象i对象表征向量ovfi进行注意力计算,得到优化对象特征ovi,计算公式如下:
[0102][0103]
本实施例中,通过置信度oc调整对象表征向量,得到优化对象特征ovi,可以使得优化对象特征更为可靠,特征描述也更加准确。
[0104]
步骤s205,将相对位置对象表征和优化对象表征输入输出模块进行融合,得到对象完整特征。
[0105]
在本实施例中,将相对位置对象表征orvi和优化对象特征ovi进行融合,得到增强后的对象完整特征。其中,融合操作可以是将相对位置对象表征orvi和优化对象特征ovi进行相加,或者将相对位置对象表征orvi和优化对象特征ovi进行拼接。
[0106]
步骤s206,将对象完整特征与预设参考数据库中的参考图片的参考对象特征进行匹配,获得目标参考图片,基于目标参考图片的地理位置确定待识别图片的地点。
[0107]
地点识别是基于获取到的待识别图片,在预先构建的参考数据库中进行查,匹配到最相似的参考图片作为目标参考图片,目标参考图片对应的地理位置即为待识别图片的地点。
[0108]
目标检测模型可以访问参考数据库,参考数据库包括多个参考图片的参考对象特征,每个参考图片的参考对象特征对应一个或多个地理位置,其中,参考对象特征可以预先进行获取,存储在参考数据库中。目标检测模型输出对象完整特征后访问参考数据库,比较对象完整特征和参考对象特征。
[0109]
在本实施例中,选择置信度oc大于等于预设阈值t的对象完整特征进行参考数据库匹配,具体的,确定置信度oc大于等于预设阈值t的对象完整特征包括:确定置信度oc大于等于预设阈值t的对象表征向量ovfi,作为目标对象表征向量;根据目标对象表征向量确定目标优化对象表征,进而确定目标对象完整特征;将目标对象完整特征与参考对象特征进行比较,得到比较结果,并基于比较结果确定待识别图片的地点。
[0110]
其中,将目标对象完整特征与参考对象特征进行比较,得到比较结果,并基于比较结果确定待识别图片的地点,包括:计算目标对象完整特征与参考对象特征之间的相似度,将相似度按照从大到小进行排序,相似度最大的参考对象特征对应的地理位置即为待识别图片的地点。
[0111]
需要强调的是,为进一步保证参考图片的私密和安全性,上述参考图片还可以存储于一区块链的节点中。
[0112]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0113]
本技术通过将图像特征向量和位置编码向量得到的融合特征向量,解码融合特征向量得到对象表征向量和对象绝对位置向量,再对对象表征向量和对象绝对位置向量进行解码,得到相对位置对象表征,融合优化后的相对位置对象表征得到对象完整特征,可以获取待识别图片中对象的完整特征信息,特征表达更加丰富,也更加准确,进一步提高地点识别的精度,鲁棒性更强。
[0114]
在本实施例的一些可选的实现方式中,在上述将待识别图片输入训练好的目标检测模型中的步骤之前还包括:
[0115]
获取图像数据集,基于图像数据集得到图像训练集和图像验证集,图像数据集包括每个图像对应的图像标签;
[0116]
将图像训练集输入预构建的初始目标检测模型中,输出预测识别结果;
[0117]
基于预测识别结果对初始目标检测模型进行迭代更新,直至模型收敛,得到待验证模型;
[0118]
将图像验证集输入待验证模型中进行验证,得到验证结果,在验证结果大于等于预设阈值时,确定待验证模型为目标检测模型。
[0119]
图像数据集包括多张图像和每张图像对应的图像标签,其中,图像标签包括图像中对象的位置和对应的地理位置。
[0120]
获取到图像数据集后,对图像数据集进行数据预处理,数据预处理包括数据清洗和图像增强,数据清洗为剔除无效图像(无效图像可以为受损的图像,也可以为图像标签错标注或漏标注的图像),并将图像统一为相同的尺寸,还可以对剔除无效图像后剩余的图像进行图像增强,包括随机翻转、折叠和形变操作,或者加入噪声操作等,以此来扩充数据集,提高模型的泛化性以及精度。
[0121]
数据预处理后按照预设比例,例如图像训练集:图像验证集=8:2,将图像数据集划分为图像训练集和图像验证集。将图像训练集输入预构建的初始目标检测模型中进行训练,输出预测识别结果,图像训练集在模型中进行处理的过程见步骤s202至步骤s205,在此不再赘述。
[0122]
基于预测识别结果计算损失函数,损失函数包括位置损失和地点识别损失,位置损失和地点识别损失加权求和得到损失函数。其中,位置损失为根据预测边框和真实边框的交集面积和并集面积的比值得到的损失,即iou损失;地点识别损失为真实边框集合和预测边框集合的二分匹配排列的损失,如hungarian损失,二分匹配排列使用hungarian匈牙利算法(hungarian algorithm)实现。
[0123]
根据损失函数调整模型参数,继续进行迭代训练,模型训练到一定程度,此时,模型的性能达到最优状态,损失函数无法继续下降,即收敛。判断收敛的方式即为只需要计算前后两轮迭代中的损失函数,若损失函数仍在变化,则可以继续选择图像训练集输入至目标检测模型中继续进行迭代训练;若损失函数没有显著变化,则可认为模型收敛,此时确定目标检测模型训练完成,则停止训练,并输出最终的目标检测模型。
[0124]
在本实施例中,基于损失函数调整模型参数,可以提升模型训练速度,同时保证训练得到的模型的识别准确度。
[0125]
在模型收敛之后,得到待验证模型,对待验证模型进行验证,将图像验证集输入待验证模型中,输出地点识别结果;根据地点识别结果计算识别准确率;若识别准确率大于等于预设阈值,输出待验证模型作为目标检测模型;若识别准确率小于预设阈值,更新训练数据集,重新训练目标检测模型。
[0126]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0127]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深
度学习等几大方向。
[0128]
本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0129]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0130]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0131]
进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种基于图片对象表征的地点识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0132]
如图3所示,本实施例所述的基于图片对象表征的地点识别装置300包括:获取模块301、特征提取模块302、对象解码模块303、相对位置解码模块304、输出模块305以及匹配模块306。其中:
[0133]
获取模块301用于获取待识别图片,将所述待识别图片输入训练好的目标检测模型中,其中,所述目标检测模型包括特征提取模块、对象解码模块、相对位置解码模块和输出模块;
[0134]
特征提取模块302用于通过所述特征提取模块获取所述待识别图片的图像特征向量和位置编码向量,并将所述图像特征向量和所述位置编码向量进行融合,得到融合特征向量;
[0135]
对象解码模块303用于将所述融合特征向量输入所述对象解码模块,得到对象表征向量和对象绝对位置向量,并计算所述对象表征向量的置信度;
[0136]
相对位置解码模块304用于将所述对象表征向量和所述对象绝对位置输入所述相对位置解码模块,得到相对位置对象表征,并根据所述置信度优化所述相对位置对象表征得到优化对象表征;
[0137]
输出模块305用于将所述相对位置对象表征和所述优化对象表征输入所述输出模块进行融合,得到对象完整特征;
[0138]
匹配模块306用于将所述对象完整特征与预设参考数据库中的参考图片的参考对象特征进行匹配,获得目标参考图片,基于目标参考图片的地理位置确定待识别图片的地点。
[0139]
需要强调的是,为进一步保证参考图片的私密和安全性,上述参考图片还可以存储于一区块链的节点中。
[0140]
基于上述基于图片对象表征的地点识别装置,通过将图像特征向量和位置编码向量进行融合得到的融合特征向量进行解码解耦,得到对象表征向量和对象绝对位置向量,再根据对象表征向量和对象绝对位置向量得到相对位置对象表征,并使用置信度优化相对位置对象表征得到优化对象表征,融合优化对象表征和相对位置对象表征得到对象完整特征,可以获取到图片中对象的完整特征信息,使得特征表达更加丰富,也更加准确,进一步提高地点识别的精度,鲁棒性更强。
[0141]
在本实施例中,特征提取模块302进一步用于:
[0142]
通过所述特征提取模块提取所述待识别图片每个子区域的子区域特征,根据各所述子区域特征得到所述图像特征向量;
[0143]
根据各所述子区域之间的位置关系,对每个所述子区域特征的位置进行编码,得到位置编码向量。
[0144]
通过对待识别图片每个子区域进行特征提取,并根据子区域之间的位置关系进行位置编码,使融合图像特征向量和位置编码向量得到的融合特征向量既含有图像信息又含有位置信息,图像信息更为完整。
[0145]
在本实施例中,对象解码模块303包括对象嵌入子模块、对象注意力计算子模块和解耦子模块,其中:
[0146]
对象嵌入子模块用于将训练得到的对象编码输入所述对象嵌入层,生成对象查询向量;
[0147]
对象注意力计算子模块用于将所述融合特征向量和所述对象查询向量输入所述对象注意力层进行注意力计算,得到对象全局特征;
[0148]
解耦子模块用于通过所述解耦线性层对所述对象全局特征进行解耦计算,得到对象表征向量和对象绝对位置向量。
[0149]
通过将融合特征向量进行注意力计算之后进行解耦,将图片的图像特征和位置特征分开处理,可以提高特征处理效率,获取更为精确的特征描述,进而提高后续的识别准确度。
[0150]
在本实施例中,相对位置解码模块304包括计算子模块、位置嵌入子模块和位置注意力计算子模块,其中:
[0151]
计算子模块用于根据所述对象绝对位置向量计算得到相对位置矩阵;
[0152]
位置嵌入子模块用于将训练好的位置编码输入所述位置嵌入层,得到位置查询向量;
[0153]
位置注意力计算子模块用于将所述位置查询向量、所述对象表征向量和所述相对位置矩阵输入所述位置注意力层进行注意力计算,得到相对位置对象表征。
[0154]
在本实施例的一些可选的实现方式中,相对位置解码模块304还包括优化子模块,用于:
[0155]
根据所述位置查询向量和所述对象绝对位置向量得到所述对象表征向量的特征权重;
[0156]
使用所述置信度对所述特征权重进行调整;
[0157]
基于调整后的所述特征权重对所述对象表征向量进行注意力计算,得到优化对象表征。
[0158]
通过置信度oc调整对象表征向量,得到优化对象特征ovi,可以使得优化对象特征更为可靠,特征描述也更加准确。
[0159]
在一些可选的实现方式中,上述基于图片对象表征的地点识别装置还包括训练模块、更新模块以及验证模块,其中:
[0160]
获取模块还用于获取图像数据集,基于所述图像数据集得到图像训练集和图像验证集,所述图像数据集包括每个图像对应的图像标签;
[0161]
训练模块用于将所述图像训练集输入预构建的初始目标检测模型中,输出预测识别结果;
[0162]
更新模块用于基于所述预测识别结果对所述初始目标检测模型进行迭代更新,直至模型收敛,得到待验证模型;
[0163]
验证模块用于将所述图像验证集输入所述待验证模型中进行验证,得到验证结果,在所述验证结果大于等于预设阈值时,确定所述待验证模型为所述目标检测模型。
[0164]
本实施例通过训练目标检测模型,可以简化目标检测流程,提高目标检测效率。
[0165]
在本实施例中,更新模块包括损失计算子模块和调整子模块,其中:
[0166]
损失计算子模块用于基于所述预测识别结果计算损失函数;
[0167]
调整子模块用于基于所述损失函数调整所述初始目标检测模型的模型参数,继续进行迭代训练,直至模型收敛。
[0168]
基于损失函数调整模型参数,可以提升模型训练速度,同时保证训练得到的模型的识别准确度。
[0169]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
[0170]
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0171]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0172]
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存
储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于图片对象表征的地点识别方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0173]
所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于图片对象表征的地点识别方法的计算机可读指令。
[0174]
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
[0175]
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例基于图片对象表征的地点识别方法的步骤,通过将图像特征向量和位置编码向量进行融合得到的融合特征向量进行解码解耦,得到对象表征向量和对象绝对位置向量,再根据对象表征向量和对象绝对位置向量得到相对位置对象表征,并使用置信度优化相对位置对象表征得到优化对象表征,融合优化对象表征和相对位置对象表征得到对象完整特征,可以获取到图片中对象的完整特征信息,使得特征表达更加丰富,也更加准确,进一步提高地点识别的精度,鲁棒性更强。
[0176]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于图片对象表征的地点识别方法的步骤,通过将图像特征向量和位置编码向量进行融合得到的融合特征向量进行解码解耦,得到对象表征向量和对象绝对位置向量,再根据对象表征向量和对象绝对位置向量得到相对位置对象表征,并使用置信度优化相对位置对象表征得到优化对象表征,融合优化对象表征和相对位置对象表征得到对象完整特征,可以获取到图片中对象的完整特征信息,使得特征表达更加丰富,也更加准确,进一步提高地点识别的精度,鲁棒性更强。
[0177]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0178]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻
全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-13-1083-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-11-27 21:26:58

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论