土壤重金属预测方法、装置、设备及存储介质

更新时间:2025-03-09 10:50:38 0条评论

默认

土壤重金属预测方法、装置、设备及存储介质

1.本发明涉及土壤检测技术领域，尤其涉及一种土壤重金属预测方法、装置、设备及存储介质。

背景技术：

2.探明具体区域的土壤中重金属的具体含量成为了治理土壤重金属污染不可或缺的一环。
3.目前人们通常采用神经网络对数据进行预测，其中径向基神经网络因为其较强的非线性拟合能力已经被广泛应用在数据预测中。不过，目前的径向基神经网络存在着在收敛的时容易陷入局部最小值，不能跳出局部最优解的缺点，进而导致神经网络的参数无法更新到最优解，最终导致预测结果的准确度不高。
4.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

5.本发明的主要目的在于提供一种土壤重金属预测方法、装置、设备及存储介质，旨在解决现有技术中径向基神经网络不能跳出局部最优解、径向基神经网络的参数无法更新到最优解，导致预测结果的准确度不高的技术问题。
6.为实现上述目的，本发明提供了一种土壤重金属预测方法，所述方法包括以下步骤：
7.获取土壤重金属样本数据集；
8.对所述土壤重金属样本数据集进行样本分析，得到最优个体；
9.确定初始神经网络模型隐含层的中心点，并根据所述土壤重金属样本数据集生成宽度向量，根据所述中心点以及宽度向量得到优化后的神经网络模型；
10.获取待预测土壤重金属数据，根据所述优化后的神经网络模型对所述待预测土壤重金属数据进行预测，得到预测结果。
11.可选地，所述对所述土壤重金属样本数据集进行样本分析，得到最优个体，包括：
12.对所述土壤重金属样本数据集进行样本分析，得到特征值；
13.对所述特征值进行初始编码，得到父代种个体；
14.获取所述父代种个体的变换因子，并根据所述变换因子得到所述父代种个体的适应度；
15.根据所述父代种个体的适应度确定所述父代种个体的累计概率；
16.根据所述累计概率对所述种个体进行选择，将选择后的种个体作为新父代种个体；
17.根据所述新父代种个体得到最优个体。
18.可选地，所述根据所述新父代种个体得到最优个体，包括：
19.获取参与交叉的两个个体对应的适应值，比较所述参与交叉的两个个体对应的适应值，将较大的适应值设置为交叉适应值；
20.获取预设交叉概率、交叉适应值与所述新父代种个体的平均适应值；
21.根据所述预设交叉概率、交叉适应值与所述新父代种个体的平均适应值得到交叉概率；
22.根据所述交叉概率对新父代种个体进行交叉操作，在达到预设结束条件时，得到最优个体。
23.可选地，所述根据所述累计概率对所述种个体选择，将选择后的种个体作为新父代种个体之后，还包括：
24.获取参与变异的两个个体对应的适应值，比较所述参与变异的两个个体对应的适应值，将较大的适应值设置为变异适应值；
25.获取预设变异概率、变异适应值与所述新父代种个体的平均适应值；
26.根据所述预设变异概率、变异适应值与所述新父代种个体的平均适应值得到变异概率；
27.根据所述变异概率对新父代种个体进行变异操作，在达到预设结束条件时，得到最优个体。
28.可选地，所述确定初始神经网络模型隐含层的中心点，包括：
29.从所述土壤重金属样本数据集的特征值中选取目标特征值；
30.确定所述目标特征值与所述特征值中的其他特征值之间的距离，
31.根据所述距离得到所述特征值的样本密度；
32.根据所述样本密度确定聚类中心；
33.根据聚类中心得到隐含层的中心点。
34.可选地，所述根据所述土壤重金属样本数据集生成宽度向量，包括：
35.根据所述土壤重金属样本数据集与所述聚类中心得到聚类数据集；
36.获取所述聚类数据集的样本数与样本数据；
37.根据所述样本数据与所述聚类中心得到距离；
38.根据所述距离与样本数得到每个聚类的聚类方差；
39.根据所述聚类方差得到缩放因子；
40.根据所述缩放因子得到宽度向量。
41.可选地，所述根据所述中心点以及宽度向量得到优化后的神经网络模型之后，还包括：
42.获取所述优化后的神经网络模型中输出层的当前权值；
43.获取上一次迭代的更新值，并根据所述上一次迭代的更新值、输出层的权值与动量系数得到更新后的权值；
44.根据所述更新后的权值得到更新后的梯度；
45.根据所述更新后的梯度得到累积梯度值与累积梯度平方；
46.根据所述累积梯度值得到学习率；
47.根据所述当前权值、上一次迭代更新值、更新后的梯度、累积梯度平方得到更新后的权值，并对所述优化后的神经网络模型中输出层的权值更新。
48.此外，为实现上述目的，本发明还提出一种土壤重金属预测装置，所述土壤重金属预测装置包括：
49.数据获取模块，用于获取土壤重金属样本数据集；
50.个体选择模块，用于对所述土壤重金属样本数据集进行样本分析，得到最优个体；
51.模型优化模块，用于确定初始神经网络模型隐含层的中心点，并根据所述土壤重金属样本数据集生成宽度向量，根据所述中心点以及宽度向量得到优化后的神经网络模型；
52.数据预测模块，用于获取待预测土壤重金属数据，根据所述优化后的神经网络模型对所述待预测土壤重金属数据进行预测，得到预测结果。
53.此外，为实现上述目的，本发明还提出一种土壤重金属预测设备，所述土壤重金属预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的土壤重金属预测程序，所述土壤重金属预测程序配置为实现如上文所述的土壤重金属预测方法的步骤。
54.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有土壤重金属预测程序，所述土壤重金属预测程序被处理器执行时实现如上文所述的土壤重金属预测方法的步骤。
55.本发明通过获取土壤重金属样本数据集，对土壤重金属样本数据集进行样本分析，得到最优个体，确定初始神经网络模型隐含层的中心点，并根据土壤重金属样本数据集生成宽度向量，根据中心点以及宽度向量得到优化后的神经网络模型，获取待预测土壤重金属数据，根据优化后的神经网络模型对所述待预测土壤重金属数据进行预测，得到预测结果。通过对样本数据筛选，将得到的最优个体作为神经网络的训练样本，避免在预测过程中不能跳出局部最优解，也避免初始神经网络模型中的参数无法更新到最优解，从而保证在参数更新时出现较小的误差，进而最终得到更准确的预测结果。
附图说明
56.图1是本发明实施例方案涉及的硬件运行环境的土壤重金属预测设备的结构示意图；
57.图2为本发明土壤重金属预测方法第一实施例的流程示意图；
58.图3为本发明土壤重金属预测方法整体流程示意图；
59.图4为本发明土壤重金属预测方法第二实施例的流程示意图；
60.图5为本发明土壤重金属预测方法第三实施例的流程示意图；
61.图6为径向基神经网络结构示意图；
62.图7为本发明土壤重金属预测方法第四实施例的流程示意图；
63.图8为本发明土壤重金属预测装置的第一实施例的结构框图。
64.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
65.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
66.参照图1，图1为本发明实施例方案涉及的硬件运行环境的土壤重金属预测设备结
构示意图。
67.如图1所示，该土壤重金属预测设备可以包括：处理器1001，例如中央处理器(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘 (keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真 (wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
68.本领域技术人员可以理解，图1中示出的结构并不构成对土壤重金属预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
69.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及土壤重金属预测程序。
70.在图1所示的土壤重金属预测设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明土壤重金属预测设备中的处理器1001、存储器1005可以设置在土壤重金属预测设备中，所述土壤重金属预测设备通过处理器1001调用存储器1005中存储的土壤重金属预测程序，并执行本发明实施例提供的土壤重金属预测方法。
71.本发明实施例提供了一种土壤重金属预测方法，参照图2，图2为本发明一种土壤重金属预测方法第一实施例的流程示意图。
72.本实施例中，所述土壤重金属预测方法包括以下步骤：
73.步骤s10：获取土壤重金属样本数据集。
74.需要说明的是，本实施例的执行主体是土壤重金属预测设备，其中，该土壤重金属预测设备具有土壤检测、数据通信及程序运行等功能，所述土壤重金属预测设备可以为集成控制器、控制计算机以及掌上电脑等设备，当然还可以为其他具有相似功能的设备，本实施例不做具体限制。
75.可以理解的是，土壤重金属样本数据集可以是根据作物分布、土壤类型等信息定点采样获得的数据集合；其中，土壤重金属样本数据集包含经度、纬度、海拔、作物类型等特征值，也包含重金属砷(as)含量等的目标值。
76.在具体实现中，土壤重金属样本数据集的获取方式可以是从本地存储中直接获取的，也可以是上传在云端服务器中需要下载的，本实施例对此不做限制。
77.步骤s20：对所述土壤重金属样本数据集进行样本分析，得到最优个体。
78.需要说明的是，最优个体可以是对土壤重金属样本数据集进行去杂操作后得到的优化样本数据集。
79.可以理解的是，对土壤重金属样本数据集进行样本分析可以是对土壤重金属样本数据集中的作物分布和土壤类型进行分析，也可以是根据经度、维度、海拔、作物类型进行分析，本实施例对此不做限制。
80.在具体实现中，对土壤重金属样本数据集进行样本分析得到最优个体可以是通过土壤重金属数据集与最优个体之间的映射关系确定最优个体，还可以是通过根据土壤重金
属数据集中的数据获得最优个体的公式确定的，本实施例对此不做限制。
81.需要理解的是，最优个体指的是经过算法多次迭代后，能够使最终的结果处于全局最优解的集合。
82.在具体实现中，在获取到土壤重金属样本数据集时，将土壤重金属样本数据集中的数据进行预处理，得到预处理数据，对预处理数据进行自适应操作，根据土壤重金属数据集与最优个体之间的对应关系确定最优个体。
83.步骤s30：确定初始神经网络模型隐含层的中心点，并根据所述土壤重金属样本数据集生成宽度向量，根据所述中心点以及宽度向量得到优化后的神经网络模型。
84.需要理解的是，隐含层可以是属于径向基神经网络模型中的一个组成部分，而隐含层的中心点指的是在隐含层中，实现径向基神经网络算法模型中具有实际功能的神经元。
85.可以理解的是，宽度向量可以是描述中心点大小的概念，起到的作用是对中心点的范围进行限制。
86.在具体实现中，根据所述土壤重金属样本数据集生成宽度向量，可以是通过对土壤重金属样本数据集中的数据分布，根据数据的分散程度与各数据之间的距离确定数据的稠密程度，并根据中心点之间的距离确定宽度向量，还可以是根据土壤重金属数据集与宽度向量之间的对应关系确定得到，本实施例对此不做限制。
87.在具体实现中，根据所述中心点以及宽度向量得到优化后的神经网络模型，可以是先确定出隐含层的中心点，再根据土壤重金属样本数据集得到宽度向量，根据宽度向量对中心点对应的中心的宽度范围进行约束，从而得到优化后的神经网络模型。
88.步骤s40：获取待预测土壤重金属数据，根据所述优化后的神经网络模型对所述待预测土壤重金属数据进行预测，得到预测结果。
89.应当理解的是，待预测土壤重金属数据是用来预测土壤重金属含量的数据，待预测土壤数据可以是从本地存储直接获取，也可以是从云端获取，本实施例对此不做限制。
90.在具体实现中，通过将获取到的待预测土壤重金属数据输入到优化后的神经网络模型中，根据优化后的神经网络模型中蕴含的待预测土壤重金属数据与预测结果之间的对应关系，得到预测结果，确定出待预测土壤重金属的含量。
91.参照图3，图3为本实施例的整体流程示意图，对采集的样本进行归一化处理得到种个体，根据遗传算法对种个体进行初始化、编码操作，并计算各种个体的适应值，根据适应值进行选择操作，并进行自适应的交叉、变异、模拟退火操作，并判断是否接收得到的数据，当满足要求时，将得到的数据输出为最优个体。首先确定初始神经网络模型，并根据密度聚类山峰算法和自适应方差度量法确定基本的神经网络模型，并将之前对样本处理得到的最优个体带入模型中，进行反向更新进而得到训练好的神经网络模型，并进行仿真预测。
92.本实施例通过从本地或云端获取土壤重金属样本数据集，对获取到的土壤重金属样本数据集进行样本分析，得到最优个体，根据土壤重金属样本数据集确定出初始神经网络模型中隐含层的中心点，在根据土壤重金属样本数据集确定出宽度向量，根据宽度向量确定出中心点对应的中心的宽度范围，根据确定好的中心点宽度范围与最优个体得到优化后的神经网络模型，再将待预测的数据输入到优化后的神经网络模型中，进而得到预测数
据。本实施例通过对初始神经网络隐含层的中心点和向量宽度的确定，得到了神经网络模型，再通过对土壤重金属样本数据集的数据进行样本分析，得到最优个体，将得到的最优个体输入到神经网络模型中，确定了神经网络模型输出层的模型参数，得到了优化后的神经网络模型，进而提高了神经网络模型预测的准确度。
93.参考图4，图4为本发明一种土壤重金属预测方法第二实施例的流程示意图。
94.基于上述第一实施例，本实施例土壤重金属预测方法中，所述步骤s20 包括：
95.步骤s201：对所述土壤重金属样本数据集进行样本分析，得到特征值。
96.需要说明的是，特征值是土壤重金属样本数据中作为模型训练的输入值，包括经度、纬度、海拔、作物类型等。
97.步骤s202：对所述特征值进行初始化编码，得到父代种个体。
98.需要说明的是，将每一个特征值当做一个父代种个体，对特征值编码其实际上是对每一个父代种个体的染体进行编码。
99.应当说明的是，对染体进行初始化编码，是为了将复杂的染体数据转化成容易处理的数据，通常采用的编码方法有实数编码、浮点编码与二进制编码等，本实施例对此不做限制。
100.在具体实现中，首先通过对父代种个体的染体进行归一化处理，归一化处理方式可以为最大最小归一化、z-score标准化方法等，本实施例对此不做限制，将通过归一化之后的数据进行初始化编码，进而得到父代种个体。本实施例以最大最小归一化为例进行说明，将样本数据中最大的样本值和最小的样本值选择出来，并根据公式：
101.pn＝(p-p
min
)/(p
max-p
min
)
102.其中pn为归一化得到的结果，p为原始数据，p
max
与p
min
分别为原始数据中的最大值和最小值。
103.步骤s203：获取所述父代种个体的变换因子，并根据所述变换因子得到所述父代种个体的适应度。
104.需要说明的是，适应度是用来标识父代种个体中个体在种生存的优势程度度量，用来区分个体的“好”与“坏”。
105.可以理解的是，变换因子是为了将目标函数值转化为非负值的工具量。
106.应当理解的是，适应度是通过适应度函数计算而来的，适应度函数通常用于转换目标函数为相对适应度值，适应度函数公式如下：
107.f(x)＝gf(x)
108.其中f是目标函数，g是将目标函数值转换为非负值的变换因子，f是所得的相对适应度。
109.步骤s204：根据所述父代种个体的适应度确定所述父代种个体的累计概率。
110.需要说明的是，累计概率指的是种内所有个体被选中的概率值之和，而个体被选中的概率是通过个体的适应度确定的，个体的适应度越高，被选中的概率越大，其中个体被选择的概率计算公式如下：
[0111][0112]
其中，f(xi)表示为个体xi的适应度，该个体被选中的概率为p(xi)。
[0113]
累计概率计算公式如下：
[0114][0115]
其中，p(xj)表示个体被选中的概率，q(xi)表示累积概率。
[0116]
步骤s205：根据所述累计概率对所述种个体进行选择，将选择后的种个体作为新父代种个体。
[0117]
需要说明的是，所述累计概率对所述种个体进行选择，将选择后的种个体作为新父代种个体的方式可为赌选择、随即竞争选择、最佳保留选择等，本实施例对此不做限制。本实施例以赌选择为例进行说明。
[0118]
在具体实现中，先获取每个染体对应的适应度，并计算它们总的适应度，然后分别计算每条染体在总的适应度中的占比，得到的占比被当做各个个体被选中的概率，例如现在有5条染体，它们的适应度分别为5、8、3、 7、2。那么总的适应度为：f＝5+8+3+7+2＝25。那么各个个体被选中的概率为：
[0119]
α1＝(5/25)*100％＝20％
[0120]
α2＝(8/25)*100％＝32％
[0121]
α3＝(3/25)*100％＝12％
[0122]
α4＝(7/25)*100％＝28％
[0123]
α5＝(2/25)*100％＝8％
[0124]
步骤s206：根据所述新父代种个体得到最优个体。
[0125]
需要说明的是，新父代种个体指的是根据每条染体的选中概率选择出来的种个体，这里的新种个体并非生成了新的个体，而是在原父代种个体的基础上进行筛选后而产生的，本质上是属于原父代种的一部分。
[0126]
进一步的，在具体实现中，根据新父代种个体选择最优个体时，为了能够让最终得到的最优个体更好，所述步骤s206包括：
[0127]
获取参与交叉的两个个体对应的适应值，比较所述参与交叉的两个个体对应的适应值，将较大的适应值设置为交叉适应值；
[0128]
获取预设交叉概率、交叉适应值与所述新父代种个体的平均适应值；
[0129]
根据所述预设交叉概率、交叉适应值与所述新父代种个体的平均适应值得到交叉概率；
[0130]
根据所述交叉概率对新父代种个体进行交叉操作，在达到预设结束条件时，得到最优个体。
[0131]
需要说明的是，交叉操作是指对两个相互配对的染体按交叉算子互相交换其部分基因，从而形成两个新的个体。这里的交叉算子可以为单点交叉、双点交叉与多点交叉、均匀交叉、算数交叉等，本实施例对此不做限制，在本实施例中采用单点交叉(one-point crossover)进行说明，单点交叉指的是在个体编码串中只随机设置一个交叉点，然后在该交叉点互相交换两个配对个体的部分染体。在进行交叉操作时，为了能够尽可能的让适应度较低的个体尽可能参与交叉，让适应值较高的个体尽可能保持在交叉概率不为0的稍低值，因此需要获取到参与交叉个体的适应度值，并根据两个参与交叉的个体的适应度确
定交叉的概率，因此采用sigmoid函数来构建交叉的概率调整公式，sigmoid函数公式如下：
[0132][0133]
将中的自变量x用余弦部分替换，组成复合函数如下：
[0134][0135]
由sigmoid函数的性质可知：当x≥9.903438时，接近1；当 x≤-9.903438时，接近0。要使值域为[0，1]区间内，则a＝9.903438。
[0136]
因此本文提出的自适应概率调整方式如下：
[0137][0138]
其中pc为交叉概率，取值范围为0.5～0.9，p
cmax
为最大的交叉率，p
cmin
为最小的交叉率，f
′
为参与交叉操作的两个个体中较大的适应度值，f
avg
为整个种的平均适应度值。
[0139]
为了能够让最终得到的最优个体更好，所述步骤s206包括：
[0140]
获取参与变异的两个个体对应的适应值，比较所述参与变异的两个个体对应的适应值，将较大的适应值设置为变异适应值；
[0141]
获取预设变异概率、变异适应值与所述新父代种个体的平均适应值；
[0142]
根据所述预设变异概率、变异适应值与所述新父代种个体的平均适应值得到变异概率；
[0143]
根据所述变异概率对新父代种个体进行变异操作，在达到预设结束条件时，得到最优个体。
[0144]
需要说明的是，变异操作是指将个体染体编码中某些基因实用其他基因进行替换，在这个过程中并未产生新的个体，这里使用的变异算子对基因进行变更，变异算子可以为基本位变异、均值变异、边界变异、非均匀变异与高斯近似变异等，本实施例对此不做限制。在进行变异操作时，为了能够尽可能的让适应度较低的个体尽可能参与变异，让适应值较高的个体尽可能保持在变异概率不为0的稍低值，因此需要获取到参与变异个体的适应度值，并根据两个参与变异的个体的适应度确定变异的概率，因此本文提出的自适应变异公式如下：
[0145][0146]
其中，pm为变异概率，取值范围为0.01～0.1，p
mmax
为最大的交叉率，p
mmin
为最小的交叉率，f为参与变异操作的变异个体的适应度值。
[0147]
本实施例通过对父代种个体的染体进行编码，并为每个个体的染体赋予适应度，根据每个个体的适应度选择存留下来的种个体组成新父代种个体，并对得到的新父代种个体进行筛选，根据设置的容忍度值，将满足条件的个体输出为最优种个体，避免了将大量质量不好的数据输入到神经网络模型中，使得最后训练出来的神经网络模型能够更加准确。
[0148]
参考图5，图5为本发明一种土壤重金属预测方法第三实施例的流程示意图。
[0149]
基于上述各实施例，本实施例土壤重金属预测方法所述步骤s30包括：
[0150]
步骤s301：从所述土壤重金属样本数据集的特征值中选取目标特征值。
[0151]
需要说明的是，目标特征值是土壤重金属样本数据集的特征值中的其中一个特征值，其中每一个特征值都会成为目标特征值。
[0152]
步骤s302：确定所述目标特征值与所述特征值中的其他特征值之间的距离。
[0153]
需要说明的是，所述目标特征值与所述特征值中的其他特征值之间的距离指的是目标特征值与所述特征值中的其他特征值之间的欧式距离，例如当前存在一个特征值集合{a，b，c，d，e}，当前选取的目标特征值为a，则其他特征值为b，c，d，e。目标特征值与其他特征值之间的距离为特征值之间的欧式距离。
[0154]
步骤s303：根据所述距离得到所述特征值的样本密度。
[0155]
需要说明的是，样本密度指的是数据样本中每个样本的密度大小，根据密度大小能够区分正常数据点和离数据点。样本点的密度大小确定公式如下：
[0156][0157]
其中，m(p)为数据样本点的密度大小，k为近邻点的数量，d(p，xi)为数据样本点p到xi的欧式距离，δk(xi)为数据样本点xi到距离其第k个近邻点的欧式距离， knn(p)为数据样本点p的k近邻集合。
[0158]
步骤s304：根据所述样本密度确定聚类中心。
[0159]
需要说明的是，根据样本数据的样本密度，能够确定出哪一些数据是呈现出聚集趋势的，并获得到聚集区域，因此根据样本密度确定出聚类中心。
[0160]
步骤s305：根据聚类中心得到隐含层的中心点。
[0161]
需要理解的是，如图6所示，径向基神经网络具有输入层、隐含层和输出层，输入层与输出层有样本数据中的特征值的数量和目标值的数量确定其节点数，输入的样本数据包括经度、纬度、海拔、作物类型四个特征值，那么对应的输入层节点是为4，输出样本数据为重金属as的含量，那么对应的输出节点数为1。而隐含层的节点数对应着隐含层的中心点的数量，聚类中心对应着隐含层的中心点的位置所在。
[0162]
为了进一步的得到优化后的神经网络模型，还包括步骤：
[0163]
根据所述土壤重金属样本数据集与所述聚类中心得到聚类数据集。
[0164]
需要说明的是，聚类数据集中的数据是来自土壤重金属样本数据集中的，聚类数据集中的数据呈现向聚集中心聚集的状态。
[0165]
获取所述聚类数据集的样本数与样本数据；
[0166]
需要说明的是，样本数指的是在聚类数据集中存在的数据个数，而样本数据指的
是聚类数据集中具体包含的具体数据。
[0167]
根据所述样本数据与所述聚类中心得到距离；
[0168]
需要说明的是，样本数据与聚类中心的距离指的是样本数据与聚类中心之间的欧式距离。
[0169]
根据所述距离与样本数得到每个聚类的聚类方差；
[0170]
需要说明的是，聚类方差表示的是样本数据分布的密度，能够一定程度反应出聚类的宽度，就算聚类方差的公式为：
[0171][0172]
其中，si为每个聚类的方差，size(ci)为属于聚类中心点ui的样本数量， dist(x，ui)为欧式距离，ci为子样本。当聚类数据集中的数据越稠密，得到的聚类方差就会越小，当聚类数据集中的数据越稀疏，得到的聚类方差就会越大，而稠密和稀疏程度是通过数据之间的欧式距离dist(x，ui)反应得到
[0173]
根据所述聚类方差得到缩放因子；
[0174]
需要说明的是，缩放因子是确定聚类中心宽度的变化量，是根据所在聚类数据集的数据决定的，具体计算公式为：
[0175][0176]
聚类方差就会越小，得到的缩放因子εi也会变小，中心点的宽度也会减小，相反，聚类方差就会越大，得到的缩放因子εi也会变大，中心点的宽度也会减大。
[0177]
根据所述缩放因子得到宽度向量。
[0178]
需要说明的是，宽度向量决定了当前这一聚类中心的宽度大小，具体是有缩放因子和聚类中心之间的距离确定的。
[0179]
在具体实现中，首先计算出聚类中心之间的欧氏距离，根据聚类中心之间的欧氏距离得到距离基数，距离基数是每个聚类中心点之间的平均距离的平均值，具体的计算公式如下：
[0180][0181]
其中，meand(ui)为每个聚类中心点之间的距离的平均值，k为近邻点的数量，dist(ui，uj)为欧式距离。在根据得到的距离基数与缩放因子确定每一个聚类中心的宽度，具体的计算公式为：
[0182]
σi＝εi·
meand(ui)
[0183]
本实施例通过土壤重金属数据集选择出对应的目标值，计算该目标值与其他特征值之间的距离，并确定出整体的样本密度，根据所得到的样本密度得到若干个聚类中心，聚类中心的个数与隐含层的中心点的个数对应，在得到聚类中心后去计算聚类中心之间的距离，从而去确定出聚类中心的宽度向量，进而得到具体的，大小合适的聚类中心，并优化神经网络模型。保证了在中心点宽度的确定上相较于传统方式来说更加准确，进而是最终预测结果的准确度提高。
[0184]
参照图7，图7为本发明一种土壤重金属预测方法第三实施例的流程示意图。
[0185]
基于上述各实施例，本实施例土壤重金属预测方法在所述步骤s30之后，还包括：
[0186]
步骤s306：获取所述优化后的神经网络模型中输出层的当前权值；
[0187]
步骤s307：获取上一次迭代的更新值，并根据所述上一次迭代的更新值、输出层的权值与动量系数得到更新后的权值。
[0188]
步骤s308：根据所述更新后的权值得到更新后的梯度。
[0189]
步骤s309：根据所述更新后的梯度得到累积梯度值与累积梯度平方。
[0190]
需要说明的是，当前权值是优化后神经网络当前训练状态输出层对应的权值，当一个输入值输入到神经网络模型中，会将输入值和当前权值进行计算，得到最后的输出结果。
[0191]
可以理解的是，上一次迭代更新值指的是在上此次权值进行迭代时对权值的变化量，在最初迭代时，对应的上一次迭代的更新值对应为0。
[0192]
在具体实现中，在对当前权值进行更新时，需要获取第t次迭代的权值w，并获取到第t-1次到第t次这个过程中权值的更新值，更新公式如下：
[0193]w′
＝w
t
+α*v
t-1
[0194]
其中，w
t
为当前迭代次数对应的权值，α为动量系数，v
t-1
为上一次迭代更新值，初始值为0。
[0195]
需要说明的是，梯度描述的是权值的增长程度，能够反应出权值变化的快慢程度。
[0196]
可以理解的是，对每一次权值迭代后的梯度进行累加得到累积梯度值，对每一次权值迭代后的梯度去平方，得到累积梯度平方
[0197]
步骤s310：根据所述累积梯度值得到学习率。
[0198]
需要说明的是，学习率表示的是每次权值更新的幅度大小，学习率过大，会导致待优化的参数在最小值附近波动，不收敛；学习率过小，会导致待优化的参数收敛缓慢。
[0199]
应当理解的是，在进行迭代优化的过程中，如果出现梯度发生了正负变化，这就说明在迭代的过程中，已经越过了极值点，因此需要在下一次迭代的过程中。不仅需要调整学习方向，还需要下降学习步长；同理，当两次迭代梯度的正负值没有发生改变时，说明此时距离极值点的距离较远，因此只需要相应的增加学习步长。
[0200]
在具体实现中，通过获取在迭代过程中的累计梯度值，并根据当前迭代与上一次迭代的梯度值的乘积选择对应的公式进行计算当前的学习率，计算公式如下：
[0201][0202]
计算当前迭代次数的学习率，其中u表示学习率，u0是固定值，s
t
为累计梯度值，初始值为0，即若迭代前后梯度正负值发生变化，则学习率减小，反之则学习率增大，另外随着迭代次数的增大，s
t
不断增大，则学习率的变化不断减小。
[0203]
步骤s311：根据所述当前权值、上一次迭代更新值、更新后的梯度、累积梯度平方得到更新后的权值，并对所述优化后的神经网络模型中输出层的权值更新。
[0204]
在具体实现中，根据已经得到的当前权值、上一次迭代更新值、更新后的梯度、累
积梯度平方得到更新后的权值，计算出在本次权值更新时的权值，具体更新公式为：
[0205][0206]wt+1
＝w
t
+v
t
[0207]
其中w
t+1
表示的是当前迭代中权值的更新值，即在权值的步长以及学习方向进行调整。在权值调整完成后，还需检验是否已经满足终止条件，若没有满足终止条件，则需要重新计算前向误差，具体的前向误差计算公式如下：
[0208]
net＝w
t
x+b
[0209]
h＝g(net)
[0210][0211]
其中w和b为隐藏层和输出层的权值和阈值，x为隐藏层与输出层的输入数据，g为激活函数，h为输出，e为误差，yi为目标值，为实际值。
[0212]
若满足了终止条件，则可以将得到的优化后的神经网络模型作为预测模型输出。
[0213]
在本实施例中，通过先计算前向误差，在使用自适应均方根反向传播算法对所有的参数进行更新，在传统的梯度下降算法采用的是固定的学习率作为学习步长，对每一次迭代优化的结果影响较大，从而导致收敛速度慢，收敛精度不高。而在本事实例中，通过对两次迭代时梯度的正负值情况，调整学习方向和学习步长，能够能灵活的、更精确的实现对权值的更新，从而保证了在优化后的神经网络模型中所有参数的准确性，进而保证了最终预测结果的准确性。
[0214]
此外，本发明实施例还提出一种存储介质，所述存储介质上存储有土壤重金属预测程序，所述土壤重金属预测程序被处理器执行时实现如上文所述的土壤重金属预测方法的步骤。
[0215]
参照图8，图8为本发明土壤重金属预测装置第一实施例的结构框图。
[0216]
如图8所示，本发明实施例提出的土壤重金属预测装置包括：
[0217]
数据获取模块10，用于获取土壤重金属样本数据集。
[0218]
个体选择模块20，用于对所述土壤重金属样本数据集进行样本分析，得到最优个体。
[0219]
模型优化模块30，用于确定初始化神经网络模型隐含层的中心点，并根据所述土壤重金属样本数据集生成宽度向量，根据所述中心点以及宽度向量得到优化后的神经网络模型。
[0220]
数据预测模块40，用于获取待预测土壤重金属数据，根据所述优化后的神经网络模型对所述待预测土壤重金属数据进行预测，得到预测结果。
[0221]
本实施例通过获取土壤重金属样本数据集；对所述土壤重金属样本数据集进行样本分析，得到最优个体；确定初始化神经网络模型隐含层的中心点，并根据所述土壤重金属样本数据集生成宽度向量，根据所述中心点以及宽度向量得到优化后的神经网络模型；获取待预测土壤重金属数据，根据所述优化后的神经网络模型对所述待预测土壤重金属数据进行预测，得到预测结果。由于本实施例是根据对训练样本进行前置筛选，保障了训练样本
的质量，相较于传统训练方法，本发明保证了训练结果的准确性，得到的优化后的神经网络模型中参数的准确度高，进而保证了最终预测结果的准确度高
[0222]
在一实施例中，所述个体选择模块20，还用于对所述土壤重金属样本数据集进行样本分析，得到特征值；对所述特征值进行初始编码，得到父代种个体；获取所述父代种个体的变换因子，并根据所述变换因子得到所述父代种个体的适应度；根据所述父代种个体的适应度确定所述父代种个体的累计概率；根据所述累计概率对所述种个体进行选择，将选择后的种个体作为新父代种个体；根据所述新父代种个体得到最优个体。
[0223]
在一实施例中，所述个体选择模块20，还用于获取参与交叉的两个个体对应的适应值，比较所述参与交叉的两个个体对应的适应值，将较大的适应值设置为交叉适应值；获取预设交叉概率、交叉适应值与所述新父代种个体的平均适应值；根据所述预设交叉概率、交叉适应值与所述新父代种个体的平均适应值得到交叉概率；根据所述交叉概率对新父代种个体进行交叉操作，在达到预设结束条件时，得到最优个体。
[0224]
在一实施例中，所述个体选择模块20，还用于获取参与变异的两个个体对应的适应值，比较所述参与变异的两个个体对应的适应值，将较大的适应值设置为变异适应值；获取预设变异概率、变异适应值与所述新父代种个体的平均适应值；根据所述预设变异概率、变异适应值与所述新父代种个体的平均适应值得到变异概率；根据所述变异概率对新父代种个体进行变异操作，在达到预设结束条件时，得到最优个体。
[0225]
在一实施例中，所述模型优化模块30，还用于从所述土壤重金属样本数据集的特征值中选取目标特征值；确定所述目标特征值与所述特征值中的其他特征值之间的距离，根据所述距离得到所述特征值的样本密度；根据所述样本密度确定聚类中心；根据聚类中心得到隐含层的中心点。
[0226]
在一实施例中，所述模型优化模块30，还用于根据所述土壤重金属样本数据集与所述聚类中心得到聚类数据集；获取所述聚类数据集的样本数与样本数据；根据所述样本数据与所述聚类中心得到距离；根据所述距离与样本数得到每个聚类的聚类方差；根据所述聚类方差得到缩放因子；根据所述缩放因子得到宽度向量。
[0227]
在一实施例中，所述模型优化模块30，还用于获取所述优化后的神经网络模型中输出层的当前权值；获取上一次迭代的更新值，并根据所述上一次迭代的更新值、输出层的权值与动量系数得到更新后的权值；根据所述更新后的权值得到更新后的梯度；根据所述更新后的梯度得到累积梯度值与累积梯度平方；根据所述累积梯度值得到学习率；根据所述当前权值、上一次迭代更新值、更新后的梯度、累积梯度平方得到更新后的权值，并对所述优化后的神经网络模型中输出层的权值更新。
[0228]
应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。
[0229]
需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。
[0230]
此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要
素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0231]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0232]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(read onlymemory，rom)/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0233]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。