多维数据分析

更新时间:2023-04-16 16:08:24 阅读: 评论:0


2023年4月16日发(作者:条件选股)

DataBaTechnique

数据库技术

多维数据分析处理技术

文/蓝善根

关于多维数据分析处理技术,目前有部分

本文研究了基于大数据下的

多维数据分析处理方法:针对大

数据的多维离散拘束高效分析处

理方法。该方法采用空间重构方

法对多维数据采取离散映射,找

到最小嵌入维数和最合适的时延

构造信息流模型,并采用模糊聚

类算法求解初始聚类中心搜索目

标函数,从而获取到多维数据的

最优聚类中心,利用优化算法实

现聚类优化完成多维数据的高效

聚类,仿真实验结果证明了该方法的可行性,提高计算效率。

专家发布了较诗歌《四季》 为优秀的研究成果,如文献[1-5]

提出的各种算法以及开发出的比较先进的软件系统。

1.3本文主要内容

企业或者机构日常经营积累的额海量数

据以及随着大数据的普及,信息科技的共享展

示,通过特定的手段获取有效的信息并利用算

法等科学技术挖掘数据隐含价值,指导人们在

生产经营中的分析以及决策。本文主要针对多

维足字成语 数据分析处理技术进行了介绍以及算法仿真实验,验证了多维数据分析计算算法的可行性

【关键词】数据分析多维离散数据数据优化算法多维数据建模

以及对计算性能的提高。

结合约束条件,采用李雅普诺夫极限定理,得到聚类的中心极值为:

以上公式中,m代表权重,(dik)

2

含义

为xk与Vi多维离散数据结构中心矢量,C代

表计算机系统的惯性权值,欧式距离表达方式如下:

(dik)

2

=||xk-Vi||2

根据以上公式得到聚类中心最优解如下:

代表聚类中心

的非劣解,(U,V)表示非劣解的距离,采用

2多维数据分析处理技术

1绪论

1.1研究背景和意义

近年来大数据飞速发展,数据的采集技

术趋于成熟,海量的数据为科技生活提供了便

利,但同时数据量的庞大与繁杂为数据的计算

处理与分析带来了极大的困难,在实际生产以

及生活当中,需要投入更多的研究来加强多维

数据的分析与处理,使人们生产数据、处理数

据、分析数据,改变科技生活,受惠于科技发展和大数据相关技术。

在数据处理当中,大部分只能分析具有

某特征值的数据,当数据变成多维数据,混合

属性的时候,技术上很难分析和处理,解说词 如何高

效聚类数据成为了研究的热点。1.2研究现状

目前对于大数据当中的数据采集技术已

经有了飞速的发展和突破。数据分析方法也多

种多样,但是目前仍然存在很多问题:业务数

据的采集、存储结构多样,形势混乱,数量庞

杂并且存在随意乱填现象无效数据较多;数据

分析技术不够普及,大多数信息服务行业人员

对数据的处理技术不甚了解;数据庞杂的情况

下,数据分析处理的速度有限;多维数据的分析以及展示不够智能等。

2.1多维数据高效聚类原理

获取大量的多维数据信息后,采用交叉

信息链模型来进行计算,计算结果可以获取数

据集合的离散样本,将该样本利用粒子群聚方

法进行动态分配得到多维数据的信息素浓度,完成聚类,该过程详细求解如下:

将海量的多维离散数据存储在系统中,设数据为:

X=(x1,x2,x3,…xn);

采用交叉信息链模型获取数据集合中的N

个样本并将其切割得到聚类样本Xi(i=1,2,3,…

n),矢量表示方式为:

V={Vij≥(i,j)}

以上i取值范围为i=1,2,3,…C,表示第

i个聚类中心,Vi含义为数据结构中心的第i

个矢量聚类中心,C为常数;j的取值范围为

j=1,2,3…s,表示迭代次数,s含义为带宽频间

时间。多维离散数据Vmi的聚类划分矩阵如下所示:

U={ik}

以上i取值范围为i=1,2,3,…C,表示第i

个聚类中心,k=1,2,3…n,表示n个样本。在多

维离散数据的基础上实现模糊C均值聚类算

法,采用群聚类算法对样本进行动态分配来获取信息素弄不,则表达式如下:

在2.1的基础原理上,利用离散性时间序

列分析方法构建目标函数,得到最优聚类中心,

采用优化算法对最优聚类中心进行优化,就是本文要实现的高效聚类方法。

首先,构建多维离散数据信息流模型,

提取其时延尺度特征值,以此构建多维离散数

据目标函数,求解该函数得到最优聚类中心,

操作过程如下所示:

构造多维离散数据变量时间序列{Xn},

样本长度取值为n,设样本数据流分类特征属

性为X、Y,最小嵌入为数为m,最优延迟为

当数据特征的平均速度得到满足时,信息流模型为:

以上公式中,n为样本长度,t0为聚类中

心检索,

t为单位时间变化,h为数据时间序列中每个样本独立的相似性特征量,

以上就是多维离散数据的高效聚类原理,

通过该过程完成数据的聚类。2.2多维离散数据高效聚类方法

求解以上公式获取聚类中心,利用以下公式进行数据聚类:

时延尺度。根据计算多维离散数据关联度来表

●科技计划项目:贵州省贵阳市云岩区科学技术计划项目,云科合字[2018]第8号。

ElectronicTechnology&SoftwareEngineering

电子技术与软件工程•131

数据库技术

DataBaTechnique

表1:不同聚类方法用时对比

本文方法基于参数核图割的图像处理纱线毛羽算法

K-means算法

数据节点(个)/时间(min)

10001.632.14

50001.782.6910000

1.83

3.12

示数据离散性时间序列的特征,并进行空间重构,得到时间序列分布轨迹如下:

代入t=0来对量子集合进行初始化并观测结果,获取普通的种群如下:

以上x(t)为采集样本的时间,J为多维离估计普通种群p(t)并计算出每个个体

散数据相关系数,

t表示抽样时间间隔,m的适应度,提取适应度最大的个体:

表示嵌入维数,可以用K=N-(m-1)*J来表

达时间序列分类的庆历和议 最大属性,得到向量模型以修正Q(t)形成新生集合:

及特征空间数据英语专四考试时间 矢量如下所示:

利用以上公式扰动抑制聚类中心从而实

现对多维离散数据的优化:

以上公式构造了海量数据流提取特征值

属性,根据以上成果构建目标函数,数据的分2.3仿真实验以及结果分析

布模型如下所示:

2.1以及2.2介绍了该算法的原理以及计

算方法,本小节将对其进行仿真实验,文献[6]

以上公式中,a0为数据采样初始值,xn-1

以及文献[7]分别介绍了另外两种不同的处理

代表数值相同的时间序列,bi为最佳分类属性,

方法,下面我们将仿真实验结果与另外两种算

设多维离散数据时间标函数为x(t白金婚戒 )(t自我检讨 =0,1,2…

法实验结果进行对比。对比结果中,Q值的结

n-1),采用2.1提到的模糊均值聚类算法搜索

果如下图1所示。

有限的数据集向量如下:

图1为文献[6]的聚类方法结果与本文提

到的聚类方法对比,不端的加大聚类参数个数,

将数据集向量按照属性分类,得到n个

Q值随之不同幅度增大,通过图1中对比可知,

数据样本数量,用xi(i=1,2,3…n)表示多维本文方法在效率和性能方面优于之前的算法。

离散数据信息增益矢量如下:

单一的对比具有局限性,为了更好的对

比不同的算法,本文又采取了让文献[7]短发染色 的方

在以上多维离散数据信息增益矢量的数

法进行计算,将本文、文献[6]、文献[7]的三

据集中选K个实例,则其目标函数最优聚类

种方法计算时间的结果进行对比,对比结果如中心得以求解,用公式表示为:

表1所示。

由表1结果对比可知,随着需要计算的数据点个数不断加大,计算时间不同的同时,

计算时间变化有不同程度的增幅。本文提到的

得到多维离散数据的最优聚类中心以后,

算法明显优于其他两种早期提出的算法,有效

其次要利用优化算法对最优聚类结果进行优化的提高了计算效率。

从而实现高效聚类。具体优化过程如下所示:

第一步,用

编码每个聚类中心,3结论

要求

满足||

2

+||

2

=1,观测并生成二进

本文研究了早期的一些聚类方法,发现

制的普通种群,假设量子种群为pop,数据集

其计算效率较差。因而提出了另一种优化算法,

类别为K,数据维数为D,每一个维数用b位

提高当前大数据前提下多维离散数据的计算方

二进制来表示,则每一个量子染色体的长度L

法,实验结果证明该方法可行并且优于早期的

=KDb。则种群Q(t)={qt1,qt2,…,

一些计算方法。该方法虽然有效提高了数据计

qtpop}中第i个个体的编码形式为:

算的效率,但是仍存在一些不足,希望更多的

132•

电子技术与软件工程ElectronicTechnology&SoftwareEngineering

3.86

4.114.35

图1:不同聚类方法Q值对比

研究者们提出更优化、更效率的多维离散数据

计算方法。大数据正在普及,数据的存储计算以及展示优化在未来一定迎来更广阔的发展。

参考文献

[1]范谨麒.多样本多维数据的智能分类预测

模型及其应用[D].冶金自动化研究设计

院,2019.

[2]白杨.基于Hadoop的数据治理系统的设

计与实现[D].北京邮电大学,2019.

[3]姜延文.大数据分析下多维离散数

据高效聚类方法仿真[J].计算机仿

真,2019,36(02):205-208.

[4]王飞,田刚,吴澎.智能制造模式下多维

数据分析方法研究[J].信息与电脑(理

论版),2019(13):128-129.

[5]余佳珺.面向统计数据多维时空特征探

索的可视分析方法研究[D].浙江财经大

学,2019.

[6]苏泽斌,黄梦莹,景军锋.基于参数核图

割的纱线毛羽图像处理方法[J].西安工

程大学学报,201731(4):486-494.

[7]周润物,等.面向大数据处理的并行优

化抽样聚类K-means算法[J].计算机应

用,2016,36(2):311-315.

作者简介

蓝善根(1982-),男,畲族,广东省韶关市人。

硕士研究生。高级工程师。研究方向为IT咨询、数据分析。

作者单位

贵州省邮电规划设计院有限公司贵州省贵阳市550003


本文发布于:2023-04-16 16:08:24,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/499659.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:采访方式
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图