信息技术
2019年4月
吴家菊等:交互式电子技术手册的技术发展与应用研究收稿日期:2018-11-09作者简介:许暖(1980-),女,河南平顶山人,信息安全工程师,研究生,主要研究方向:信息安全/大数据安全;王欢(1981-),男,浙江宁波人,本科,主要研究方向:信息安全、应用安全防护
文章编号:1005-1228(2019)02-0014-02
Vol.27No.2Apr .2019sleep walker
第27卷第2期2019年4月
电脑与信息技术Co mputer and Information Technology
随着时代的不断进步,我国的电信运营商业务也
在不断的发展,越来越多的数据被电信运营企业所管
理,这其中往往会存在一些重要的敏感数据,这些敏感数据一般多包含客户的隐私,主要指客户的家庭
住址、每月消费等等,在我国,电信运营企业拥有大量用户的大量隐私隐私,一旦些黑客或者不法分子从电信运营企业的电脑端侵入,则很有可能导致隐私泄露,那么这会严重危害了用户的隐私以及个人信息安全。我国工业部和信息化部自2014年发布了《关于加强电信和互联网行业网络安全工作的指导意见》,这一相关文件中明确指出来要不断完善我国的网络安全技术,使该体系要在各行各业中充分实行,并且要提高有关网络安全空间的保障能力,目的在于促进安全发展。在这一要求之下,电信运营商不断健全信息安全保障体系,并将此任务作为目标促进电信运营企业新业务的发展,在不断建设电信运营企业业务的同时注重数据安全,形成强大的安全防御体系,在进行数据安全管控方面建设了闭环流程,种种措施都提高了数据安全的管理水平,促进了业务的稳定持续发展。
1数据安全管理问题
1.1快速膨胀的数据模型加大了电信运营企业中数据的管控力度
随着近几年来我国电信运营企业的的快速发展,一些企业为了适应客户以及时代的需要,随之而来的就要不断变更数据模型,但是在运营商内部出现的一
些问题往往会影响数据模型的变更,例如运营商内部在对数据模型进行评估时不够合理,在手段控制方面也不够充分,还有一些其他的问题出现不断导致了快速膨胀的数据模型的出现,最后将可能导致严重的后果,比如设计人员以及运维人员没有办法从全局的视角来理解处理模型,以至于采用“打补丁
”的方式来进行数据模型的维护。
1.2敏感数据未能精准的进行识别
在如今,电信运营企业的核心资产已经由传统的企业内部规划转变为了用户的各种信息数据,也就是常说的信息资产,所以电信运营企业在对敏感数据进行识别时也是一种对于信息资产的保护。字典匹配和人工识别是我国电信运营企业对于敏感数据的识别的
浅谈敏感数据的识别方法
许暖,王欢,岑岚,蔡宇进
(中国移动安徽分公司,安徽合肥230000)
摘要:文章结合数据特征技术对于敏感数据流转的生命周期进行的研究,建立一套完整的敏感数据识别体系,从而进一
步加强对于敏感数据的管控力度,使得敏感数据被泄露的风险降到最低。关键词:数据特征;敏感数据;识别方法中图分类号:TP309
文献标识码:A
DiscussingtheRecognitionMethodofSensitiveData
XU Nuan,WANG Huan,CEN Lan,CAI Yu-jin
(C hina Mobile Anhui branch,Hefei 230000)
Abstract:Thispapercombinesdatafeaturetechnologytostudythelifecycleofsensitivedataflow,andestablishesa
completesystemofsensitivedataidentification,soastofurtherstrengthenthemanagementandcontrolofsensitivedata,soastominimizetheriskofsensitivedataleakage.
Keywords:datacharacteristics;sensitivedata;identificationmethods
洗礼的意思第27卷第2期许暖等:浅谈敏感数据的识别方法
logogo主要方法,但这两种方法在运用时存在不少问题,没有办法达到很好的效果,首先,两种方法有较低的精准度,字典匹配通常采用模式化匹配的方式,所以会出现对于敏感数据的识别精确度较低,其次是识别速度慢的问题,这主要体现在人工处理方式方面,当下的数据大都有容量大,较为复杂的特点,而传统的利用人工进行梳理的速度较慢,远远不去利用机器进行识别效率高,并且同一人在不同时间对同一数据可能有不同的判断,不同人对相同的数据也有不同的判断,所以这就会使敏感数据在识别时产生的结果具有差异性。
2电信运营企业中敏感数据的识别与分类的过程
2.1建立并完善词库
分词技术是电信运营企业对词库进行建立以及完善时常用的一种方式,在使用这项技术时,首先要进行预处理,包括处理以及训练所要识别的数据集,从中提取出词汇集,词汇集中一些没有意义的词,如虚词、代词等等还要进行特别的处理,常见的处理方式主要有删除该词汇,最后所得到的词汇集会更有意义更具代表性,处理词汇集时常常采用TF-IDF加权技术,如果一个词在被处理时出现的次数越多,那么这个词也就越重要,从而代表着向量权值越高,向量权值一旦被计算出,也就意味着词库的完成。
2.2进一步提取敏感特征
enemy是什么意思
yinwa
在建立并完善词库之后,下一步就是对词库进行分类以及识别,进一步来提取敏感特征,这个过程主要是依靠风险评估师以及电信运营企业的业务人员来完成,相关人员通过合理的筛选容易被标识的敏感词汇以及数据,将这些敏感词汇以及数据进行收集整理形成敏感词汇语料库。
2.3对敏感特征做进一步的匹配
freak out
这一环节中主要运用的是分词技术,采用分词技术对目标数据进行分词处理是其中最为关键的环节,接着利用敏感词库以及被提取特征的相似性进行匹配,在匹配过程中,如果某一类敏感词汇累加值过高,那么这个数据越倾向于该类别。
2.4对敏感数据识别进行质量评估
在对敏感数据识别进行质量评估时是电信运营企业中敏感数据识别与分类的最后一步,该过程主要包括两大内容,第一部分主要是纠正之前的错误分类,第二部分则是进行敏感词的补充。在纠正错误分类时首先要准确的划分敏感词,在多个敏感词之间建立更为准确的匹配关系,另外,在对敏感词进行补充时,所补充的对象一般为一些未能识别的敏感词汇,通过这种方法能进一步扩大敏感词数据库。
3敏感数据识别方法的原理
3.1字典构造法
让世界充满爱演讲字典构词法这一方法在使用时要准确的找到根节点,确定根节点为该方法开始的第一步,根节点又可以叫做第一级节点,确定第一节点之后,便可以更容易的确定其他叶子节点,根节点至叶子节点这是一个逐级别递增的过程。关键字字典可以设置多个,每个关键字字典中存在的关键字类型大都不同。
3.2智能匹配方法
这一方法是要先对样本数据进行采集,确定多行数据之后再针对每行数据进行识别,首先是要先确定待识别数据的行数,之后一次进行第一列第一行中数据的识别,如果该部分的数据没有包含敏感信息,或者说没有包含数据库中所带有的敏感词汇,那么该部分的内容为非敏感内容,之后用此种方法来进行以下行数的测试。这种识别方法的识别过程是相对独立的,因此准确度较高。
3.3字典学习方法
这一方法中,可以预先设定字典中的关键字,当然,在后来的匹配流程中也可以进行关键字的添加,通常是通过学习的方式与关键字字典中相似的字进行添加补充。
4HMM的引入
北京35中学在进行敏感数据的识别时通常会利用HMM模型进行态势评估分析,HMM模型的定义如下:定义隐Markov模型(HiddenMarkovModel,HMM):设{Xn:n≥1)是取值有
限状态S=(1,2,?,M)的随机变量序列,π={πi}i=1,…,M是其初始分布,Xn是时齐的Markov链,状态转移矩阵为P=(Pij)M×M,其中Xn的状态转移不可观测。随机变量序列(Yn:n≥1)是一个可观测的取值为有限状态ο=(ο1,?,οL)的观测链,Xn和Yn满足联合分布是由一系列的简单转移和条件概率表达的隐Markov条件。HMM模型主要研究三类问题,首先是学习问题:又称参数估计问题,从一段观测序列{Yk,k≤m}出发,估计HMM的参数组λ=(P,Q,π),常用的计算方法有前向算法和后向算法;其次是解码问题:又称状态估计问题,从一段观测序列{Yk,k≤m}和已知模型λ=(P,Q,π)出发,估计系统状态Xn的最佳值,常用的计算方法是Viterbi算法;最后是识别问题:又称为模型分类问题,对于一个特定的观测序(下转第59页)
·15·
第27卷第2期
samuelson列{Yk,k≤m},从一组选择的模型中,选择一个最佳的模型,使得出现特定的观测序列的概率最大,常用的计算方法是Baum-Welch算法。
5结束语
成都心理咨询中心
自动化的敏感数据识别方法有许多的优势,不但保护了用户的信息安全,又可促进电信运营企业的长久发展,大幅度提升了电信运营企业的安全管理能力,同时,我国的电信营企业敏感数据识别方法还存在一定的问题,采用自动化的敏感数据识别方法可以大大的减少传统识别方法所带来的缺陷,提高了企业运行的效率,总之,电信运营企业在未来进行敏感数据的识别时要不断借鉴和吸收国外先进经验,同时要与我国当下电信运营企业发展实际状况相联系,进一步保障用户的信息安全。
参考文献:
[1]李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129.
[2]李伟伟,张涛,林为民,等.基于文本内容的敏感数据识别方法研究与实现[J].计算机工程与设计,2013.4(34):1202-1203.
[3]段莹.支持向量机在文本分类中的应用[J].计算机与数字工程,2012,40(7):87-88.
[4]杨雪涛.无线音乐业务敏感数据保护技术研究[J].电信工程技术与标准化,2013(12):5-59.
5系统运行效果
智慧园林GIS监控系统集成了园林局多个业务应用系统,,并实现了与苏州市基础地理信息共享服务平台的对接,集成共享调用了基础地理信息;与全市14处园林景点互联互通,将园林局下辖的桂花公园、东园、苏州公园、怡园、沧浪亭、网师园、虎丘、环秀山庄、拙政园、留园、狮子林、天平山、石湖、艺圃约500路视频统一接入视频监控联网整合系统,在视频监控平台中,能够任意调取上述景点中的任意一路图像,结合大屏幕拼接系统实现在平台中的显示。目前各系统之间的接口调用顺畅,可快速、全面、及时地获取到园林绿化各专题的动态数据,方便了管理人员对全市园林绿化动态的全面把握。
6结束语
在当前智慧城市建设方兴未艾,物联网、云计算、宽带无线网络等新技术应用日趋成熟之际,智慧园林GIS监控系统是整个“智慧园林”体系框架中的核心基础内容,也将是苏州市园林和绿化管理局向“智慧园
林”迈进吹响的第一声号角。该平台满足了苏州市园林局整合园林绿化综合业务信息,全面、及时、动态展示园林绿化综合信息的需求,为苏州市园林局提供了方便、快捷的信息查询和展示平台,取得了良好的社会经济效益,同时在技术上为园林绿化业务数据接口、GIS数据接口的开发和集成进行了
有益的探索。
未来智慧园林GIS监控系统的发展方向:数据感知层的逐步深化完善,充分运用物联网感知技术,为“智慧园林”平台提供更加详细的传感基础数据,将园林的保护、管理提高到智慧的高度,并逐步完善各应用系统,建立长效的管理机制,实现决策管理的信息化、智能化、科学化。
参考文献:
[1]郭海洋.GIS系统在现代城市园林建设中的应用分析[J].网友世界(云教育),2014,(19):70.
[2]沈鸿.基于GIS的智慧园林综合信息门户的设计与应用[J].电子技术与软件工程,2015(15):83-85.
[3]陈习庆,赵瑞龙,方健,朱美娟.苏州水利水务信息化发展研究[J].中国水利,2012(15):48-51.
(上接第15页)
沈鸿:基于GIS的智慧园林监控系统的设计与应用·59·