第1页共9页
网络舆情分析技术的研究
网络舆情分析研究
舆情是指在一定的社会空间内,围绕中介性社会事件的发
生、发展和变化,民众对社会管理者产生和持有的社会政治态
度。它是较多群众关于社会中各种现象、问题所表达的信念、态
度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影
响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度
重视。随着因特网在全球范围内的飞速发展,网络媒体已被公认
为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社
会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:
新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。
网络舆情表达快捷、信息多元,方式互动,具备传统媒体无
法比拟的优势。网络的开放性和虚拟性,决定了网络舆情具有以
下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以
立即发表意见,下情直接上达,民意表达更加畅通;2、突发性,
网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪
化的意见,就可以成为点燃一片舆论的导火索;3、偏差性,由于
发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为
一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片
面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现
庸俗、灰色的言论。
第2页共9页
与国外相比,我国网络舆情还存在以下特殊情况:一是由于
历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化
的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多
矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。三是
少数社会管理者对于舆论习惯于回避或堵塞。因此,网络这把锋
利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国
政治安全和文化安全构成了严重威胁,具体表现在以下三个方
面:一是西方国家利用网络对我国进行“西化”“分化”,网上
思想舆论阵地的争夺战日趋激烈。二是传统的政治斗争手段,在
网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在
现实中容易得多,也隐蔽得多。三是通过网络,西方的观念、生
活方式可以便捷地渗透进来。对于网络舆情的这些特点,社会管
理者应当了然于心。对现实中出现的各种网络舆论,社会管理者
应能做出及时反馈,防微杜渐,防患于未然。因此必须利用现代
信息技术对网络舆情予以分析,从而进行控制和引导。由于网上
的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的
收集和处理,需要加强相关信息技术的研究,形成一套自动化的
网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动
梳理、引导。
这样的系统应该具备以下功能:首先是舆情分析引擎。这是
舆情分析系统的核心功能,包括:1、热点话题、敏感话题识别,
可以根据新闻出处权威度、评论数量、发言时间密集程度等参
第3页共9页
数,识别出给定时间段内的热门话题。利用关键字布控和语义分
析,识别敏感话题。2、倾向性分析,对于每个话题,对每个
发信人发表的文章的观点、倾向性进行分析与统计。3、主题
跟踪,分析新发表文章、贴子的话题是否与已有主题相同。4、自
动摘要,对各类主题,各类倾向能够形成自动摘要。5、趋势分
析,分析某个主题在不同的时间段内,人们所关注的程度。6、突
发事件分析,对突发事件进行跨时间、跨空间综合分析,获知事
件发生的全貌并预测事件发展的趋势。7、报警系统,对突发事
件、涉及内容安全的敏感话题及时发现并报警。8、统计报告,
根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器
浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进
行查询,并浏览信息的具体内容,提供决策支持。其次是自动信
息采集功能。现有的信息采集技术主要是通过网络页面之间的链
接关系,从网上自动获取页面信息,并且随着链接不断向整个网
络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页
进行检索。舆情监控系统应能根据用户信息需求,设定主
题目标,使用人工参预和自动信息采集结合的方法完成信息
收集任务。第三是数据清理功能。对收集到的信息进行预处理,
如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无
关信息,保存新闻的标题、出处、发布时间、内容、点击次数、
评论人、评论内容、评论数量等。对于论坛BBS,需要记录帖子
的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最
第4页共9页
后形成格式化信息。条件允许时,可直接针对服务器的数据库进
行操作。舆情分析系统的核心技术在于舆情分析引擎,涉及的最
主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与
跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向
是国内外信息工作者关注的领域。文本检索会议(TREC)、情报检
索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此
类技术最新研究成果的最主要的国际会议和论坛。其中基于关键
词统计分析方法的技术相对比较成熟,但在其有效性方面还有很
大的提高空间。近年来,专家学者一直在研究更加有效的方法,
其中基于语义的内容识别方法是当前研究的重中之重,虽然也取
得了较大进展,但仍存在很多问题和困难需要克服。为了增加我
国网络信息控制能力,我们必须迎难而上加强相关技术的研究。
一、方正互联网舆情分析平台(1)方案特点
北京方正电子政务技术有限公司推出的方正智思舆情预警辅
助决策支持系统,以整合互联网搜索技术及信息智能处理技术,
通过知识管理的方法,对互联网海量信息进行自动抓取、自动分
类、自动聚类、主题检测、专题聚焦,实现用户的网络舆情监测
和新闻专题追踪等信息需求,形成简报、报告、图表等分析结
果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分
析依据。1信息采集:互联网信息(新闻、论坛等)的实时监
测、采集、内容提取及排重。2信息处理:对抓取的内容进行自
动分类聚类、主题检测、专题聚焦等。
第5页共9页
3信息服务:将采集并分析整理后的信息直接为用户或为用户
辅助编辑提供信息服务,如自动生成舆情信息简报、追踪已发现
的舆论焦点并形成趋势分析,用于辅助各级领导的决策支持。
(2)应用特点
方正智思知识管理平台软件是一款中文智能信息挖掘与处理
的平台软件,它是以北京方正电子政务技术有限公司多年积累的
中文信息处理技术、图形图像处理技术和中文自然语言处理技术
为基础,融合了最新的人工智能、信息检索、文本数据挖掘和互
联网技术的研究成果,实现了对海量文本、图片、视音频等数字
化内容进行智能采集、智能处理、智能检索和智能分析的功能。
方正智思舆情预警辅助决策支持系统是以北京方正电子政务技术
有限公司自主研发的方正智思为基础,依据市场需求进行针对性
的客户需求定制和开发而形成的应用系统,用以辅助用户解决在
海量数据环境下所面临的难题,推动各级政府的宣传机构、大众
传媒的信息化进程,助力信息传播。
特点一:提高工作效率,扩大监控范围
方正智思舆情预警辅助决策支持系统针对互联网的信息进行
收集和分析,以计算机智能处理技术辅助舆情信息汇集整理和分
析,不仅有效的提高工作效率,改善人工舆情监测的弊端,而且
通过本系统,能增加设置媒体舆情监测的数量,扩大舆情监测对
像范围,做到了高品质,大范围的深入分析监测,搞高了监测结
论的可信性和准确性,降低了人力成本。
第6页共9页
特点二:生成智能舆情报告(包括舆情简板和舆情专报)
方正智思舆情预警辅助决策支持系统凭借北京方正电子政务
技术有限公司多年的科研成果,结合内容管理技术、知识管理技
术及互联网相关技术,能够对一段时间范围内新出现的社会舆论
热点,生成智能舆情报告。舆情简报图文并貌,直观的体现互联
网焦点和热点新闻主题。舆情专报对重要的热点新闻信息进行分
析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆
发点和事态发展趋势。
另外,运用该系统,能够有效的降低人工分析检测误差,通
过对网络信息源的采集、整理、监测和分析,不仅有效降低人工
分析监测误差,而且利于形成高标准高质量的监测报告,便于相
关部门快速掌握社会思想动态,为制定相对应的执行方案提供了
可信的分析依据。
特点三:辅助判断网络新闻和评论的正面和负面信息
方正智思舆情预警辅助决策支持系统支持人工判断标注信息
属性,例如,紧急度、密级度、观点倾向等等。可按照信息属性
排列信息,例如按照时间排列、观点倾向排列等等。通过系统的
统计分析功能,对某社会突发事件的网络新闻和评论的正面负面
信息做数据分析,用直观的图表反映网络新闻热点的发展趋势分
析。
(3)技术特点自然语言处理技术
第7页共9页
据统计,当前数字化的信息中80%的信息以非结构化的形式存
在,其中大部分信息以自然语言描述形式的文本。方正智思舆情
预警辅助决策支持系统作为一个信息资讯分析应用系统,能够对
自然语言描述文本形式进行深入的分析挖掘。
自动分词技术
自动分词技术是中文信息处理与分析的基础。错误的分词将
导致完全错误的信息语义。方正智思舆情预警辅助决策支持系统
中以词典和规则为基础,综合利用了基于概率分析的语言模型方
法,使分词的准确性达到99%,并可根据不同的应用进行适合特定
要求的分词。
自动关键词与自动摘要技术
方正智思舆情预警辅助决策支持系统在篇章语义分析的基础
上,综合考虑词频、词性、位置信息,实现准确的自动关键词与
自动摘要。同时利用指代消解等技术使得摘要更具可读性。
全文检索技术
方正智思舆情预警辅助决策支持系统的全文引擎将传统的全
文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的
性能指标。同时融合了多种相关技术,提供丰富的检索手段以及
同义词等智能检索方式。
自动分类与自动聚类
分类是通过对训练集的学习,得出每一分类的属性特征的模
型,然后使用这一模型对未知分类情况的数据进行分类。典型的
第8页共9页
应用是系统通过对部分已知分类文档的学习训练后,对文档集进
行自动分类。它区别于聚类的关键是它有个学习的过程。
聚类是将数据集合中的数据划分为具有一定意义的子集,使
得不同子集中的数据差别(距离)尽可能大,而同一子集中的数
据差别(距离)尽可能小。典型的应用例子是,在空间数据库
中,根据数据点的空间分布情况,将数据点分成不同的簇。
相似搜索与消重
相似搜索是在对象集合中,找到与指定的查询对象相似的对
象实例或对象子集。例如:从WEB中找出与指定内容相似的页
面、图片或其他信息。在实际应用中,找出舆情信息内容几乎相
同的文章,实现对舆情信息的消重;根据文章主题相似性,形成
专题报道,背景分析等等。(4)市场意义
运用方正智思舆情预警辅助决策支持系统,宣传业务部门可
以有效的规范互联网
信息,引导健康有益的舆论导向。该系统对于促进加强互联
网信息监管,组织力量展开信息整理和深入分析,应对网络突发
的公共事件,全面掌握社情民意都有着积极的推动作用
二、中国舆情网PALAS(帕拉斯)网络舆情监控系统
中国舆情网()是由复旦大学舆情研究实验室共
同主办的国内最大的专业化舆情研究与舆情监测数据平台,它涵
盖日常舆情监测、舆情专题、地方舆情、舆情研究频道、舆情报
告免费下载、舆情搜索等多个栏目,其首推的中国地方舆情排行
第9页共9页
榜,是国内唯一按照地方来进行的专业舆情排行榜,在业内形成
了广泛的影响力。同时,它提供覆盖全网的舆情监测分析服务,
包括:
1、实时舆情监控系统:PALAS(帕拉斯)。它主要面向政府
机构和企业,包括政府宣传部门、政府信息中心、网络舆情监督
部门、公安机关、网络安全部门,以及上市公司、集团企业、信
息咨询公司等,并为它们提供量身定制的网络舆情监控、重点事
件追踪以及舆情数据分析。
2、舆情分析报告。它涵盖日报、周报、预警简报(随日报发
送)、事件专报(随周报送)及专题研究报告五种。中国舆情网
运用帕拉斯(PALAS)舆情监控系统,对平面媒体、广播电视和网
络媒体(包括新闻网站、博客、论坛)进行全面监测,按照新闻
价值高低和政治敏感度两大标准进行人工筛选,特别是关注突发
热点事件、影响社会稳定的风险议题、网民热议的民生话题等,
最后选出“关注舆情”,包括“重点舆情”等篇目,再按照媒体
分类和新闻议题类别进行人工聚焦检索,分类分析,概括分析,
最终形成其旗下的品牌栏目之一《舆情报告》。
三、WebSpider蓝蜘蛛网页抓取工具
本文发布于:2023-01-31 03:12:07,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/165428.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |