网络综合管理系统
技术方案
文档修改记录
版本号修改内容描述修改人修改日期
V0.1建立
V1.0修订
目录
1.项目概况.................................................................................................................1
2.项目建设目标.........................................................................................................7
3.系统需求分析.........................................................................................................9
3.1.建设技术先进、端到端的集中运维管理平台...........................................9
3.2.主动及时地发现问题,扭转被动服务局面...............................................9
系统网络拓扑结构的管理分析..............................................................10
3.4.建立智能的综合监控系统.........................................................................10
3.5.建立智能的趋势运行分析系统.................................................................11
系统性能的监控分析..............................................................................11
3.7.建立综合报表发布平台.............................................................................11
3.8.建立综合的服务器管理机制.....................................................................12
4.综合IT管理系统建设任务....................................................................................12
4.1.建立统一灵活的管理平台.........................................................................12
4.2.建立与管理区域匹配的分级管理模式.....................................................12
4.3.实现故障信息采集和统一处理.................................................................13
4.4.实现管理流程整合和统一管理.................................................................13
4.5.建立统一的信息展示和运行考核.............................................................14
5.综合IT管理系统方案选择以及环境要求............................................................14
5.1.1.方案模块选择..................................................................................14
5.1.2.网络环境要求..................................................................................14
5.1.3.硬件运行环境..................................................................................14
5.1.4.系统运行软件环境..........................................................................15
6.项目方案设计.......................................................................................................15
6.1.设计原则...................................................................................................15
6.2.系统架构...................................................................................................17
6.2.1.逻辑架构.......................................................................................17
6.2.2.产品架构.......................................................................................19
6.2.3.技术路线.......................................................................................21
6.3.功能设计...................................................................................................21
6.3.1.系统概述..........................................................................................21
6.3.2.网络拓朴管理..................................................................................23
6.3.3.真实的背板......................................................................................24
6.3.4.跨地域的分布式管理......................................................................24
6.3.5.丰富的网络分析工具......................................................................25
6.3.6.详细的性能监测指标......................................................................26
地址管理.......................................................................................26
6.3.8.性能管理..........................................................................................26
6.3.9.带宽资源监控..................................................................................27
6.3.10.事件管理........................................................................................28
6.3.11.故障智能告警................................................................................28
6.3.12.高效资产管理................................................................................29
6.3.13.安全管理........................................................................................30
6.3.14.告警管理........................................................................................31
6.3.15.故障管理流程................................................................................35
6.3.16.综合报表........................................................................................37
6.3.17.运行维护管理人员考核管理........................................................44
6.3.18.用户权限管理................................................................................45
6.3.19.建立数据管理................................................................................46
6.3.20.服务器管理功能............................................................................46
6.4.系统要求响应...........................................................................................47
6.4.1.软件通用设计..................................................................................47
6.4.2.系统特性设计..................................................................................48
6.4.3.系统接口设计..................................................................................52
6.4.4.系统内部集成接口.......................................................................53
6.4.5.与基础运维管理工具的集成接口...............................................53
6.4.6.与综合运维平台的集成接口.......................................................53
6.4.7.统一身份认证与单点登录接口...................................................54
7.方案特点与优势...................................................................................................54
7.1.综合IT管理系统功能优势........................................................................55
7.1.1.统一灵活的管理平台......................................................................55
7.1.2.系统适合分布式管理应用模式......................................................55
7.1.3.3.1.3适合多用户管理......................................................................56
7.1.4.3.1.4合理分配网络负载.................................................................56
7.1.5.3.1.5跨平台管理.............................................................................56
7.1.6.3.1.6智能的事件管理......................................................................56
7.1.7.3.1.7采用简单易用、直观的操作和管理......................................58
7.1.8.3.1.8智能报表准确反映真实运行情况..........................................58
7.1.9.3.1.9可定制的管理业务视图..........................................................61
7.1.10.3.1.10监控业务领域全面化..........................................................62
7.1.11.3.1.11具有丰富的接口易于扩展..................................................62
7.2.综合IT管理系统平台优势........................................................................63
7.2.1.由面向集中到面向分布..................................................................63
7.2.2.面向设备到面向整体......................................................................63
7.2.3.系统反应快捷..................................................................................63
7.2.4.强大的扩展性..................................................................................64
7.2.5.适合各种复杂的网络情况..............................................................64
7.2.6.和原厂网管接口..............................................................................64
7.2.7.强硕的平台级系统..........................................................................64
7.2.8.强大的安全管理措施......................................................................65
7.3.综合IT管理系统整体价值........................................................................65
7.3.1.建立统一的信息分析和发布平台..................................................65
7.3.2.提高信息标准化——避免信息孤岛..............................................67
7.3.3.提供决策分析、历史数据分析依据..............................................67
7.3.4.降低管理成本--提高系统可靠性、可用性....................................67
7.3.5.降低管理难度---增加实用性...........................................................68
7.3.6.实现统一管理,提高工作效率......................................................68
7.3.7.实现对全网的统筹规划和管理,提高资源利用率......................69
7.3.8.保障全网健康稳定运行,避免严重系统故障造成损失..............69
8.系统培训、维护、升级和二次开发...................................................................70
8.1.系统培训...................................................................................................70
8.1.1.培训体系..........................................................................................70
8.1.2.培训组织..........................................................................................70
8.1.3.培训理念.......................................................................................71
8.1.4.培训目标..........................................................................................71
8.1.5.培训计划安排..................................................................................72
8.2.系统维护升级...........................................................................................72
8.2.1.远程支持服务流程.......................................................................73
8.2.2.现场服务流程...............................................................................74
8.2.3.应急维护方案...............................................................................76
8.3.二次开发...................................................................................................77
9.系统实施计划.......................................................................................................78
9.1.实施步骤...................................................................................................78
9.1.1.实施指导思想..................................................................................78
9.1.2.实施方案.......................................................................................79
9.2.项目团队.....................................................................................................87
9.2.1.项目领导小组..................................................................................87
9.2.2.项目指导小组..................................................................................88
9.2.3.运维总负责人..................................................................................88
9.2.4.总协调人..........................................................................................89
9.2.5.项目管理组......................................................................................89
9.2.6.现场负责人......................................................................................89
9.2.7.项目软件经理..................................................................................90
10.项目经费预算......................................................................................................93
10.1.项目预算表.............................................................................................93
10.2.项目预算明细表.....................................................................................94
10.2.1.设计费明细表................................................................................94
10.2.2.材料费明细表................................................................................95
10.2.3.燃料动力费预算明细表(专项)................................................96
10.2.4.差旅费概算明细表........................................................................97
10.2.5.会议费概算明细表........................................................................99
10.2.6.出版/文献/信息传播/知识产权事务费......................................100
10.2.7.测试化验加工费预算明细表......................................................101
10.2.8.固定人员费概算明细表..............................................................102
11.项目进度规划....................................................................................................103
12.售后服务及技术支持........................................................................................104
1
1.项目概况
作为ABCD-1234信息化基础工程建设的一部分,网络综合管理系统是数据中
心网络设备运维管理和性能监控平台,它从硬件设施和性能的不同层次,采集和
监测网络设备性能信息、网络链路质量信息等指标型数据,并通过可视化方式向
运维管理用户提供管理、维护与监控接口,提供与设备无关的网络设施通用监测
管理平台,在此基础上为网络设备的管理、评估,统计分析和决策支持,帮助定
位故障,预测故障以及上层应用提供服务支持。
经过多年的建设,现有数据中心IT设施已具有一定的规模,各类不同厂商、
不同型号的设备和各种各样的应用系统已上线运行。由于应用的错综复杂,各个
厂商、不同型号的设备都有自己的标准、自己的接口,数据无法得到统一的汇总,
给信息中心的日常管理、维护带来很大的障碍。如何才能保证保证计算机系统及
应用系统的正常运行,并实现高效安全的运转变成了一个艰巨的任务。目前网络
内包含有华为、思科、烽火、Juniper等不同厂商的网络设备以及不同架设有不
同平台的服务器。需要对整体网络、各类操作系统以及网络设备的运行状况进行
监测。对于网管的要求,客户希望对交换机性能及端口信息进行监控,在网络发
生中断或端口有异常的情况下自动向网络维护人员发送告警信息,同时网管软件
拓扑图中相应设备或地点名称有告警显示。
网络综合管理系统提供面向网络传输平台的网络运行态势管理、故障管理、
网络资源管理、网络安全管理、运维力量管理和系统管理等功能,分别针对通信
指挥人员和网络值勤维护人员提供综合网络管理功能。
功能和接口要求包括:
拓扑管理功能,呈现所有网络设备关联关系,可以查看每一个拓扑节点的信
息、在线状态、使用状态、逻辑拓扑和地理分布等信息。
拓扑节点信息展示功能,用户可通过拓扑管理视图查看节点相关信息,如节
点名称、节点所属单位、节点设备型号、节点设备生产厂家、节点IP地址、节
点端口等。
拓扑节点在线状态信息展示功能,用户基于已存在的拓扑视图查看当前拓扑
中所有节点的在线状态,也可以通过导航树上的状态信息判断是否在线。(状态:
2
在线、离线)
拓扑节点使用状态信息展示功能,用户基于已存在的拓扑视图查看当前拓扑
中所有节点的使用状态,也可以通过导航树上的状态信息判断是否在用。(状态:
在用、未用)
逻辑拓扑定义功能,根据相关方式进行定义逻辑拓扑
拓扑图操作功能,拓扑管理提供生成拓扑图的功能,方便用户根据实际情况,
形成自定义的逻辑管理域。拓扑管理提供视图控制功能,进行拓扑表示和拓扑操
作,增强拓扑管理的可操作性。
设备定位功能,根据设备IP、设备MAC、主机名等定位交换机及其端口,
并能在拓扑图中显示其具体位置,达到故障的快速定位。
实时状态监视功能,网络流量等动态信息显示更新等。
性能管理功能,性能管理监测网络传输平台的承载网和综合接入网的运行和
服务质量,并对性能管理信息进行分析处理、存贮,产生输出报表。当性能参数
超过门限时,系统产生告警信息。
性能管理系统功能包括收集、处理和统计网络数据流量、综合接入网接通率
等指标。
网络设备管理功能,网络设备管理可提供一个面向网络传输平台中各承载网
和综合接入网的资源管理功能,提供设备资源、信道资源和文档资源等多种资源
数据采集、汇总和呈现,并对设备资源进行多种形式的分类统计。所有网络设备
通过列表方式呈现,可以对设备进行增加,修改,删除,查询等操作,同时要体
现出网络设备当前的状态信息。
网络设备新增功能,用户可以通过手动方式录入网络设备,对于录入的数据
需要进行前端脚本验证和后台代码验证,当验证通过后方可入库,同时新增的网
络设备会记录到日志中。
可以通过日志将新增的数据进行撤销操作。
网络设备修改功能,用户可以通过手动方式修改网络设备信息,对于修改的
数据需要进行前端脚本验证和后台代码验证,验证通过后修改数据库中的数据信
息,同时修改的网络设备会记录到日志中。可以通过日志将修改的数据进行还原
操作。
3
网络设备删除功能,用户可以选择删除或彻底删除,删除只是逻辑上删除数
据,即数据库中只需修改删除标识即可,对于彻底删除操作的数据,需要从物理
上删除该数据,同时删除的网络设备会记录到日志中。可以通过日志将删除的数
据进行恢复操作。
网络设备查询功能,对网络设备提供根据设备类型、设备名称、设备IP、设
备端口、设备所属单位等信息进行查询。
网络设备列表展示功能,将网络设备信息通过列表方式进行呈现,包含内容
有:编号、设备名称、设备IP、设备主机名、设备类型、设备MAC地址、设备
所属单位、设备当前状态等信息。
网络设备状态维护功能功能,可以通过手动方式对网络设备状态进行修改,
也可以通过重新点名测试获取设备当前状态信息或设备状态信息有变更时会自
动更新设备信息状态。
信道资源管理功能,信道资源管理提供信道资源的采集、汇总、呈现等功能,
主要完成承载网联网、综合接入网等信道相关资源的管理维护操作,提供增加、
删除、修改和查询等功能。
文档资源管理功能,文档资源管理提供文档资源的采集、汇总、呈现等功能,
管理内容主要包括:在通信网络设计、建设、使用、维护过程中设备、信道的文
档资料等,提供上传、下载、删除等功能。
资源分类统计功能,对设备资源进行分类统计,包括设备数量容量统计、容
量分类统计、运行机型分类统计、来源分类统计、运行时间分类统计等,以图形
和表格形式显示,为管理人员准确掌握资源情况提供帮助。
网络设备状态维护功能功能,设备点名测试主要包含:服务器(获取cpu、内
存、磁盘、某端口是否打开等)、路由器(获取接口状态、接口丢包率等)、交换
器(获取接口状态、接口丢包率等)、数据库(获取连接数、性能等)、Web应用服
务器(获取服务在线状态、访问状况等)等
测试计划维护功能、测试记录管理功能、测试实时展示功能、网络访问压力
测试、设备已部署业务系统访问压力测试、压力测试计划维护功能、压力测试记
录管理功能、压力测试实时分析展示功能。
网络安全管理功能,网络安全管理提供网络传输平台有关的非法接入记录管
4
理和综合接入规范性校验管理,并能提供与之相关的配置、查询、汇总、呈现等
功能。
非法接入记录管理功能,提供对非法接入的采集、汇总、统计分析、呈现等,
主要包括非法接入的来源、去向、时段等,为管理人员进一步分析和决策提供支
撑。用户登陆功能(与用户管理子系统对接信息);用户权限验证功能(与用户管
理子系统对接信息);用户信息展示功能(与用户管理子系统对接信息)。
综合接入规范性校验管理功能,提供综合接入规范性校验,发现配置异常或
不符合规范时,产生告警。
专项任务管理功能,专项任务管理主要提供专项任务性能分析、专项任务定
制功能,可以通过专项定制的方式,对所关注的重点区域、重点局进行综合监测
和分析,建立针对专项任务的细粒度监测视图,并可保存、发布。
专项任务性能分析功能,建立流量分析评估指标体系,能够对承载网、综合
接入网流量进行统计分析。
专项任务管理功能,专项任务管理包括专项任务定制、专项任务查询等功能,
能够实时监测承担专项任务的网络流量、接通率和可用率等指标。
点名测试功能,通过点名测试查看被测设备的服务器(获取CPU、内存、磁
盘、某端口是否打开等)、路由器(获取接口状态、接口丢包率等)、交换器(获
取接口状态、接口丢包率等)、数据库(获取连接数、性能等)、Web应用服务
器(获取服务在线状态、访问状况等)等信息。
测试计划维护功能功能,用户可以通过列表方式查看测试计划,测试计划包
含:测试对象、测试内容、测试时间、测试结果等信息
测试记录管理功能功能,对于测试过程中产生的信息,进行统一的记录管理。
提供查询,删除等操作。记录包含内容:测试时间、测试对象、测试结果等
测试实时展示功能功能,用户通过点名测试,可以实时查看当前被测对象的
状态信息。包含信息:CPU利用率、内存利用率、链路通断情况等
运维力量管理功能,运维力量管理主要提供对值勤维护力量的信息综合查询
和统计,同时提供与其他系统的互联互通接口,实现本系统与其他综合网管系统
的资源数据传输,包括资源数据的上报、查询等功能,为综合网络管理系统的资
源动态更新、资源变动情况、规划等功能提供支撑。与其他系统的接口功能主要
5
通过消息中间件实现。
告警管理功能,告警信息以数据列表的形式展示,还提供告警阈值的设置、
根据条件查询告警、告警信息推送等功能。
告警信息阈值设置功能功能,用户可以设置告警信息的阈值,对告警信息进
行一定的过滤。告警信息阈值包含设备在线状态、设备资源使用率(CPU、内存、
磁盘)、网络设备丢包率、网络设备接口状态、数据库连接数、数据库性能、Web
应用服务器访问状态等内容
告警信息查询展示功能功能,用户可以通过列表方式查看告警信息,同时提
供根据告警级别、告警类型、告警时间等条件进行查询。
告警信息实时推送功能功能,当设备产生告警后,将告警信息以可视化的方
式推送至系统显眼部分,同时给予声音提示或者颜色改变等提示。
告警信息详情展示功能功能,用户可以通过点击告警信息列表中详情按钮,
查看告警的具体信息,包括告警对象、告警类型等。
告警上报功能,告警信息实时上报、告警信息实时推送。
历史告警查询统计功能,告警信息查询展示功能、告警信息详情展示功能、
设备信息维护功能、设备信息查询展示功能、设备年度信息图表展示功能(包含
采集类型、告警维度)、设备季度信息图表展示功能(包含采集类型、告警维度)、
设备月度信息图表展示功能(包含采集类型、告警维度)。
告警屏蔽功能,能够按照一定的规则进行相关告警信息的屏蔽。
报警报表功能,可帮助管理员有效地预防或发现故障,警报将通过声音、短
信、显示报警框、发送Mail等方式及时发送相关人员,或自动运行相应的程序
进行故障处理;提供全方位的告警监测、统计分析和报警定位。
统计分析功能,用户通过选择年度、季度、月度、周度、天等不同粒度的条
件对设备信息进行饼状图、柱状图、折线图等图形图表化的统计呈现。
压力测试功能,通过对系统进行网络访问压力测试、系统访问压力测试,让
用户更好的了解系统当前的运行状态。用户可以通过列表方式查看压力测试,压
力测试包含:测试对象、测试内容、测试时间、测试结果等信息,对于测试过程
中产生的信息,进行统一的记录管理。提供查询、删除等操作。记录包含内容:
测试时间、测试对象、测试结果等
6
日志管理功能,日志管理记录系统运行过程中系统的问题信息,监测系统发
生事件,记录系统用户登录登出信息、敏感数据操作、系统异常信息等,以方便
管理员查看系统运行状况。
用户管理功能,用户管理是针对系统用户进行增删改查的一个界面,并且在
页面左边点击部门,可查看部门下的所有人员,以及该人员的角色等信息。提供
登录、授权、验证、用户信息展示、用户信息维护。
时间校准功能,将指定机器的时间与服务器时间进行校准
进程管理功能,用户可以对所有设备上运行的进程信息进行查看,同时提供
模糊查询、杀死进行等操作。
软件分发功能,用户可以将需要的软件发送至某一台或多台机器上。若软件
为压缩包则系统可以自动解压,并删除原压缩包以保证硬盘容量。
远程开关机功能,将每一台设备的状态用表格呈现出来,可对每一台设备进
行开关机操作操作
接口要求功能,支持单点登录接口、网络信息报警接口、网络设备查询接口。
通过集成平台前台界面框架嵌入网络管理系统的设备信息列表界面,展示设备分
类、名称及位置信息以及设备的运行状态等(与外部综合运维平台之间的接口)。
本方案通过网络综合管理项目建设,将做到网络系统故障早发现、早解决,
确保计算机网络的连续、可靠、安全运行,降低发生故障的可能性,提高数据中
心的网络设备运行管理水平和服务保障能力,为相关业务工作提供高效、贴身服
务。具体而言,网络综合管理管理系统应满足如下的管理需求:
1)以业务的角度将传统的技术设备的管理整合到基于业务的管理平台上
来,不仅能完成对网络设备监控的需求同时能满足根据业务的组成定位问题
根源,定位性能瓶颈,预测业务发展趋势和稳定性。
2)采用的技术成熟、先进,并具有较强的集成性和可扩充性的管理平台;
3)解放人力,依靠智能化技术化的管理手段,降低故障发生率,降低维护
成本,并同时提高维护效率。
4)易于使用和维护。管理软件本身的作用就是为了降低运维成本、提高运
维效率。这就要求管理软件本身必须是易于使用和维护的。
5)统一的报告和报表,多台设备性能比较,其它格式导出,柱图、XY坐标、
7
饼图、折线图,定期的运维报告等等
6)系统的自管理,系统的自我管理功能,包括角色管理,权限视图管理,
资源管理等。
2.项目建设目标
加强网络综合管理系统建设,提高网络设备运行管理水平,通过运维体系的
建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过
系统联动,及时、准确、全面反映与掌握数据中心各网络设备运行状态,保障各
业务系统的正常运行,应达成如下目标:
需要实现网络管理工作还包括:
(1)网络故障排查。
当出现网络故障时,迅速定位网络故障发生的位置,分析出现网络故障的原
因,解决网络故障,使网络与业务系统运行正常;
(2)新增设备、线路的网络调整
包括新增接入者,新增备份设备与线路时的网络调整;
(3)网络配置的调整。
当网络应用需求变化时,对网络设备如路由器、防火墙、交换机的设置情况
进行调整;
(4)日常巡检。
对网络设备、线路的日常检查利于及时发现网络故障,发现系统入侵,发现
病毒危害等情况;
(5)网络设备管理。
网络在用设备与冷备设备的管理,向总行报送在用设备与备用设备的相关配
置情况,以便于更好地管理网络,例如出现故障时迅速找到替用设备;
8
(6)整体业务情况。
对整体业务设备制定指标健康度,能够直观了解当前业务状况;
(7)强化主动监控,实现集中管理。
以网络设备和网络资源的可用性监控为主线,构建统一集成的网络资源及应
用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成IT
运维管理主动服务的新格局。
(8)帮助定位故障,快速恢复系统运行。
建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。当网
络故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系
统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。
(9)掌握运行质量与效率,合理利用资源。
实时了解全部网络资源的负载与使用情况,根据需要从整体角度考虑资源的
使用,同时可以根据业务高峰期的不同来调剂业务系统对网络资源的使用。
(10)规范运行管理,有序开展维护。
参照ITIL规范,对网络运维管理工作进行优化,对服务管理进行改善,将
管理数据电子化,管理过程规范化。根据相关制度进行运行维护管理,对内完善
流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的
工作效率,提高业务技术能力和解决实际问题的能力。
(11)共享运维经验,完善知识库。
把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知
识的共享机制,提供信息共享和交流的平台,提高运维人员的工作效率。
9
3.系统需求分析
3.1.建设技术先进、端到端的集中运维管理平台
在IT运维管理平台系统中,所有系统的用户对系统的操作都将通过接入平
台来完成。从系统用户的视图能看到的是某一种业务,而这种业务在系统中对应
的是跨越系统三层结构的很多环节,任何一个环节出现问题都将导致在用户看来
的系统不可用。因此就要将这些环节作为一个整体,统一加以管理。
在成功实现了上述的管理功能后,就可以对整个IT运维管理平台系统进行
统一、全面的管理,保证数据中心的IT系统网络系统可靠、高效地运行,保证
各个IT系统协调一致的提供更好的服务,实现如下系统管理目标:
能够全面详细地监视系统中所有IT资源的运行情况,提供一致的系统管理
风格
能够实时监视网络和业务的性能状况,能够通过客观数据分析当前系统性能
状况和长期系统性能变化规律和趋势,为系统升级和扩容提供科学的依据。
具有全面而深入的数据库管理功能,保证数据库系统的可靠和高性能运作,
从而使数据库变成最优的后台支撑系统。
提供运营商级IT系统中所需要的各种功能,及集成化的管理模式,可降低
系统管理的成本
机房实现智能管理管理,分析深层次原因等问题
总之,通过实施系统管理,应该把各个IT系统和涉及到的所有计算机网络
资源统一的管理起来,把现在靠经验、靠规章制度进行的管理自动化,减少系统
维护的成本,改善系统可用性和安全性,更好的管理内部系统。
3.2.主动及时地发现问题,扭转被动服务局面
建成信息资源管理平台后,将采用设备主动向监控中心报告故障与监控中心
向设备定时发巡检指令两种形式。以电子巡检代替人工巡检,可以大大缩短巡检
周期。技术人员可以抢在业务人员发现系统故障前知道系统故障并完成系统的维
护任务,改变被动服务的局面。
10
系统网络拓扑结构的管理分析
数据中心的IT系统管理网络拓扑结构的自动生成和管理是一切其他管理的
基础。网络软件不仅应该自动地发现网络中IT资源和设备,形成网络拓扑结构
图,而且应该能够以非常直观的形式反映网络设备之间的网络连接情况、网络线
路的故障和性能状况、甚至网络设备在不同地区的分布情况。
只有这样,网络人员才能简单高效地对网络进行深入的监控和管理,即使对
环境不是很熟悉的人员,也能迅速看出系统的结构和状况。对网络拓扑结构的管
理还应该与具体的IT系统结合,安装不同的业务对网络设备进行分类,建立所
谓的“业务处理视图”。这样,如果某设备或某设备的某些端口发生故障,管理
人员就能轻而易举地确定该故障影响了哪些IT系统,从而根据IT系统的关键程
度确定应首先解决的问题。
拓扑管理应该首先能够让管理者从全局角度了解全行设备运行的情况,如果
某个区域发生问题,则能方便进入到具体发生问题的地方查看实时真实的运行和
连接情况。
实时动态拓扑图通过不同的颜色和图标反映了网络设备不同的状态,当拓扑
图的设备图标或链路图标变红时,网管员就能知道当前这些设备或链路的负载比
较大,需要重点关注这些情况;
3.4.建立智能的综合监控系统
对于运营需求功能的不断加多加深,IT系统的管理功能约来越多,管理者
得到的信息将是海量的,如何分析那些是重要紧急的事件,那些事件需要自己处
理,这些事件之间有没有关联,这些事件背后的运行趋势是怎么样的,要解决这
些问题,单纯依靠管理者的经验是不够的,同时如果完全依靠人工方式
而完成这些工作不应该继续成为用户信息运维管理的负担,因此,智能化是
建设网络管理信息系统一个重要的要求。所谓智能,对于网络管理应用软件来说,
代表着高效的系统分析和处理能力,甚至支持企业战略的实施。具体的智能化就
是需要具备告警的自动压缩、自动合并、自动关联到相关管理者、告警的根源定
11
位以及告警的趋势预警等。
3.5.建立智能的趋势运行分析系统
通过监控系统记录系统运行的各项重要指标,将这些运行指标跟据管理和业
务的需要生成历史运行趋势分析图,帮助运维系统管理人员了解重要的业务系统
在哪些时段,哪些区域会对IT系统资源占用率比较高,规律性的表现在什么地
方,如果业务部门在做业务促销时,IT系统的资源是否能够保障相关联的业务
稳定增长运行。这些都会为数据中心信息管理部门分析业务的健康程度和系统扩
容或改造调整做准确的科学判断依据。
系统性能的监控分析
IT系统性能分析是IT系统管理以至整个系统管理体系非常重要的一个环节。
有些IT系统的故障并不是由于设备或线路的故障引起的,而是由于系统性能问
题造成的。通过性能管理,一方面可以及时掌握性能状况,排除由于性能问题造
成的故障,保障系统的正常运行,另一方面,可以通过对性能的历史分析,调整
网络、服务器配置。
3.7.建立综合报表发布平台
为了提高科技处信息管理部门的服务水平,提高相关业务部门的满意度,
需要一个综合的报表发布平台来发布各项关键业务和关键指标的健康度、可用性
的报表。报表的内容应该包括:系统设备的性能统计、系统设备故障统计、系统
资源使用情况统计、应用统计、服务水平统计报表等。
同时,当要访问报表时,不同部门,不同角色的用户组都有不同的需求,作
为综合的IT监控,平台提供的报表可以让用户很方便的访问和使用大量信息,
通过它可以访问大量数据源——业务信息系统与交换系统、Excel电子表格、XML
文件,因此用户可以将数据整合,划分和分割,执行高级排列和分类,创建计算
方法,进行复杂的绘图等。
12
3.8.建立综合的服务器管理机制
伴随着信息化建设事业的不断发展,信息中心IT设施已具有一定的规模,各
类不同厂商、不同型号的服务器和各种各样的应用系统已上线运行。服务器承载
着的各个应用系统的运行,如何才能保证服务器及应用系统的正常运行,并实现
高效安全的运转变成了一个艰巨的任务。
4.综合IT管理系统建设任务
IT管理解决方案能对用户所有的网络设备、服务器、安全设备、应用系统
等各种软硬件以及业务系统进行端到端的一体化管理,并克服了其它网管系统只
是提高大量数据而没有业务建模和智能分析展现的弱点,真正帮助用户化繁为
简,解决目前综合IT管理系统遇到的各种问题,解决网络复杂性和人员不足的
矛盾。要实现以上目标,综合IT管理系统建设的主要任务如下
4.1.建立统一灵活的管理平台
IT管理系统实现了三个统一:统一登录界面、统一资源管理、统一展现。
系统从纯C/S(Client/Server)或B/S+C/S模式带入到崭新的B/S时代。用户界
面方面提供基于行业标准的纯浏览器B/S(Browr/Server)方式的操作界面,
保证了使用上简单、灵活、方便。
同时基于成熟的网络技术所用的电子签名技术给灵活多样的浏览器界面提
供了充分全面的安全保证。管理者还可以根据自己的使用习惯和不同的管理范围
定制个性化的登陆界面,极大的方便了管理者的使用。
4.2.建立与管理区域匹配的分级管理模式
具有一级权限的管理员登陆到ITMaster后,就能看所有区域的设备运行情
况,包括拓扑、告警、性能分析、报表等;每个二级权限的管理员可以通过WEB
方式方便的登陆到中心服务器上,通过身份验证后,只能管理自己区域内的设备,
完成的管理工作也是在管理员授权范围内的功能,可以是拓扑管理、告警管理、
13
性能分析、报表分析等功能,或其中一项。
4.3.实现故障信息采集和统一处理
即将网络管理、系统管理、安全管理、机房环境管理等功能整合在一起,实
现统一的监控数据采集、一体化的报警数据处理、统一的故障流程处理。逐步建
立一个功能齐全、面向未来的综合网络监控管理平台,以解决由于分别建立多个
专业网管系统而造成互相分割的问题,实现对网络资源集中监控、集中管理和集
中维护,包括全网故障分析和故障定位以及全网性能综合分析等功能。
4.4.实现管理流程整合和统一管理
建立统一网络管理、系统管理、安全管理、机房环境相关的各个业务流,如
值班、工单、资产管理等,形成信息中心运行维护的规范化流程。网络监控子系
统实时监控网络及系统的运行情况,一旦出现异常情况,系统将根据工作流管理
子系统预定的流程,自动生成并派发工单,并根据值班管理子系统的设定,将工
单下达给相应人员。处理人员可以调用知识库子系统的内容,查询以往的历史记
录和处理办法,对本次情况处理提供全面帮助。整个工作完成后,所有操作和记
录自动归档,相关知识自动记录在知识库子系统。同时,统一用户管理子系统实
现对用户的权限管理,资产管理帮助管理员录入资产信息,查询资产使用情况,
加强对IT资源的内部控制;其它系统入口子系统,提供在ITMASTER上访问其它
系统的入口,建立运维管理的统一门户。
14
4.5.建立统一的信息展示和运行考核
我们可以看到,综合的系统管理的目标,已经由进行个别资源监控、系统及
网络管理、应用可用性方面阶段,正向着业务流程的优化方向发展;业务系统管
理工具的功能,已经从数据收集、发现、状态监控、配置管理、实时性能监控,
向着历史数据分析、决策分析、自动响应和高度容错方向发展。综合管理系统应
该根据系统采集的各类数据,开发运行维护的信息管理、网络、应用的信息展示
功能,并与运行管理的绩效考核相结合。综合的系统管理的管理目标和管理功能
也是不断发展、变化的。
5.综合IT管理系统方案选择以及环境要求
5.1.1.方案模块选择
结合目前IT系统管理的需求,满足对网络资源的管理需求,我们选择如下
模块:
基础平台(其中包括:拓扑管理模块、动态背板管理模块网络预警模块、网
络告警模块、性能分析模块、资源管理模块、运行管理模块、系统工具模块、日
志管理模块、报表模块)、网络设备管理节点模块、服务器管理管理模块、、设
备集/地域管理模块、桌面管理系统模块、流量分析模块。
5.1.2.网络环境要求
1、网络设备管理地址允许Ping。
2、需要管理的设备SNMP已经全部配置完成。
3、防火墙、访问列表上
5.1.3.硬件运行环境
为了能更好的完成IT运维管理系统的各项模块功能,我们建议用如下配置
服务器来完成各项功能,具体硬件要求如下:
15
网络系统管理服务器要求
类型指标要求
Cpu2×XEON2.8GHZ二级缓存L2Cache2M
内存
4GB
硬盘SCSI硬盘180G
网卡千兆网卡
5.1.4.系统运行软件环境
操作系统平台:
Linux或WindowsXP/2003或Unix
6.项目方案设计
6.1.设计原则
数据中心运维管理平台作为数据中心未来运维工作的核心支撑系统,需要系
统本身具有高可靠、易扩展、易维护等特点,并且在系统功能应用上要具备一定
的技术先进性和实用性。所以,本次项目的方案设计遵循以下设计原则:
(1)规范性
规范性原则规定系统的设计、开发、实施和维护管理必须遵循中国国家标准、
工业和信息化部有关通信行业通用的规范以及通用的国际规范,保证系统的正常
使用。
(2)先进实用
平台注重先进性和实用性的统一,以实用为目的,合理选用各类成熟、先进
技术。在体系结构、功能算法等诸多方面都采用先进计算机技术和理论,应用功
能体现实用性。
(3)可靠性
在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能
16
够7*24安全无故障运行,系统有很好的容错功能;对IT资源的监测应保证不影
响相关设备和系统的正常良好运行,并实现最好的响应效率及最小的资源占用。
(4)安全性
注重安全方面的设计,确保IT运维监控管理平台的稳定、安全运行。系统
要保证数据的安全,不会增加现有应用系统的复杂性,更不会降低现有应用系统
的稳定性。
(5)开放性
采用符合国际国内标准的通用协议,为实现与其他系统监控软硬件互联或接
入本系统进行监控提供接口,支持各种主流计算机平台、操作系统以及数据库厂
商的各类软硬件产品。
(6)可扩展、易集成
系统需具备很好的扩展性,能适应不断发展的业务需求。随着IT资源种类
和数量的扩大,系统也应能适应新的系统的对IT运维管理的需求。系统具备高
度集成性,可以和第三方产品进行集成,进行功能扩展。系统提供开发工具和接
口,方便其他监控系统集成和统一管理。
(7)易用性
易用性原则规定系统在两个方面容易使用。一方面是方便普通的客户,另
一方面是方便客户服务系统的系统管理员。
(8)业务独立性
业务独立性原则规定用户系统的接入部分与业务实现相关的处理部分之间
必须相互独立。
(9)服务位置透明性
在业务逻辑层,所有的应用程序都以服务的形式分布在多台机器节点上,
这些机器节点既可以是同构的,也可以是异构的(不同的操作系统)。在开
发应用时,任何服务中都不能出现有关机器节点位置(如IP地址)和异构平
台的信息。而要实现位置的透明性与平台的无关性。
17
6.2.系统架构
6.2.1.逻辑架构
建设数据中心运维管理体系包括四个层次的工作:
一是实现数据中心数据中心系统的故障信息采集和统一处理。即对网络、服
务器、数据库、中间件、磁盘阵列、应用系统及机房环境进行有效的管理和监控,
将网络管理、数据中心运维管理、安全管理、数据中心基础环境管理等功能整合
在一起,实现统一的监控数据采集、一体化的报警数据处理、统一的故障流程处
理。
二是管理流程整合和统一管理。统一网络管理、数据中心运维管理、安全管
理、IT基础环境管理相关的各个业务流,如值班管理、工单管理、资产管理、
知识库管数据中心数据中心运维系统解决方案理等,形成数据中心运行维护的规
范化流程。
三是统一的信息展示和运行考核。根据资源监控系统采集的各类数据,提供
网络、业务应用的信息展示功能,并与运行管理的绩效考核相结合。
四是实现数据中心运维管理平台向综合运维管理平台系统的数据上报,可以
全盘掌握各子系统软件/硬件设备的运行情况,并生成各种统计分析报表。
数据中心运维管理平台将是一个完整的网络与系统管理、安全管理、数据中
心基础环境管理、运维流程管理解决方案,可以最大限度的保护网络中的投资,
并充分考虑到将来管理需求扩展。其中每一个层次之间的如下图所示:
18
(一)对象层
对象层能够管理数据中心信息平台,涵盖了机房动力环境设备、网络设备、
服务器系统、系统应用软件、网络安全设备等。同时系统可以管理由网络设备和
线路构成的多种链路。
(二)系统监测层
监测层包括网络管理、应用管理、设备管理、桌面管理,是监测底层的被管
对象层,实现对网络、主机、存储设备、安全设备、数据库、中间件及应用软件
等IT资源的全面监控管理;同时自动收集、过滤、关联和分析各种管理功能产
生的故障事件,实现对故障的快速定位和处理;对网络和业务应用等IT资源的
性能进行监控,定期提供性能报表和趋势报表,为网络性能优化提供科学依据。
系统监测层通过各类探针获得各类被管对象的数据。采集方式支持多种网络协议
和采集方式,对于不符合标准网络协议的设备,系统提供二次开发的数据采集接
口。采集协议与方式主要包括:SNMP、SNMPTRAP、Agent、WMI、Socket等。
(三)用户层
用户层是整个系统呈现,是运维管理平台的人机交互接口,系统集中运行展
现提供集中的直观的监控呈现、快速发现和分析各类运行隐患,提供了运行一览、
网络拓扑、业务拓扑、负载分析、告警台、统计分析等多种监测视图,通过集中
19
化的有机的组合各种视图,为不同角色的人员提供完整的运维管理工作界面。运
维服务管理层将人、技术与流程进行有效地融合,实现日常运维工作的自动化、
信息化和标准化。
(四)事件层
事件层的设计目标是通过历史大数据分析,建立起运维知识库。知识库能自
动实现运维知识的积累、沉淀和共享,从而降低IT运维管理对个人的依赖。至
上而下的IT运维管理平台能为IT服务管理提供足够的管理元素,帮助管理者从
不同的角度、不同层面去了解系统运维状况,为领导决策提供科学依据,同时生
成多种工作记录,领导可对IT运维管理人员的绩效进行客观的评估,从而帮助
用户实现对IT服务基础支撑系统的透彻管控。
监测层和用户层通过统一的资源库和子系统接口来进行有机的融合,同时系
统提供了单点登录和统一认证的支持,确保从上到下的操作是必须经过统一登录
认证和操作审计的。其他集成接口系统包括系统数据交换接口和分布式数据采集
接口,通过系统数据交换接口,可以建立多层系统部署的数据交换,同时也可以
和异构系统集成,通过分布式数据采集接口可以实现数据的远程采集。
6.2.2.产品架构
本系统面对用户日益复杂的数据中心环境,整合对网络、服务器与业务应用、
安全设备、和机房基础环境等的分割管理,实现了对数据中心系统的集中、统一、
全面的监控与管理;系统通过融入ITIL等运维管理理念,达到了技术、功能、
服务三方面的完全整合,实现了数据中心服务支持过程的标准化、流程化、规范
化,极大地提高了故障应急处理能力,提升了数据中心的管理效率和服务水平。
20
本系统由网络管理NCC、业务应用管理BCC、安全管理SCC、桌面管理DCC及
集中运行管理COSS五大部分组成。
1.网络监控(NCC)
1)自动、准确、及时地发现各类异构复杂网络的拓扑结构
2)可持续地监视、报告网络的运行情况
3)提供网络运行状态和性能的多角度分析与统计
4)拦截非法接入,保障网络系统安全
5)监控异常流量及ARP欺骗等病毒
2.应用监控BCC)
(1)资源监测子系统
监控数据中心的服务器、中间件、数据库、业务应用、安全设备及基础支撑系统
(如机房、空调、UPS等)的运行状况;建立性能基线;发现系统异常并及时告
警。
(2)运行展现子系统
围绕数据中心业务和数据中心资源,采用人性化多层导航呈现模式,由全局到局
部、由粗线条到细颗粒度地逐层展现业务应用的运行状况。
3.安全监控(SCC)
(1)对各类安全设备告警事件进行采集和跨类型、跨厂商的分析
(2)可将处理后的告警信息自动精确关联到安全知识库
21
(3)实时的、翔实的、准确的呈现告警事件及信息
4.桌面监控(DCC)
(1)桌面资产统一管理
(2)桌面安全策略的强制执行
(3)终端用户行为审计
(4)补丁发布
(5)实现用户桌面系统的标准化
5.集中运行管理(COSS)
(1)数据中心资源监测结果综合展现
(2)提供各种报表和视图,呈现数据中心资源的运行状况和运行趋势
(3)基于ITIL的运维流程化管理
(4)知识库管理
6.2.3.技术路线
本系统服务端与监测程序由C++开发,管理端由php开发,支持Oracle、MySQL
等多种数据库,可以运行在Linux、Windows等多个操作系统之上。
本系统将提供丰富的API与WebService,以支持本项目的二次开发需求。
6.3.功能设计
6.3.1.系统概述
完全中文化的网络管理平台,它具有智能化,功能实用性强、支持多种设备
类型的通用性特点,提供了拓扑图显示管理、查看网络信息、设备视图、性能分
析、网络诊断工具、事件监视、告警、用户管理、日志管理等8大功能,支持大
规模网网络,为用户提供了安全、可靠、稳定和可扩展的解决方案。广泛适用于
教育、电信、政府、电力、邮政以及银行网络中心的应用。网络管理系统可以提
供全中文帮助界面,更加适合国内用户应用,真正满足客户的使用习惯。
网络管理系统完全支持网管协议SNMPv1,v2,v3版本;拥有开放的API接口
和管理数据接口,可以自定义告警及监控策略;全中文的操作界面;能显示物理
22
端口连接状态,显示通用和专用的设备面板图;通过设备面板图能详细了解网络
设备的运行状态,并对端口进行开启/关闭控制;有拓扑图编辑功能,并能显示
多级拓扑图;精美的三维图形和表格的形式表示;可以自定义告警及监控策略,
用户可以为设备监控参数设定阈值和故障级别分类;提供对任意多种网络指标体
系进行数据采集,历史数据进行分析统计,并自动形成网络报表。
网管系统具有跨厂商通用网络管理平台。能优化管理Cisco、神州数码、
3COM、D-LINK、NORTEL、华为等各主要国内外网络厂商的网络产品(路由器、
交换机),以及网络链路、主机等,同时可管理局域网和广域网设备。
网管系统具有所见即所得的动态拓扑图。拓扑图自动发现,可在一张拓扑图
中显示网络线路状态,网络线路类型,网络线路容量和负载率,网络设备的状态、
类型、名称、负载率和服务器的状态和负载率等全面的信息,能在屏幕上轻松的
定位故障设备和服务器。所有网络和系统状态一目了然,符合IETF颁布的
SNMPv1及v2C、v3规范。
网管系统具有所见即所得的动态多厂商的设备背板图。可在动态实时真实
显示。直观地显示Cisco、神州数码、3COM、NORTEL、华为等各主要国内
外网络厂商网络产品的视图和各模块及端口状态。
网管系统具有与操作系统无关。跨平台简易部署,可在MSWindows,Linux,
Unix,Solaris等各平台下平滑移植。满足不同用户的操作系统无关性。特别
适合在中国某些部分需要安全性或知识产权争议方面的原因,将来不一定完全依
托与微软平台的各部门。采用MVC模式,三层架构,显示层、逻辑层和业务逻
辑层完全分离,显示界面可以十分方便的更换。
网管系统具有操作便捷。可管理到每个逻辑端口,能为用户提供完整的网
络物理拓扑图显示和上述厂商的逼真的设备背板图,用户只需要看到端口或连线
色彩和线条的变化,就能一眼了解网络的运行状况,功能强大,使用简单,可自
动对网络进行监控,无需人员操作。
网管系统具有丰富的告警方式。提供提示框、声音、Email、网管警告和
手机短信息告警、等的方式进行告警,提供多种告警级别、分类,满足网络管理
24小时正常工作的要求。
网管系统具有人性化的报表生成。可以生成日报表、月报表、年报表,包括
23
流量、通断时间、延迟、丢包、CPU、服务等项目的监控情况,可进行相关的统
计分析和审计功能,满足日常网络运行管理要求。
6.3.2.网络拓朴管理
网络管理系统的一个重要特点就是自动拓扑发现实时监控与支持分层分布
式管理,和现有的一些网管软件相比,网络管理系统的拓扑发现过程和拓扑管理
显示方式都有非常突出的特点。
网络管理系统的拓扑图实现了分层显示,能够按不同策略任意定制子拓扑
图。在实际的环境中,在整个网拓扑图的基础上可以以地级为单位,划分多个子
拓扑图,这样不但简化网络拓扑结构,管理视图直观,并且管理难度大大降低。
网络管理系统的拓扑发现在国内处于领先水平,所见即所得的拓扑图能实时
监控网络中的每台设备的CPU负载或内存占用率等设备状态,链路负载状态,并
用不同颜色进行表示,可直接投影到一个大屏幕上直观的表现整个网络的运行状
态,一目了然简单形象。尤其适用于网管监控中心对全网的掌控。
要点:
系统能够自动生成三层网络拓扑图和子网的物理视图,并且支持手动的
设备拓扑伸展;
系统支持用户手工添加机架图并且支持资源分离和资源整合;
系统能够界面化显示设备和链路状态,并用不颜色表示出不同链路负载
情况;
系统支持实时编辑显示规则和对图片的导出;
系统支持实时采集设备和链路状态信息,动态更新网络拓扑图,智能搜
寻。
支持逼真地显示Cisco,HuaWei,3COM,NORTEL,神州数码等各国内外主流
厂商网络设备的背板图;
拓扑图分层显示,结构清晰化;
根据用户划分设备管理,管理体系明确;
网络状况一目了然
24
6.3.3.真实的背板
在充分了解“用户需求”的基础上,我们在网络管理系统中提供了常用设备
的真实专用背板图和通用背板图,支持各种主流厂商设备的真实背版显示和相关
操作。同时,考虑到用户对有些背板图的特殊性要求,因此,也提供为用户定制
的服务。
运用此功能后,能实现不用去机房现场就能知道每个设备的目前端口状态,
并用不同颜色表示,节省人力资源,只需点几鼠标就可以轻松代替原来的体力劳
动,解放出更多的时间用于其他事情,提高办事效率。
这样在环境中,机房和办公室不在同一房间内,当网络发生问题时网管员就
不用再在两地之间跑来跑去。完全实现多点鼠标少跑机房。
6.3.4.跨地域的分布式管理
为了保证网络的良好性能,提高网络的故障恢复能力,及时、可靠、有效的
进行网络管理,需要对网络进行分布式的、有层次的管理,提高网络管理的效率,
为用户提供优质满意的服务。
系统基于地域和环境的管理方式,可以让每个管理员负责一个地域的系统运
营维护,做到职责分明。并且可以让多个管理员在各自的环境下同时设计一个地
域的网络结构。基于地域和环境的管理方式可以使系统运营维护更加有效。
支持将大型网络管理的功能分散到各个区域的网络管理中心,并且使分级网
管系统的体系结构与上级单位网络管理的业务从属关系保持一致对应关系。比如
分级网管系统中的一级网管中心对应省中心网管部门、二级网管中心对应地市的
网管部门,三级网管中心对应市县级的网管部门。其中一级网管中心有两个作用:
管理本区域范围内的网络设备;通过管理下级网管中心监测管理其对应区域范围
内的网络设备,可以越级管理。下级(二级)网管中心除了以上作用外,还要负
责将其管理区域范围内的数据以及下级网管中心上报的数据加以统计、分析和过
滤,将部分紧急告警数据和分析过滤后的历史数据上报到上级网管中心。同级网
管中心之间的关系是并列的、分布管理的结构,上下级的网管中心是分级的层次
结构。
25
分级分布网管系统具有以下的优点:
实时性
首先提供历史数据的按级汇报。最关键的,实时性包括上级能及时看到下级网络拓扑的实时变更;下级紧急
告警信息在上级网络拓扑图中的实时显示。
数据真实性
人工分级网络管理的一大弊病就是下级网管人员汇报网络运行情况时存在瞒报、误报和漏报等现象(包括实
时数据和历史数据)。自动化的分级分布网络管理系统可以在一定程度上避免发生这种现象,为业务考核提供客
观依据。满足网管系统的决策层最感兴趣的功能。
分级分布式网管系统网管信息对网络带宽资源占用小
管理网络的数据通信和被管理网络的数据通信不互相影响
管理网络非紧急数据的通信尽可能选择被管理网络空闲时。管理网络数据传
输占用的带宽,远远小于被管理网络的所能提供的总带宽。分级分布网管系统在
设计时和当前的网络拓扑等实际情况紧密联系,为具体网络定制分级分布网管系
统
可定制性
分级报表系统可以可以根据不同行业用户定制适合不同行业管理需求的
报表,并且下级(二级)网管中心上报的数据可以根据自定义的要求加以统计、
分析和过滤,将分析过滤后的历史数据上报到上级网管中心。
针对实际应用状况、组织机构的构成、管理范围的大小、管理的功能等情况,
可按层次、区域建立1个网管中心,多个分支机构组成,并分为三级管理层次:
其中具体情况如下:
一级网管中心:网管中心
二级网管中心:50个省级单位(包括省、自治区、直辖市和新疆建设兵团)
三级网管中心,各个地市单位网中心。
6.3.5.丰富的网络分析工具
网络管理系统集成了常用的网络诊断工具,使管理员不需要脱离本系统的操
作界面,就能对一些常见的网络故障进行诊断和排除,真正做到了方便、快捷。
提供多种网络分析工具,如PING、TELNET、TRACERT等,让管理员方便地分析
26
网络地运行状况。
另外,为用户提供简单易用的MIB查看工具,通过这个工具,用户可以方
便的查看对象设备的MIB信息,并可以设置TRAP,对关心的数据进行采集整理。
6.3.6.详细的性能监测指标
网管系统提供端口的用户分布查询、IP-MAC-VLAN-主机名;CPU、Mem负载
对比分析;提供即时数据查询、按时间展开同一端口不同参数对比、不同端口同
一参数对比;提供设备端口各主要参数列表对比、图形展开分析;提供路由表、
IP地址表、TCP、UDP、ICMP、ARP、MAC等数据查询;提供直接的Ping检测、SNMP
连通性检测、Telnet接口、Web接口、TraceRoute检测;提供当前连接数、会
话数(ssion)、防火墙的性能指标查询;提供系统表、设备端口表、IP地址
表、路由表、基本表、ICMP表、TCP表、UDP表、SNMP表、ARP表、MAC表、CDP
表等数据的即时查询。
地址管理
可以探测当前网段内存活的IP地址,自动发现各网段的IP地址使用情况,
并提供主机定位功能,能通过IP地址,查找到该IP的MAC地址,及该IP所连
的交换机端口,系统支持监测基于IP、MAC、端口的一一对应的绑定关系,在发
生改动时;实现对设备的网络连接接入的监控,并可批量处理,也可单独指定规
则。这个功能就为网管人员提供了安全的保障,并且能快速定位问题设备,查找
根源。并且提供变动记录作为可查依据。
6.3.8.性能管理
网络设备包括交换机、路由器、防火墙和服务器等设备。能够展现这些设
备中的CPU利用率、内存利用率、各个端口流量、各个端口状态等。
®网络管理系统的性能管理功能涉及网络通信信息的收集、加工和处理等一
系列的活动。其目的是保证在使用最少的网络资源和具有最小延迟的前提下,网
络提供可靠、连续的通信能力,并使网络资源的使用达到最优的程度。
27
包含下列内容:
采集性能监视与性能相关的数据:定时收集被管设备的性能数据,自动
生成性能报告。收集的性能参数应包括:
✓端口输入/输出利用率
✓端口输入/输出错误率
✓CPU利用率
✓链路利用率、收发消息数、丢包率、端到端时延参数。
✓以上参数可以按每日/每周/每月统计
阈值控制:对每种被管对象的每种属性设置阈值,对于特定被管对象的特
定属性,针对不同的时间段和性能指标设定阈值。通过设置的阈值进行
阈值检查,在将要出现性能问题的时候向管理人员告警。阈值控制可以
根据实际情况的轻重缓急进行分级别控制。
性能分析:对性能的历史数据进行分析、分析和整理,计算性能指标,对性
能状态做出判断,为网络规划提供参考。
可视化的性能报告:对性能管理数据进行检索和处理,生成性能趋势曲线,
以直观的图形方式显示性能的分析结果。
实时性能监视:提供实时数据采集、分析和可视化的工具,用以对流量、负
载、丢包、CPU占用率、内存占用率、网络延迟等网络设备和线路的性能指标进
行实时监测,并可任意设置数据采集的时间段。
6.3.9.带宽资源监控
网络管理要能够获得广域网各线路的带宽与实际利用的带宽情况。这对于的
来说是非常有必要的,有了这项功能,管理者就可以第一时间的掌握网络设备的
连接情况,并根据具体的连接情况做相应的处理和记录。
28
6.3.10.事件管理
当被管理对象的运行状态发生变化时,就会产生事件。如果该事件是由正常
变为故障,则会产生故障报警。故障报警的定制是通过综合网络管理系统来定义
的,事件管理是通过收集、确认事件,对事件进行分类和过滤,关联不同来源的
事件完成对事件的自动处理和响应。通过事件管理,系统管理人员可以方便、迅
速、及时掌握系统运行的故障和警报,及时进行处理,保障系统的正常、稳定运
行。
IT系统管理人员所关注的问题,如网络设备当机,端口阻塞,链路损坏、、
网络通信中断、服务器系统开销过大等等都会以事件的形式表现出来。不同的平
台和软件有各自独立的事件管理机制,如果没有统一的事件管理平台,就会造成
事件管理的片面性与不统一,管理员无法迅速、准确地通过事件掌握系统状况,
得到故障报告,也就不能迅速排除故障。
网络管理系统实现了跨网络的多平台事件管理支持,应符合SNMPV1、V2、
V3标准,具有强大的功能、统一的用户界面和优秀的互操作性。
®网络管理系统处理的事件来源包括:
网络设备发出的SNMPTrap事件;
网管系统监测到的设备、端口、链路等故障事件;
这些事件一旦进入事件管理器,就可以按照预定义的规则向管理人员发出故
障告警信息。提供手机短信、E_mail、声音、应用程序、消息框的告警方式。用
户可以灵活的定制告警规则,提供CPU、内存、设备状态、链路流量等自定义告
警方法设置。
事件的数据统计。综合网络管理系统的事件管理会记录所有收集到的事件信息,
并每天生成一个事件日志文件,还可对事件信息进行统计。
6.3.11.故障智能告警
网络规模的扩大对网络的“实时性能”和“可靠性”的要求特别高。网络管
理系统特别的加强了对这方面的实时监控。通过对这些信息的监视,可及时了解
网络运行的瓶颈,以及用户对本地IP的使用情况,而且提供了六种快捷、有效
29
的告警方法,在第一时间,以用户设定的方式通知网络管理员“网络的异常情况”,
并能与网络运维系统联动,实现故障发生和处理派工智能一体化。
网络管理系统对网络情况全盘监控,发现异常第一时间用最快的方式通告出
来。并且形成日志。提供故障处理报表,可以手工编辑填写。
网管系统具有丰富的智能告警方式。提供提示框、声音、Email、网管警告和
手机短信息告警、信使服务等多种方式,提供多种告警级别、分类,智能应急处
理预案,满足网络管理24小时正常工作的要求。
特别是网络管理系统的告警具有智能判断自动预案处理的先进功能,例如当
某一台主机发起一个DOS(拒绝服务)攻击,瞬时的流量非常巨大,网络管理系
统能够通过流量大小,发生次数以及发生时间范围等因素迅速准确的判断出它的
有害性,并在第一时间通过各种告警方式告知网管员的同时又能主动的把此主机
连接的交换机端口关闭,以保护不再受此攻击,并会在处理预案设定的时间后重
新自动开启交换机端口恢复通信。这样即能在发生实际问题时把损失降到最小,
又能把将要发生问题的可能性降低到最小,让网管在问题出现之前就有预防措
施,防止因为网络问题影响整个的正常业务运做和重要数据传输,避免不必要的
损失。
并且当告警发生时同时也有日志记录,可以作为评定网管人员工作是否及时
处理,集成商维护响应是否及时的依据。
6.3.12.高效资产管理
为了更好的对国有资产进行统一的高效的管理,通过软件能检测个PC和服
务器内部的配置,提供了科学的准确的管理方法,解放了网管员花大量时间进行
人工记录统计的时间。可以在这功能中直接对相关维护信息进行记录和修改,体
现了集中化的管理,而且为此用户不必再去购买相关于这方面信息管理的软件或
软件模块,保护了用户的投资。
用户资源很多,所以要以人力来管理那么不但效果不能令人满意而且成本巨
大,用我们的软件可以轻松解决这方面的人力支出,节省日常人员开支。
资源管理模块提供动态反映中在线/离线各种网络设备、板卡、主机、中继
链路等资源的详细配置及使用情况(板卡、槽位、序列号、是否在用等);包括:
30
资源管理对象范围、资源管理实现功能、资源报表统计和资源预警;要求将客户
资料和资源信息结;IP地址管理:对IP地址进行管理、分配、查询,并提供与
润汇DHCP和商务宽带系统的接口,能够从中提取IP地址使用情况,进行核对,
统计利用率、准确率,对IP地址分配冲突进行告警、对非法IP地址进行告警。
网管系统还可以通过工作流平台记录各种设备的更新、折旧以及返修情况。
对设备的变更统一管理,保证设备信息的及时更新,达到有据可查。
在保证业务功能完整的前提下,简化了操作步骤,从而降低学习使用的难度,
减少操作失误。强大的统计功能为业务分析和业务决策提供了有利的条件。但功
能的强大不是以操作复杂为代价,相反操作极其简易。
网管系统通过自动的发现各种设备,自动建立台帐,保证信息的自动更新,
对于一些无法自动识别的设备也能够提供灵活的录入方式建立设备台帐,并可自
定义设备属性字段,对设备进行注释和登记;
通过网络管理的网络资源管理功能,可以为各种网络设备以及其它相关设备
建立硬件资源档案。系统能自动搜索网内的设备,对支持SNMP协议的设备并能
识别设备的类型、型号、生产厂家以及设备的硬件配置信息,如CPU,内存,DMA,
I/O,DISK,PORT等,对网络设备可以管理到端口级,如端口的类型,速度,端
口工作模式等。对不支持标准协议的设备,系统支持手动的建立资源档案。
6.3.13.安全管理
当管理的系统规模增大到一定程度时,不同地域的管理员都要监视和设计系
统视图,怎样才能让这些管理员专注于自己的系统环境,进行监视和设计,而互
不干扰呢?
基于地域和环境的管理方式,可以让每个管理员负责一个地域的网络管理,
做到职责分明。并且可以让多个管理员在各自的环境下同时设计一个地域的网络
结构。
通过多种控制方法保证系统自身的安全和健壮性。这些安全管理主要包括:
6.3.13.1.系统自身安全管理
当网络管理员增多时,如何控制每个管理员的操作,保证系统的正常运行变
31
得重要起来。网络管理系统提供了严格等级和权限管理,每个管理员只能在其等
级和权限范围内操作,系统还记录每个系统使用者的操作记录,以备以后查证。
同时,为了保证网络的一致性,当一管理员在设计某个区域的网络时,其他的管
理员即使有权限,也不能更改此网络。
同时,系统可针对用户的需求,对数据进行加密(多种手段的加密),保证
在数据传输过程中的安全。
6.3.13.2.系统的自监控系统
系统平台采用了分布式方式,将整个系统分成几个功能明确的子系统,子系
统可根据需要部署在不同的服务器上,使系统具有极强的承载扩展性。为保证各
子系统的正常运行,提供了自监控系统。通过自监控系统能够实时监测各子系统
的运行情况,保证各子系统能够不间断地正常运行。当子系统因某些原因死机或
停止运行时,自监控系统将向管理员发出告警信息,并自动重启或恢复子系统的
运行,以此保证系统的不间断运行。
6.3.14.告警管理
告警管理模块提供一套完整的告警管理功能,声光电等各种告警呈现方式,
同一故障告警关联,告警过滤(可人工设置);网管维护人员可以监视并处理各
级网元的各级实时告警,对相关告警网元进行告警确认、清除等操作,并可以对
告警历史信息进行查询浏览;包括:告警管理内容、告警检测、告警处理和告警
统计分析;故障、告警并进行告警拦截。
对于一个大型的、完备的系统管理,一方面要有强大的工具实时地发现、分
析在系统运行过程中出现的各种故障和性能变化,另一方面当出现故障后,必须
在第一时间通知相关人员按统一的、标准化的操作流程处理故障,同时当出现重
大故障时,能立刻通知当地主管或上级主管。
一个统一的、标准化的故障处理流程必须明确定义各类岗位、划分每个岗位
的职责,同时在故障的处理过程中需要有一定的超时机制保证故障不会长时间停
留在某层岗位上。一个统一的、标准化的故障处理流程必须明确定义各类岗位、
划分每个岗位的职责,同时在故障的处理过程中需要有一定的超时机制保证故障
32
不会长时间停留在某层岗位上。
6.3.14.1.故障来源过滤分类
系统支持对入库的告警信息按规则进行相应的告警相关性分析,然后根据分
析结果进行相应的处理,消除重复发送的同一告警,去除已有告警引起的其他告
警,通过依赖树推测出一组告警中的决定性告警,并清除其他次要告警,对频繁
发生的告警自动提高告警级别,从而保证网管中心告警信息的有效性、重要性,
从而达到消除冗余告警,减少大量的次要和无意义的告警信息,凸现真实告警的
目的;
系统能够将告警实时发送到告警监控窗口,通过声音和颜色标识不同级别告
警的发生,能够按照告警级别发出不同的告警,包括系统告警监控窗口、拓扑图
标指示、中文短消息告警、E-Mail告警;
系统能够对告警信息进行方便的查询和统计;
故障从来源上可以分为两类:自动发现的故障和人工报告的故障,下面就这
2方面逐一说明:
6.3.14.2.告警根源分析
根源分析是对事件管理机制的深入和扩充。事件管理虽然可以根据事件本身
的属性进行过滤、分类和转换,但是难以根据计算机系统环境分析不同事件之间
的内在联系,找出问题的根源。例如,一条广域网线路中断可能会导致事件管理
器收到如下事件:
➢近端路由器的广域网端口宕;
➢远端路由器的所有端口宕;
➢远端路由器宕;
➢远端局域网交换机宕;
➢远端局域网上所有IP节点Ping探测出现问题
很明显,问题的根源是近端路由器广域网端口宕(广域网线路问题),但事件
管理器会收到上述大量报警事件,把真正的问题根源淹没了,管理员不容易透过
33
事件管理找到真正的问题所在。的根源分析模块可以针对这种情况定制策略,根
据不同事件之间的实际关系进行过滤和转换。在上述例子中,可以过滤掉其他所
有报警事件,而只留下近端路由器广域网端口宕的报警,甚至可以把该事件转换
为诸如“到某地的2MDDN断了”这样的易于理解的报警。
6.3.14.3.故障监测
自动监控及按需定制监控
传统故障管理方式人为的将故障给分割,不同厂商管不同厂商的故障,网络
设备有专门的网管,服务器有专门的监视台,而有的用户自己又对自己的应用程
序写监视程序,这样的松散而混乱的管理难以真正提高运行维护的水平。
针对以上弊端,网络管理要能够自动获得整个IT环境的各种事件,包括网
络设备的故障,性能的过载,流量的异常,服务器的异常性能,各类应用的故障,
各类终端的变更等等。通过网络管理的故障监控台,用户能够对整个IT环境的
运行情况一目了然。为的信息中心提供了在统一平台上对整个网络的事件进行集
中管理的平台。
除了可以自动获得整个IT环境的各种事件,还允许客户按需灵活定义、设
置故障监测范围、监测方式和监测内容:
•监测范围可按照区域划分进行设置。
•监测内容可灵活设置,主要包括设备运行异常告警、链路异常告警、
路由异常告警、硬件异常变动告警、软件及参数设置异常变动告警、
网络基础服务设施运行异常告警、网络基础服务异常告警;
6.3.14.4.多样的故障源及数据采集方式
多样的故障源
能够管理的故障源包括:
•不同厂商不同类型的网络设备的故障
•设备不能正常连通的故障
•设备端口故障
34
•基于不同操作系统的服务器的故障
•网络安全事件
•系统日志提示的故障
•平台自身的故障
可选择的数据采集方式
监测方式包括主动查询和被动接收方式,主动查询是指网管系统主动检测网
络链路、网络设备和配置项的状况,并分析其运行状况;被动接收方式是指网络
链路、网络设备或配置项有告警信息时,向网管系统发出告警信息;
为了更好的实现统一管理,故障管理模块提供了开放的事件接收接口,任何
系统都可发送遵循其标准的故障事件。这样做,能够实现将的信息中心各种故障
软件集成到统一平台之上,从而实现在一个平台,一个界面上全景(Bird-view)
式的故障统一管理入口。
•可以实时对网络设备的SYSLOG信息进行分析,获取报警信息
•为了保证网管系统在自然灾害、恐怖袭击等非常情况发生时也能监
测网络状况,并配合路由器和交换机的设置进行流量和线路调度,
保证信息通信的要求,我们在系统设计时采用了冗余结构,以保证
系统的高度可用性;
•可用户自定义故障类型、级别和处理要求,按照用户设置对接收到
的故障信息进行分类和处理;
•对不支持SNMP协议的设备,应提供相应的的软件接口,以保证能
够接收、提取设备的故障及告警信息。
快速、准确的事件处理
将自动分析和处理从故障源传回的数据,该动作包括以下的内容:
•对事件进行过滤、相关性分析、传递、关联等处理。
•处理过的事件保存在事件日志中。
•能够根据事件的不同条件对事件的严重级别加以分类,条件包括设
备的地域、事件类型、发生事件的设备编号、设备地址、设备类型、
发生事件的时间、事件的属性等,并能够设定不同级别事件的表现
形式(不同的颜色显示),按照级别分别通知相关人员(如:普通
35
故障就只通知网络管理员,重大故障就要通知主管领导和网络管理
员)。
6.3.14.5.告警与通知
提供的智能化、流程化的故障管理能够实时监视并截获网络运行过程中所出
现的故障,确定故障位置,以声、光、电子邮件、告警列表、WINDOWS消息、
网信、手机短消息等多媒体方式通知网络管理员,并尽量给出故障原因;对于二
级管理方式,能够将事件上传到主网管;处理的方式还包括驱动工作流子系统,
生成相应的故障处理流程自动驱动工单系统,实现管理流程的流程化与规范化,
从而确保警报的高度准确性,提供故障信息的事件关联处理,避免重复报警和误
报。在发现系统异常后,可以根据用户的设定发送报警。
用户需要在对发送上来的事件进行处理后,可以:
•可根据故障类型和级别,自定义故障及告警的显示与通知方式;
•可在值班工作界面上收到故障及告警信息;
网络管提供了丰富的事件通知方法,包括:声、光、Windows消息、EMAIL、
手机短消息等,用户也可自己编写处理程序进行处理,确保以多种方式将故障信
息及时间向系统指定的人员发出警报,保证了对网络故障的7*24小时的监控。
同时通过的工作流管理程序,可以在发生故障后自动生成相应的处理流程,并以
自动工单的方式在处理人员之间按照定义的流程流转,实现故障处理的规范化与
制度化。
6.3.15.故障管理流程
6.3.15.1.故障信息查询与统计
网络管理提供了丰富和完善的事件查询和统计机制,能够让客户清晰地了解
和掌握网络运行的稳定性、可用性等。
事件查询的条件包括:事件级别、事件发生地域、事件类型、设备编号、设
备地址、设备类型、事件状态、时间段、事件编号、事件组。
在进行事件查询时,能够选择是否显示设备的端口事件。
36
能够在结果集中进行二次查询。
能够查询到从最开始发生到当前最新状态的变化过程中所发生的事件。
能够将事件统计结果导入到特定格式的文件中保存(HTML、EXCEL文件)。
6.3.15.2.智能化的故障处理
能够快速的实现故障定位,能够从拓扑图上,设备面板上,事件监视台上全
方位的发现故障。
构成的各种网上的业务的资源非常多,因此当产生故障时,往往会起到连锁
反映,形成“故障风暴”,因此快速的故障根源定位将决定的信息中心处理业务
故障的效果。通过智能的故障过滤与关联的方式,避免了“故障风暴”的产生,
并且能够快速的定位故障根源,能够大大提高的信息中心系统管理人员发现问题
解决问题的能力。
通过网络管理的故障管理,在的的网络中,我们能够进行如下的事件检测:
•能够监视全面的故障事件源,包括全面的骨干网链路通断情况;骨
干网路由器的端口状态;设备厂商定义的故障事件。
•能够监视骨干网路由器、交换机及其端口的性能阈值事件。
•能够监视的关键服务器的运行故障进行监视。
•能够对的骨干网网络设备进行采样设置(轮询设置),能够方便的
查询到需要设置的设备(通过地域、网段、IP段、IP地址等条件查
询),能够增加或取消轮询设置,能够配置轮询周期。
•能够对的骨干网网络设备进行TRAP设置,并指定接收的TRAP的设
备。
•对骨干网路由表进行监测,发现异常路由(如:非本单位网段的路
由)应及时报警。
•对网络设备的配置情况进行监测,如果发现有非授改动就报警。
•对于无法利用SNMP协议的一些应用,应进行相应的开发,并将故
障事件导入系统。
•能够对网管平台本身的故障事件进行监视;
37
6.3.15.3.故障处理监督机制
为了对处理故障的技术人员统计工作量,在Web流程管理平台上会实时显
示相关技术人员的工作状况,如响应的事件数,处理的故障的次数,未及时响应
或未处理完毕的的事件数,并在指定的时间点生成报表,为绩效考核提供依据。
6.3.15.4.建立故障处理知识库机制
可以查看已经配置的知识。用户可以进入知识库一览页面查看已经配置
的知识,通过新增功能手动添加新的知识和新的分类,通过修改功能对知识和分
类进行修改以及通过删除功能对已有知识和分类进行删除。用户可以通过知识进
行查询,快速了解各种知识。用户可以由异常关联到知识库,知识库会查询出该
异常的知识,给用户提供解决方法。
6.3.16.综合报表
综合报表模块对性能、资源、流量、告警等生成统一报表,可根据不同账户
需求,进行定制、自动生成,支持WEB、XLS、WORD、TXT等格式输出。
6.3.16.1.统计和报表
统计和报表功能是浏览历史信息的主要手段,是信息管理系统的重要组成部
分。它主要是通过WEB方式向用户提供灵活、多样的对历史数据的查询方式,并
按用户的要求以不同的格式(包括图表、文本、Excel等)呈现出来。
同时报表系统还要提供身份验证功能,保证不同的用户只能查看相应的报
表,做到对用户的分级管理。
我们提供的报表系统可以为用户提供以下几方面的历史信息,并且我们还可
以根据用户的需要为用户订制特殊的报表。
服务水平统计;
服务水平级别管理报表可以从产生的数据中提取有关内外部服务水平协议
(SLA)以及其他服务度量的支持数据。对于大多数服务提供商来说,与内外部
38
客户间的服务可用性监测和沟通对于客户关系的维系至关重要。服务水平别管理
报表通过对相关的节点、种类、地点和客户的故障数据收集和分析,可以为内外
部客户提供准确的服务水平数据。
以线路服务水平统计报表为例:通过对线路中断时间、丢包率等进行统计,
确定线路可用率。可对线路最大通信时延、最小通信时延、平均通信时延、最大
中断时间、中断次数、线路中断率、线路可用率、平均丢包率,电信ISP承诺的
SLA标准网络时延。对于周报表、月报表、季报表与上面的显示相似。
系统设备的性能统计:
对系统设备的Cpu、Memory、流量等进行统计,以确定系统中各种设备的性
能情况。可查询实时的统计数据或历史数据。
系统设备故障统计;
故障诊断报表可以对问题进行深度诊断并提供问题的解决方法。当某种报警
的发生过于频繁,或是感到难于解决时,这些报表可以帮助用户了解报警的趋势
和模式,并为客户提供有关报警的细节和响应的进一步信息,从而解决或缓解客
户的担心。另外,这些报表还可以按照客户指定的事件和节点等对特定的应用提
供特定的报表。每个报表内容还可以做进一步细节分析,包括事件状态变化历史
以及特定报警的日志等。
应用统计
对应用服务器的运行情况进行统计。
报表的管理和浏览应该采用Browr/Server,各级管理员通过浏览器
即可管理和查看报表。
报表应按照网管系统的层次结构定义不同的权限级别,各级网管人员
只能管理和浏览自己权限范围内的报表。
报表系统应能根据需要由管理员自行定义和扩展管理范围:
管理员应能对被管的网元设备做增、删、改操作,实现灵活控制报表管理
范围。
管理员应能对被管网元设备上所需要统计分析的目标(如CPU利用率、内
存利用率等)做增、删、改操作。
报表按时间类型可分为:
39
i.日报表
ii.当日的数据报表。
iii.周报表
iv.每周的数据报表。
v.月报表
vi.当月的数据报表。
vii.年报表
viii.本年的数据报表。
报表按内容类型可分为:
i.系统性能统计报表:CPU、磁盘、内存、I/O的平均负载率、高
负载时间、进程统计表、用户统计表以及网络设备的性能统计,
流量统计等
ii.系统故障统计报表,网络设备及服务器故障的发生和解决时间、
故障源、故障种类和级别、平均故障时间等。
iii.操作员状态统计报表,包括:操作员用户名、进入/退出时间、
事件处理确认状态、系统用户数等
6)报表的呈现形式应符合每类报表的不同要求,包括曲线图、直方图、饼
图等等。
7)为方便管理员查看和统计,系统可以HTML或EXCEL的方式提供报表数
据详单。
8)前一天的报表应在第二天上班前自动生成完毕,对当天的报表,厂商
应提供生成“即时报表”的功能。
安全统计
对非法访问服务器等安全类的事件进行统计。
运维统计(对工单处理情况的统计)
通过运维统计可以实现对维护人员的考核。在流程统计报表对各岗位处理故
障情况进行统计。主要的指标如下:
·每月作业计划执行完成/作业计划总数
·每天平均处理故障数
40
·当班数
·任务完成时间
·任务完成效果
收集资产信息
主要收集系统中各种设备如路由器、交换机、服务器等(如版本信息,端口
信息,MAC地址与IP地址对应等)的相关信息。
为了达成以上目的,我们提供的报表具有以下几项特性:
易于使用性
大家都没有时间去了解复杂的工具,我们提供的报表工具使得用户能够方
便地创建报表,分析数据,让管理人员有更多的时间,将他们的精力集中于
重要问题。
强大的功能
提供的报表工具它可以让用户很方便的访问和使用大量信息,通过它可
以访问大量数据源——关系型数据库、ERP系统、OLAP服务器、Excel电子
表格、XML文件,因此用户可以将数据整合,划分和分割,执行高级排列和
分类,创建计算方法,进行复杂的绘图等。
可部署性
当要访问报表时,不同部门,不同角色的用户组都有不同的需求。这就是
我们为什么要提供最大的部署选择余地——包括客户机/服务器和支持Web
的全客户端,所有这一切都在易于管理和维护的环境下进行。
6.3.16.2.报表功能分析
报表可以帮助系统服务回答有关系统运营和服务的各种问题。根据用户选择
运行的预制或定制报表的不同,这种灵活的报表可以在如下方面为用户提供帮
助:
报告发生故障的地点:系统设备可以按照地理位置、业务部门或客户对事件
进行分组。例如,它可以产生类似“上周××设备出现故障”,“影响××客户
的所有主要的关键事件”这样的报告,并将它们分发到相关的人员那里。
报告发生故障的具体设备和服务:报表可以按照设备类型、服务类型、类或
41
厂商对事件进行分组。例如,它可以产生类似“关键骨干路由器的事件(24小
时记录)”、“设备报警的周记录(按照严重程度排列)”以及“HTTP监视器
产生的所有关键事件”这样的报告,它们可以帮助系统管理员对系统设施中产生
问题的根源进行具体定位。
报告发生故障的严重程度:报表可以按照事件的严重程度、持续时间、确认
时间或发生频度进行分组,从而产生类似“3月份的所有关键和主要事件”、“确
认时间>2分钟的事件”以及“每天发生次数>5次的X类型事件”这样的报告,
这些报告可以用来衡量系统中问题的严重程度,确定系统运营性能,指出需要提
高运营效率的区域。
报告发生故障的影响:报表可以按照目标性能水平、承诺的服务水平别以及
客户的经验对事件进行分组。可以在历史数据的基础上对任何服务和客户进行分
析和显示。
为了便于统计出现的故障,可分为以下部分对系统中出现的故障进行统计:
报表功能:
基于Web的灵活报表展示
与统一事件管理平台实现无缝集成,为IT系统管理提供一种长期的综合视
图。可以为不同的管理人员提供不同的监控窗口,以实时监控相关的事件信息。
·报表系统支持汉字;
·提供对网络管理、服务器管理、故障管理、资源管理、软件分发管理的统计分
析指导,并自动根据新的数据生成报告;
·提供标准的数据库接口,可与用户的应用系统集成;
·报表的格式和内容可按照用户的需求灵活定义;
·报表可以直接通过Web网站发布:
·可以针对不同的用户限定报表的使用权限。
报表的输出方式
上述报表主要是通过两种方式输出。
在线浏览方式:用户通过浏览器登录报表工具,选择相应分类目录实时产生
统计报表进行浏览。这种方式适合管理人员使用。
报表查询可集成到事件浏览界面上,通过直接点击报表进行查看。
42
报表工具可以定时生成HTML格式的报表文件,然后以邮件方式传送给相关
工程师。客户在接收到报表后,可以通过打印机打印,也可以作为历史文件保存
在硬盘上。
•按照不同的权限查询报表
可以按照不同的权限查看报表,由于不同的人员需要查看到的报表信息不一
样,因此通过权限的分配实现对报表访问的控制。
•多种方式展现报表
可以柱状图、折线图,表格,交叉表,三维图等多种方式进行展现报表。
•生成的报表可以多种格式进行保存
报表保存的格式如GIF,Excel,PDF等格式。
6.3.16.3.面向应用服务的综合报表管理
业务系统都通过网络进行,因此保证网络的可靠运行最重要的目的是要保证
服务的可靠运行,因此网络综合管理系统必须提供面向业务服务的综合管理。
要实现面向服务的管理,必须做到对构成服务的各元素,包括网络设备(端
口)、服务器、基础应用、用户应用进行综合的监视,同时结合各种告警机制与
预警机制对业务的总体运行状况进行监视,并在一个业务视图上显示出来,这些
都不是那些单点工具所能实现的。
比如对下图所示的信息交换平台
43
交换中间件
数据转换接口
用户工作站
移动工作站
服务器
请求/响应
请求响应
本地数据
广域网络
请求异地数据
异地服务器
数据传输
数据转换接口
异地数据
数据请求
应用程
序
应用程
序
路由器
对于用户需要查取异地的数据信息,需要经过步骤:
用户通过客户端发送请求到服务器(通过网络设备比如交换机)
服务器上的应用程序对用户的请求进行分析,如果在本地的数据库中能
够发现,则从数据库中取出数据并回传给用户
如果应用程序发现数据不在本地的数据库中,那么需要通过广域网(经
过路由设备)向异地的数据库查询数据
由于不同地点的数据库和数据格式可能不同,因此必须通过一个数据交
换平台来进行适配,该数据交换平台可能采取第三方的专业软件(比如
IBMMQ)再加上二次开发构成
异地的服务器得到该请求,从数据库中取出数据并返回给交换平台
交换平台将数据进行转换后,通过网络将数据返回
本地应用程序得到数据后将数据响应给用户
在上面的任何一环出现问题,都可能造成用户无法获得自己需要的数
据,而要保证整个业务的可靠必须监视:
44
交换设备
服务器
服务器上的应用程序
数据库系统
广域网的可用性
路由设备
数据交换平台
业务的流量
业务本身的状态
同时,为了保证提前发现问题应该有适当的预警机制,将这些IT基础
元素组合在一起,当出现问题时直接对业务告警。
利用综合管理平台提供的模板、监视器、智能代理等技术,保证了能
够对组成业务的这些元素的各种属性实时监视,具体的指标包括:
网络设备设备连通率、端口流量和丢包率、错误率等指标
服务器CPU、内存、磁盘、I/O的性能指标,进程的信息
应用程序状态(活、死、挂起)、占用资源情况(内存、CPU等)
业务流量业务流量的分布,拥塞的地点
➢并且可以将各种关键指标设置阈值,并将它们关联在一起,以业
务的视图展现在用户的面前,当出现故障时可自动派发工单到指定
的人员,加快处理的速度。
6.3.17.运行维护管理人员考核管理
通过运行管理平台可以实现对维护人员的考核。考核可以通过对日常维护任
务的关键指标进行定义而实现。主要的指标如下:
每月作业计划执行完成/作业计划总数
每天平均作业计划数
当班数
任务完成时间
任务完成效果(相对平均完成时间进行计算)
45
通过运行管理平台还可以对运行管理部分考核指标进行网上考核、发布。
6.3.18.用户权限管理
综合网络管理平台本身由采集模块、用户界面等模块组成。其用户界面为用
户提供了友好、易操作的方式对信息系统进行综合查询与管理。用户界面包括服
务器主控端与基于浏览器的B/S模式。用户界面按钮方便快捷,菜单分类明晰,
使人机交互式的操作简便易行,并且支持通过修改配置文件,插入动态组件修改
自定义用户界面,使高级用户能够发挥自如,实现操作的自动化。
同时系统能根据用户角色的不同,为用户生成不同的系统表现显示,具体而
言包括:
6.3.18.1.相关领导界面
通过浏览器,相关领导可一目了然的了解到分布在的所有信息资源的分布,
包括网络设备的情况,PC的拥有情况,线路运行状态以及流量业务是否正常,
各类人员的工作情况,并对各类报表进行审阅等。
6.3.18.2.信息系统监管者界面
通过浏览器或者主控端,系统监视者能够了解到整个网络的拓扑情况,系统
中的报警信息,各种性能指标以及各种报表等等。
6.3.18.3.信息系统维护者界面
通过浏览器或者主控端,系统维护者能够收到自己的工单信息,了解自己需
要进行什么样的维护工作,并开启新的工单任务;能够监视整个网络的拓扑,监
视并处理系统中的各种告警,设置性能预警的具体阀值,通过系统对网络设备、
服务器进行配置等等。
46
6.3.18.4.信息系统管理员界面
通过浏览器或者主控端,系统管理员能够对系统的用户进行权限设置,并能
够对系统的各种配置(数据采样周期,数据备份周期等数据);同时能够通过信
息系统运行管理平台监视工具监视信息系统运行管理平台的运行状态,当平台出
现故障时可采取措施处理。
6.3.19.建立数据管理
数据维护功能提供用户一个可视化的对当前系统数据库的数据进行检测大
小,删除数据超过阀值数据,备份数据表,恢复数据,检测与修复数据的功能。
主要为:
➢支持用户对数据库数据大小的手工与自动检测
➢支持用户对数据库数据大小的设置手工与自动清理
➢支持用户对数据库对特定数据的手工与自动备份
➢支持对背份好的数据库文件进行数据恢复
➢支持对数据库文件的修复
6.3.20.服务器管理功能
支持多个厂家的服务器设备,包括IBM,HP,SUN等厂家;
支持多种操作系统,windows,linux,Solaris,AIX等操作系统
支持对服务器的运行性能进行监控,包括CPU,内存,磁盘等信息,而且对服
务器上所安装的软件及进程进行监控。
47
6.4.系统要求响应
6.4.1.软件通用设计
6.4.1.1.功能通用设计
1)查询统计
本系统具有业务数据条件查询功能,具有组合和定制查询条件功能,具有模
糊查询和精确查询功能,能够集成常用计算公式,实现业务数据的统计。
2)报表生成
本系统具有报表生成功能,提供报表格式定制功能。
3)打印输出
本系统具有打印预览和打印功能,提供打印设置功能。
4)文件输出
本系统能够将业务数据以文件形式输出,输出格式支持doc、xls、txt等。
5)数据导入导出
本系统提供业务数据的导入导出功能。
6)用户与权限管理
本系统具有用户信息配置、查询及密码设置功能,具有用户的权限分级、权
限分配等功能。
7)日志管理
本系统能够记录用户操作的全过程,包括用户名称、访问时间和异常信息等,
为系统使用情况跟踪以及系统故障处理提供数据。
6.4.1.2.技术通用设计
本系统设计支持大数据的处理、分析、存储,支持对海量数据(10亿条以
上)能进行存储,支持对海量数据能进行精确、快速查询。
48
6.4.1.3.系统精度设计
在客户端所要求的硬件运行环境条件下,本系统在进行大量的人机交互操作
时反应迅速,人机交互的响应时间以及系统各模块进行功能切换时间应无明显的
延迟和等待。在进行统计分析时,根据所需数据量的不同而从秒级到分钟级,原
则是保证操作人员不会因为速度问题而影响工作效率,系统完成大数据量处理或
输入、输出大型表格文件时,应提供操作进度提示。
1)一般精度
系统在处理数据的过程中要满足各类数据的精度要求,保证数据的准确无
误。
2)数量精度
公里数等精确到小数点后2位。
3)金额精度
金额精确到分,金额最大长度为16位。
4)时间精度
按照业务具体要求可分别精确到年、月、日、时、分、或秒级。
5)查准率
数据的查询准确率应保证100%。
6.4.2.系统特性设计
6.4.2.1.标准化设计
本软件及技术文件均按国标、军标进行标准化设计和编制。
6.4.2.2.保密安全机制
遵循解放军后勤信息化建设业务系统总体的安全保密技术体制,依托全军业
务信息系统及军事综合信息网提供的安全保密技术手段,实现综合信息系统的网
络安全、计算环境安全、应用安全和安全管理,以及信息处理、传输和存储的机
密性、完整性、可控性、可用性和不可否认性。
49
1)安全管理制度
我公司具备局域网的管理规则、机房管理规则、微机使用规则、软件过程中
的专人负责制,符合军品研发要求。
2)系统保密性
只有授权的用户才能动用和修改信息系统的信息,而且必须防止信息的非
法、非授权的泄漏。
3)信息安全性
为防止数据在信息存储、传输和使用过程中出现泄露现象,本系统采用了严
密的分级权限设置、口令策略和详尽的日志记录,防止越权使用,并做到有据可
查。
4)漏洞检测和安全风险评估
本系统支持识别检测对象的系统资源,分析这一资源被攻击的可能指数,了
解支撑系统本身的脆弱性,评估所有存在的安全风险。
5)可用性和抗毁性
本系统支持双机热备部署,防止在系统出现单点失败时,系统的备份机制保
证系统的正常运行。
6)系统防病毒
建议本系统与专业的网络防病毒系统配合使用。
6.4.2.3.容错设计
系统具有较强的容错能力,错误操作、网络中断或非正常退出时,系统通过
给出提示信息、保存用户的工作结果、提供必要的数据备份恢复手段等方式,尽
量减少工作损失。
6.4.2.4.易恢复性设计
对核心软硬件的工作状态和环境应能实时监测,本系统将及时给出异常告
警,故障平均定位时间小于2分钟,平均恢复时间(MTTR)小于1小时,单点故
障不影响全系统正常运行。
50
软件出现故障情况下,可以在2个小时内重装恢复;软件故障不会对原有资源数
据产生影响。
6.4.2.5.运行性能指标
1)网络设备、计算存储设备、软件故障反馈时间≤10秒;
2)告警信息需及时更新,更新时间<5秒;
3)数据浏览时,单个页面数据显示时间≤30秒,单个数据详细信息显示时间≤
10秒;
4)简单查询请求的页面响应时间≤5秒,复杂组合查询请求的页面响应时间≤10
秒;
5)网络拓扑展示,在50个网络设备时,响应时间≤15秒;
6)网络运行监测的数据采集时,每10个网络设备的数据采集时间≤3秒;
7)单个统计分析时间应控制在≤30秒;
8)每个数据采集引擎的采集能力≥4000条/秒,数据分析能力≥9000条/秒;
9)数据统计的响应时间不应超过5秒,数据量特别大的情况不应超过15秒;
10)当网络出现故障或者其它外部因素,造成服务器故障时,都不会对系统数据
产生负面影响或丢失;
11)系统年平均无故障运行率达到99.9%。
6.4.2.6.易用性设计
按钮名称采用易懂准确的文字,且与同一界面上的其他按钮明确区分,能望
文知意。
功能设计参照主流软件系统,操作符合用户使用习惯。
6.4.2.7.可维护性设计
1)维修性设计
系统采用标准化、模块化、服务化的软件设计,便于技术人员日常维护;
2)数据备份
51
系统具备一定的备份能力,但建议采用专业数据容灾备份系统实现数据备
份;
3)数据恢复
系统具备一定的恢复能力,但建议采用专业数据容灾备份系统完成数据恢
复;
4)软件安装
客户端应用软件安装时间在10分钟左右,服务器端应用软件安装时间为1
小时。
6.4.2.8.人机交互设计
本系统用户界面支持1024×768以上分辨率,32位真彩色;
对于层次结构数据使用树形结构,便于定位选取,展示数据的有效工作区应
最大化;系统支持中文B/S人机交互模式;软件的人机界面友好、界面设计科学
合理、操作简单,优化图形用户操作界面。
本系统将提供详细准确的使用说明、联机帮助、操作提示和工作状态记录,
便于用户快速掌握和操作使用。
1)设计风格
系统界面风格一致,采用中文界面;
2)系统菜单
菜单通常不超过四层,每层菜单选项通常不超过九个,菜单按照业务使用要
求从上到下顺序排列;
3)窗口设计
窗口布局合理清晰,包括:操作区、数据显示区、提示区、标题区、消息区
和事件区。操作区放在窗口一侧,数据显示区处于窗口中间主要位置,提示区处
于窗口底部,标题区处于窗口顶部;
4)数据结果显示
系统以图表结合的方式实现查询结果和统计情况的直观显示;
5)帮助提示
系统具备电子帮助手册,提供查询与定位功能,帮助说明清晰无歧义,链接
52
有明显提示。
6.4.2.9.软件运行环境
1)服务端
服务端操作系统:Linux(CentOS、Ubuntu、中标麒麟等)
应用服务器:ApacheHTTPServer
数据库:Oracle或MySQL
CPU:主频2GHz以上
内存:8GB以上
硬盘:500GB以上
2)客户端
操作系统:Windows7/8/10
浏览器:IE9.0以上、Firefox、Chrome
CPU:主频1GHz以上
内存:2GB以上
6.4.2.10.软件开发环境
C++:EclipCDT
php:ZendStudio
数据库:Oracle、MySQL
UML工具:Visio
6.4.3.系统接口设计
数据中心运维管理平台在实现IT运维监控管理等信息的采集、存储、处理、
加工、传输、统计分析、应用、系统管理的同时,与相关外部系统有着密切的联
系,包括:基础运维管理工具、机房动力环境监控系统、综合运维平台、短信平
53
台等系统有着紧密的联系。
6.4.4.系统内部集成接口
(1)接口功能设计
本接口实现分级情况下支撑系统之间的告警、性能等数据交互。
(2)接口实现设计
1)接口服务:利用应用支撑层的数据交换接口服务来实现接口功能。
2)接口技术:WebService、SOAP、文件等。
6.4.5.与基础运维管理工具的集成接口
(1)接口功能设计
该接口对基础运维管理工具的网管、安管、主机管理、存储管理、机房动力
环境监控等系统之间的事件、性能、告警等关键数据进行抽取、汇聚,以支持对
监控数据的预警、统一展现。
(2)接口实现设计
1)接口服务:利用应用支撑层的数据交换接口服务来实现接口功能。
2)接口技术:WebService、SOAP、文件、码流等。
6.4.6.与综合运维平台的集成接口
本接口实现IT系统监控管理平台与综合运维平台之间的数据交互,满足监
控数据的实时抽取、汇总、预警、统一展现的需求。
(1)接口功能设计
1)运维监控数据抽取、汇聚、展示
该接口对IT系统监控管理平台的网络监测与管理、业务系统监测的告警、
性能等关键数据进行抽取、汇总、预警、统一展现。
2)生成基于故障告警事件信息的故障工单信息
综合运维平台根据IT系统监控管理平台所产生的故障告警事件信息自动生
成相应的故障工单信息。
3)故障工单数据和处理状态同步
该接口辅助两边系统保持故障工单数据和处理状态的同步。
(2)接口实现设计
54
1)接口服务:利用应用支撑层的数据交换接口服务来实现接口功能。
2)接口技术:WebService、SOAP、文件等。
6.4.7.统一身份认证与单点登录接口
本系统将对IT系统监控管理平台与基础运维管理工具、综合运维平台、机
房动力环境监控系统等相关外部系统进行门户集成,从而在统一运维管理门户中
实现这些系统的统一身份认证和单点登录,形成统一的运维管理运行机制,从而
有效集成并利用各类运维管理资源。
1)统一身份认证:对IT系统监控管理平台与基础运维管理工具、综合运维
平台、机房动力环境监控系统等相关外部系统的用户进行管理集成,纳入到统一
运维管理门户访问控制体系中,实现对IT系统监控管理平台用户的统一身份认
证。
2)单点登录:对IT系统监控管理平台的各模块,以及该系统与基础运维管
理工具、综合运维平台、机房动力环境监控系统等相关外部系统在统一运维管理
门户中的单点登录控制,使用户登录一次便可访问全部授权应用资源。
7.方案特点与优势
公司全系列的IT综合管理平台,将传统网管的面向IT设备的网元级设备级
网管,提升到面向业务系统、面向IT部门客户满意度、面向成本控制,将网络
管理、应用管理、业务管理和安全管理融合与一体的IT综合管理平台。
公司提供的IT综合管理平台是完全以业务为主线的对用户IT基础架构实时
监测与管理的解决方案。
IT综合管理平台突破了传统的解决方案,化繁为简,侧重面向企业业务和
运营的质量。作为领先的第五代IT运维监控系统,通过基于WEB页面操作,帮
助用户轻松实现对IT业务系统管理,确保核心业务稳定运行。这种全新的技术
实现方式大大简化实施和使用过程,使用户对IT管理的满意度达到前所未有的
高度。
IT综合管理平台能对用户的网络设备、服务器、PC机、安全设备、应用系
55
统、机房、环境等IT部门管理的各种软硬件以及业务系统进行端到端的一体化
管理,并克服了其他很多网管系统只是提高大量数据而没有业务建模和智能分析
展现的弱点,真正帮助用户化繁为简,解决IT复杂性和人员不足的矛盾。
以业务智能、处理智能、分析智能等功能和非编程实现的特色,帮助您实现
业务管理的高效化、便利化和先进化,以满足网络日益发展的业务系统信息化的
目标,实现对IT业务架构进行跨层次的纵向综合管理,这样信息管理部门面向
的即是业务层,同时也能有效的提高网络平台的综合服务水平,并提高运行维护
工作的计划性和标准化、流程化,建立科学的IT服务管理流程,在运维管理上
形成有效的链接和闭环。从根本上来说,这也符合业界当前最先进的ITSM(IT
服务管理)思想要求。
7.1.综合IT管理系统功能优势
7.1.1.统一灵活的管理平台
综合IT管理系统实现了三个统一:统一登录界面、统一资源管理、统一展
现。系统从纯C/S(Client/Server)或B/S+C/S模式带入到崭新的B/S时代。
用户界面方面提供基于行业标准的纯浏览器B/S(Browr/Server)方式的操作
界面,保证了使用上简单、灵活、方便;同时使用特有的(NSTT:NSTextTopo)文
本-拓扑图技术,保证了在高灵活性基础上的所有完备功能的完整实现。同时基
于成熟的网络技术所用的电子签名技术给灵活多样的浏览器界面提供了充分全
面的安全保证。管理者还可以根据自己的使用习惯和不同的管理范围定制个性化
的登陆界面,极大的方便了管理者的使用。
7.1.2.系统适合分布式管理应用模式
系统不同的采集管理器分别负责管理不同区域和不同层次的网络资源,综合
IT管理系统支持多层次的分布管理模型。网络设备管理采集单元、主机信息采集
单元、机房监控数据采集单元等可以分别将网络情况、告警事件、性能数据等上
传到网络管理中心,网络管理中心对各级模块数据汇总后统一处理和展示。
56
7.1.3.3.1.3适合多用户管理
总部中心服务器集成门户—Portal能够根据每个人不同的权限需要组合各种
数据、查询和报表,并可以为不同角色的管理员和领导定制不同的管理界面,实
现个性化管理。可以为网络的技术人员和业务人员提供直观的个性化信息,不同
的人通过WEB方式来查看自己管辖权限范围内单位的拓扑,告警,报表等各项功
能,并且能够提供过滤器,提供个性化事件通知。
7.1.4.3.1.4合理分配网络负载
通过部署综合IT管理系统方案,各个不同的数据采集单元分别采集和轮训
各自管理内数据和告警,并设置其监控结果定期上传到中心网络管理中心,这样,
网络管理中心服务器不必要对各个不同的数据采集单元网络设备进行轮询监测,
而是通过网络设备管理采集单元、分布式采集器、主机信息采集单元、流量监控
数据采集单元等可以分别将网络情况、告警事件、性能数据等上传到网络管理中
心,网络管理中心对各级模块数据汇总后统一处理和展示。节省网络带宽的占用,
合理分配网络和网管服务器的负载,符合目前的管理需要。
7.1.5.3.1.5跨平台管理
综合IT管理方案系统的管理范围从网络设备到传统大型主机,包括Windows,
Linux,IBMAIX,SUNSorlaris,HPUnix在内的各种系统,并且可以从一个单
一的用户界面分别管理其局域网(LAN)、广域网(WAN)。
7.1.6.3.1.6智能的事件管理
IT运维管理平台系统通过方便易用的交互式控制台,为IT管理员显示关键
事件,提供自动的事件相应,可以以电子邮件、寻呼、短消息等方式发出事件通
知,或者执行自动恢复动作,并且提供灵活的事件关联和智能根源分析,
系统管理人员所关注的问题,如系统资源出现短缺、数据库连接失败、网络
通信中断、主机文件系统溢出、用户违反安全规则进行了非法操作等等都会以事
57
件的形式表现出来。不同的平台和软件有各自独立的事件管理机制,如果没有统
一的事件管理平台,就会造成事件管理的片面性与不统一,管理员无法迅速、准
确地通过事件掌握系统状况,得到故障报告,也就不能迅速排除故障。
同时IT运维管理平台系统提供强大的事件滤和分析功能。进入事件管理器,
就可以按照预定义的规则进行过滤、分类、转换、通知和自动响应等各种处理。
事件过滤是为了防止大量重复、无意义事件淹没真正需要管理员处理的事
件,让事件管理切实增强为管理员支持工作的效率。事件管理器可以按照事件严
重性、来源、描述、时间等各种属性过滤事件,只显示用户所关心的信息,减少
事件数量。
事件的分类是按照事件的来源、性质进行分类,以便不同支持人员分别处理
不同事件;事件转换是把事件与业务信息关联,方便管理人员理解。事件管理器
可对所显示信息进一步分类和转换,对不同级别的事件信息以不同的颜色和亮度
表示。通过这种方法可以提高系统操作员的工作效率,增强系统的可维护性。
事件的多种通告方式。可以通过电子邮件,有声报警将事件通知系统管理员,
甚至可以呼系统管理员的寻呼机。对于报告了严重问题的事件可以对其进行强化
处理。这可以是将消息用高亮度显示在屏幕上或生成滚动的字符显示,或者将事
件显示放在显示保留区中显示直到系统管理员确认信息。还可以自动生成问题描
述,提交给问题管理程序处理。
例如有如下事件:
近端路由器的广域网端口宕;
远端路由器的所有端口宕;
远端路由器宕;
远端局域网交换机宕;
远端局域网上所有监控的服务器操作系统出现问题
远端局域网上所有监控的服务器数据库系统出现问题
远端局域网上所有IP节点Ping探测出现问题
很明显,问题的根源是近端路由器广域网端口宕(广域网线路问题),但事件管
理器会收到上述大量报警事件,把真正的问题根源淹没了,管理员不容易透过事
件管理找到真正的问题所在。综合IT管理方案系统问题根源分析系统可以针对
58
这种情况定制策略,根据不同事件之间的实际关系进行过滤和转换。在上述例子
中,可以过滤掉其他所有报警事件,而只留下近端路由器广域网端口宕的报警,
甚至可以把该事件转换为诸如“到某地的2MDDN断了”这样的易于理解的报警。
这一功能提供了极大的智能管理,防止垃圾事件将故障根源事件淹没,方便
管理员管理。
7.1.7.3.1.7采用简单易用、直观的操作和管理
系统管理员可通过简单易用的图形界面,用鼠标拖拉对象就可完成对各种系
统资源的复杂管理工作,而不必记忆不同平台、不同系统上的复杂操作命令,降
低管理难度和管理工作量。同时简单易用的图形界面使用户易于掌握,能快速实
施系统管理任务。创立一套“不用看说明书就能使用的综合IT管理方案”,非
常适合我们单位的日常网络管理需求。
7.1.8.3.1.8智能报表准确反映真实运行情况
综合IT系统提供的报表系统可以为网络信息管理者提供以下五大方面的报
表,包括设备性能统计报表、系统故障统计报表、系统资源使用情况统计、应用
统计报表、服务水平报表,报表生成周期包括日报、周报、月报、季报、年报。
并且我们还可以根据用户的需要为用户订制特殊的报表。同时报表系统还提供身
份验证功能,保证不同的用户只能查看相应的报表,做到对用户的分级管理。下
面是这五大类报表的主要内容
系统设备的性能统计报表:
对系统设备的CPU、磁盘、内存、I/O的平均负载率、高负载时间、进程统计
表、用户统计表以及网络设备的性能统计,流量统计,以确定系统中各种设备的
性能情况。可查询实时的统计数据或历史数据。
系统设备故障统计报表
故障诊断报表可以对问题进行深度诊断并提供问题的解决方法。当某种报警
的发生过于频繁,或是感到难于解决时,这些报表可以帮助网络信息管理人员了
解报警的趋势和模式,并为客户提供有关报警的细节和响应的进一步信息,从而
59
解决或缓解网络信息管理人员的担心。另外,这些报表还可以按照网络信息管理
人员指定的事件和节点等对特定的应用提供特定的报表。每个报表内容还可以做
进一步细节分析,包括事件状态变化历史以及特定报警的日志等。
服务水平统计报表
服务水平级别管理报表可以帮助网络信息管理人员制定服务水平报表。管理
员从监控系统产生的数据中提取有关内外部服务水平协议(SLA)以及其他服务
度量的支持数据。对于网络信息管理人员来说,提高业务部门对IT相关业务的
满意度至关重要。
综合IT监控系统可以帮助网络信息管理人员具体需求,提供例如业务服务
水平报表,骨干设备服务水平报表,骨干链路服务水平报表等。下图是骨干链路
流量趋势变化的的报表,通过这个报表能看到在一个月里的链路带宽变化情况。
我们可以生成“网络4月带宽利用率报表”,通过链路利用率报表,能看到网
络各链路运行整体状态平稳,流量超高50Mbps的链路0条,带宽利用率超高
50%的链路0条,接通率低于90%的链路0条。
可以生成“网络4月网络设备利用率报表”整体运行状态平稳,接通率低于
60
90%的设备0台,cpu负责高于50%设备0台,内存利用率高于50%的设备0台
综合IT监控系统提供的报表系统之所以智能,出了能提供以上五大类报表
外,还可以帮助管理者回答有关系统运营和服务的各种问题。根据网络信息管理
人员选择运行的预制或定制报表的不同,这种灵活的报表可以在如下方面为网络
信息管理人员提供帮助:
➢报告发生故障的地点:系统设备可以按照地理位置、业务部门或客户对事件
进行分组。例如,它可以产生类似“上周××设备出现故障”,“影响的主
要的关键应用”这样的报告,并将它们分发到相关的人员那里。
➢报告发生故障的具体设备和服务:报表可以按照设备类型、服务类型、类或
厂商对事件进行分组。例如,它可以产生类似“关键骨干路由器的事件(24
小时记录)”、“设备报警的周记录(按照严重程度排列)”以及“HTTP
监视器产生的所有关键事件”这样的报告,它们可以帮助系统管理员对系统
设施中产生问题的根源进行具体定位。
➢报告发生故障的严重程度:报表可以按照事件的严重程度、持续时间、确认
时间或发生频度进行分组,从而产生类似“3月份的所有关键和主要事件”、
“确认时间>2分钟的事件”以及“每天发生次数>5次的X类型事件”这样
的报告,这些报告可以用来衡量系统中问题的严重程度,确定系统运营性能,
指出需要提高运营效率的区域。
➢报告发生故障的影响:报表可以按照目标性能水平、承诺的服务水平别以及
客户的经验对事件进行分组。可以在历史数据的基础上对任何服务和客户进
行分析和显示。
61
综合IT监控系统提供的智能报表系统在保障以上强大功能的同时,还具有
以下特性:
易于使用性
网络信息管理人员没有时间去了解复杂的工具,我们提供的报表工具使得管
理者能够方便地创建报表,分析数据,让管理人员有更多的时间,将他们的精力
集中于重要问题。
强大的扩展功能
综合IT监控系统提供的报表工具它可以让用户很方便的访问和使用大量信
息,通过它可以访问大量数据源——关系型数据库、ERP系统、OLAP服务器、
Excel电子表格、XML文件,因此用户可以将数据整合,划分和分割,执行高级
排列和分类,创建计算方法,进行复杂的绘图等。
灵活的部署性
当要访问报表时,不同部门,不同角色的用户组都有不同的需求。这就是为
什么要提供最大的部署选择余地——包括客户机/服务器和支持Web的全客户
端,所有这一切都在易于管理和维护的环境下进行。
7.1.9.3.1.9可定制的管理业务视图
综合IT管理系统支持丰富的展现形式。可以支持Browr/Server,
Client/Server等方式,或其他第三方的展示:可以嵌入到其他系统进行展示,
也可以将业务集成到其他系统。能够给用户展示不同层次的业务结构和业务视图
展示层业务视图:综合IT管理平台提供以业务为核心,按照管理员所辖业
务系统以及及其关联系统与设备提供业务视图展现,业务视图将IT环境具
体业务应用系统涉及的相关分散的监测点进行了汇聚分析,为管理员提供快
速掌握的业务运行的管理通道,通过多级视图的呈现方式,紧贴管理员思维,
实现由全局到局部、由粗线条到细颗粒度地逐层展现业务应用的运行状况.
重要设备监控视图:系统监控展现提供的重要设备视图能够针对网络所有的被管
理资源的关键能性能指标进行详细的展现,让运维人员能够对被管理资源有一目
了然的效果
62
7.1.10.3.1.10监控业务领域全面化
综合IT管理系统对业务的监控真正做到了跨领域的全面化,将管理的对象
由单一的应用转变为重要的业务分析,由原来的监控转为管理,监控的范围由IT
相关转变为跟环境相关,大大的扩展了可管理的范围。
综合IT管理系统是以通信业务和服务业务为导向的业务级综合网管平台,
真正提供业务级的网管系统,能实现服务水平管理、健康度管理、通信资源整体
和局部情况分析管理等先进的管理方法。
现实中,很多其他网管只是堆砌了大量的监控数据,并没有给电信用户提供
真正的业务展现。而的网管系统则不仅准确及时监控和展现这些信息和数据,并
用这些信息和数据组合构建成各个符合用户要求的业务管理信息,如业务健康
度、设备集正常率、当日/月可用率、服务质量和水平等等,并提供调整功能进
行性能调优。真正帮助用户从整体到局部,从业务到设备全面管理。
综合IT管理系统突破了网管的应用,将普通的办公设备设备也纳入可管理
范畴。
传统的网管面向的是网络和IT设备,而综合IT管理系统将管理对象指向了实际
中的办公环境,换句话说,可以针对办公室的整体环境进行检测,同时可以对办
公室的每个设施进行监控,包括传统的计算机、网络、打印机等IT设备。
7.1.11.3.1.11具有丰富的接口易于扩展
综合IT管理系统可以跟网络目前不同的应用系统和管理系统很好的结合,
能够与原厂商网管无缝结合,原因在与综合IT管理系统能够提供丰富的接口给
第三方系统,目前系统提供的接口有WebServiceCORBARMI等。
➢WebService:我们提供标准的WebService接口给第三方调用。该技术主
要是为了使原来各孤立的应用之间的信息能够相互通信、共享而提出的一种
接口。其所使用的是Internet上统一、开放的标准,如HTTP、XML、SOAP
(简单对象访问协议)、WSDL等,所以WebService可以在任何支持这些
标准的环境中使用,我们使用成熟的电子证书、电子签名技术保证该协议等
数据安全。该技术较新,已经陆续有一些应用开始支持该技术。
63
➢CORBA:我们提供标准的CORBA服务给第三方调用。
CORBA(CommonObjectRequestBrokerArchitecture)核心是一套标准
的语言、接口和协议,以支持异构分布应用程序间的互操作性及独立于平台和
编程语言的对象重用。目前的应用中基本会支持该技术。
➢RMI:提供标准的RMI服务给第三方调用。
7.2.综合IT管理系统平台优势
7.2.1.由面向集中到面向分布
传统的网管系统的部署采用集中式的部署方式,这种方式直接导致了大型复
杂网络环境下系统不稳定或频繁出错或宕机。
综合IT管理系统对所有的采集工作采用分布式管理方式,保证了任务的分
解,从架构层面上解决了大型复杂网络的采集性能问题。
7.2.2.面向设备到面向整体
综合IT管理系统监控点由单一的设备转向有设备集组成整体业务,即保证
了面向点的监控,更提供了面向整体业务的把握。综合IT管理系统能够帮助网
络主要业务系统的各项关键指标,从基本的网络设备的CPU、内存、端口流量
情况,到主机系统的CPU、内存、I/O的使用情况,甚至应用服务对资源的占
用情况等。同时,内置的智能分析系统对收集到的信息进行综合关联分析,为企
业提供面向业务/服务的全面视图,能够清晰的了解整体IT资源及业务的健康度
情况。
7.2.3.系统反应快捷
通过分布式数据采集系统和多级缓存的技术,极大提高的系统反应速度,对
于高可靠性要求的IT环境,能提供毫秒级的事件和告警反应时间,能保证高可
靠性的需要。
64
7.2.4.强大的扩展性
通过分布式数据采集系统,能将网管系统的应用扩展到各种不同的层面。从
设备层面扩展到IT基础设施层面再到整体业务层面,提供设备集管理、机房整
体管理、服务水平管理、系统健康度管理等不同业务领域,不断满足用户需要。
7.2.5.适合各种复杂的网络情况
网管系统具有跨厂商通用网络管理平台。能优化管理Cisco、神州数码、
3COM、D-LINK、NORTEL、华为等各主要国内外网络厂商的网络产品(路由器、
交换机),以及网络链路、主机等,同时可管理局域网和广域网设备。另外通过
分布式数据采集系统,核心网管业务系统和采集平台与采集器中可以有不同的链
路,包括局域网、广域网、VPN、卫星、加密链路、安全网闸链路或串口带外管
理等。也可以将采集平台和采集器中采用加密和指定端口协议方式加密传输。
这样,可以在各种用户环境都能实现统一管理、统一监控。
7.2.6.和原厂网管接口
通过分布式数据采集系统,能方便和各设备原厂的网管系统的北向接口进行
连接,建立统一的综合IT管理方案,消除各个信息孤岛。
7.2.7.强硕的平台级系统
综合IT管理系统已经不是一个软件商品,而是一种平台级的基础设施。主
要表现在以下几个方面:
➢平台级基础设施:综合IT管理系统是一个ITSM的管理规范的平台产品,
做为一种平台,在保证基本的网管功能之外,还拥有无缝支持智能报表、
传输网、决策支持、流量分析等等功能,真正做到所有的插件“即插即用
PlugandPlay”。
➢跨硬件:可以运行在任何机器之上,大到大型机、小型机、服务器、小
到PC机、笔记本都可以流畅的运行综合IT管理系统.
65
➢跨操作系统:综合IT管理系统可以部署在任何目前流行的操作系统之
上,专业级UNIX系统(AIX/SOLARIS/UX等)、轻量级Linux系统
(RedHat系列/RedFlag/其他)、流行的Apple-MAC系统、简便的个
人系统WindowsXP/NT/2000/2003/Vista等等。
➢跨数据库:虽然有大量数据的采集整理,但基于专有技术的NSDBOE
数据库优化引擎,保证了综合IT管理系统可以从容的运行在任何流行
的关系型数据库系统之上:包括大容量的Oracle、易用的SQLServer、
快捷的Mysql等等。
➢跨应用服务:做为大的平台,综合IT管理系统拥有自己的纯JAVA的应
用服务插件NSAS,该插件可以运行在目前流行的任何应用服务之上:
Weblogi/Websphere、JBoss、Tomcat等等
➢软件、硬件设施共享做为一种基础设施,综合IT管理系统并没有对原
有系统提出任何额外要求,可适应几乎所有的软硬件:
7.2.8.强大的安全管理措施
综合IT管理系统配合网络建设的管理思路,所有的管理员帐户及权限管理
由省中心统一管理和设置,配合丰富的用户管理,可以设置不同的单位不同的管
理范围,不同的人员不同的管理角色,实现不同的管理功能。通过电子签名技术
给灵活多样的管理员提供了充分全面的安全保障。综合IT管理系统将采集平台
和采集器中采用加密和指定端口协议方式加密传输。这样就保障的数据传输过程
中的安全性.
7.3.综合IT管理系统整体价值
7.3.1.建立统一的信息分析和发布平台
网络经过多年的发展,已建立了大量的信息系统。但今天电信级的众多业务
处理系统相互独立,信息资源不能共享,信息孤岛现象十分明显已成为进一步发
66
展所面临的巨大挑战。整合成为今天的一个核心主题。基于过去IT建设的经验,
已认识到新一层次的整合不应单纯地从某个具体的应用出发,应该从关注单个应
用走向从集成的整体角度考虑架构层面的问题。
从整体架构考虑,信息无疑是整个整合架构的基础。内部各系统的信息需要
有效共享、相互协作、关键数据能够被多业务所复用、形成统一的全局数据视图、
对现有的数据能够进一步分析加工,从而优化管理。以上内容都是各类具体业务
应用方案能够顺利实现的一个关键,信息集成则是实现目标上述目标的基础。
综合的系统管理的管理目标和管理功能也是不断发展、变化的,我们可以看
到,综合的系统管理的目标,已经由进行个别资源监控、系统及网络管理、应用
可用性方面阶段,正向着业务流程的优化方向发展;系统管理工具的功能,已经
从数据收集、发现、状态监控、配置管理、实时性能监控,向着历史数据分析、
决策分析、自动响应和高度容错方向发展。
由于IT信息基础架构涉及到内的许多元素,所以是否能够对跨越整个网络
全部的IT资源和组件进行系统管理就变得尤为重要。良好的管理系统可以有效
地监控操作系统环境、网络环境、数据存贮环境、信息安全环境和业务应用环境;
良好的管理系统可以准确地定位和综合诊断系统异常的原因并提出修复的方案;
良好的管理系统可以有力地为业务系统保驾护航,让业务应用高枕无忧,从而使
网络IT部门可以将更多精力投入在服务和推动业务方面。
传统的IT管理大量依靠熟练管理人员的经验来评估操作数据和确定工作负
载、进行性能调整及问题解决。然而,在当今环境越来越复杂的情况下,新的策
略需要获得最大化业务效率——这些策略的实现自修复和自调整成为可能。这个
需求特别是在当今IT经理面对诸如高的员工流转率和投资新IT资源的可用预算
减少等挑战时,尤显突出。
在这种情况下,网络迫切需要对其IT环境进行有效的系统管理,确保业务
的正常运行。提供了优秀的IT系统管理软件,帮助用户稳定、可靠、方便、有
效的管理电信级IT环境,其在系统管理领域的领先地位已经得到业界的广泛认
可。
67
7.3.2.提高信息标准化——避免信息孤岛
传统的管理软件包括数据管理、PC管理、存储管理、安全管理、网络管理
的管理等等。由于这些技术的管理是分散零碎的,就会造成相关的成本和漏洞增
加,这种极大限制了有效技术管理的现象被称为“管理孤岛”。现在要做的是,
把所有这些IT管理进行简化和统一,建立一套统一的标准,包括安全、系统和
网络方面等,然后交给信息的主管,让他来统管IT的基础设施,以减少成本,
减少漏洞,并使更容易地监测IT服务对办公业务的作用和影响。
另外,任何单独的管理工具,都把关注点集中在自己管理范围的核心区域,
对于跟其他业务系统相关联的部分关注成分较少,这就容易造成很多问题。
只有简化和统一标准,才能整体把握IT基础设施方面的投资,才能整体掌
握网络运行状况的所有数据,保证网络健康持续运行,
7.3.3.提供决策分析、历史数据分析依据
通过综合IT管理方案解决方案能完成数据的采集、汇总、分析和公示。其中
包含技术管理体系、流程管理体系和绩效管理体系的数据的采集、汇总和分析,
然后进行整体的汇总并且通过报表系统展示出来。
综合IT管理方案系统能够给用户提供辅助决策能力。通过技术管理体系来分
析现有设备的运行情况,并且能作为设备升级、更新等项目的一个决策依据;比
如新增加的业务服务在原有网络负载的情况下能否正常的运行,目前的网络负载
情况怎样,网络负载的瓶颈在那,网络设备升级改造的依据在那;通过流程管理
体系和绩效管理体系来完成人员的一个决策依据,比如人员是否够,人员的知识
结构是否合适,人员的技术能力是否达标等。
7.3.4.降低管理成本--提高系统可靠性、可用性
随着业务的不断拓展,各种应用越来越多,信息点铺设面愈加广泛,分布于
其上的计算机系统越来越多。大量的用于办公、业务、通讯等用途的微机系统,
数量多、管理复杂、费时费力。对网络管理、维护的投入要远高于其初期建设时
的投入。在应用系统的整个生命周期中,随时都会出现各类故障和问题,需要信
68
息技术部门投入一定的人力去解决。尽管单个设备的维修、维护较为简单,但是
总体上来说,人力资源的投入是很大的,从而导致运作成本的大幅增加。如何高
效、有序、可靠地管理整个计算机网络系统,对信息中心的正常运作尤为重要。
同时根据系统的特点,能够合理配置、优化管理,使之有效地推动信息中心自身
的业务发展。所以信息中心特别需要一个全面而又统一的、集中的IT资源管理中
心,以满足未来的发展需求,提供系统性能的高可用性。
7.3.5.降低管理难度---增加实用性
信息中心由于业务不断发展、系统规模不断扩大,用于确定系统故障以及恢
复时间越来越长,判断故障的难度越来越大。一旦系统发生问题后,系统管理员
往往凭经验来确定故障的来源,尝试各种解决问题的途径,延误系统恢复时间,
导致一些主要的业务系统大大地受到影响,可能会造成利润损失和管理成本指数
上升。而且系统规模的扩大,使管理人员成为到处奔波的“救火队员”,穷于四
处应付各种问题。(事实上,绝大部分问题都能通过网络在机房解决,如远程故
障的诊断,设备面板的端口操作等)。这种被动的解决问题的方式所造成的损失,
其实完全可以避免,并能从根本上降低IT资源管理和维护的成本。
7.3.6.实现统一管理,提高工作效率
由于网络的网络设备的型号多,不同设备上线的年代不同,造成了网络环境
复杂难以梳理,日常维护难度较大,发生问题时比较难以定位问题发生的根源,
解决故障的时间往往较长,管理人员的工作压力较大,疲于解决各类未知问题,
工作效率难以提高。
如果采用综合IT管理方案,则能通过网络拓扑帮助网络网络管理人员梳理
网络环境,找出网络中存在问题的网络设备和链路,从而帮助网络网络管理人员
深刻了解企业的网络结构。通过良好的网络拓扑图展现能够告知各级网管人员当
前网络设备和链路的负载变化,当前系统的性能瓶颈在那,发生问题时准确定位
故障点。
这样网络的各级网管人员就能大大减轻日常的维护工作,网络发生问题或即
将发生问题时都能第一时间得到提示或告警,能够将更多的时间和人力解放出来
69
做更有价值的工作上,在成功部署综合IT管理方案方案后,的很多用户发现,
原来网管人员平均要花费80%到85%的时间在服务维护上,而这方面的工作大部
分是日常的、重复的和低价值的;而采用解决方案后,这部分的时间花费最多占
到20%,节省出来的时间可以更多放在服务管理上,让网络系统创造更多的价值,
这样也大大提高工作效率。
7.3.7.实现对全网的统筹规划和管理,提高资源利用率
综合IT管理方案通过对整体网络运行状况一览,可以给予用户一个对网络
资源的整体把握。因为网络管理除了对可能出现的问题进行预警和迅速定位问
题、解决问题以外,网络还有一个持续发展的问题,随着网络系统在日常生产过
程中的作用越来越重要,各项业务的不断深入,要求我们在数据网络上开展越来
越多的应用服务,例如重要的业务系统ERP/OA等不断的上线、扩容,同时又有
传语音、传图像等各种需求,于是出现了一个很普遍的问题“我的网络还够用吗?
那些设备和链路的利用率一直较低?或者是整体的瓶颈在哪里?”
综合IT管理方案能告诉我们网络的各个部分负载状况,各线路流量状况,通
过历史记录查询,网络的管理人员能够通过综合IT管理方案在平时就对一些设
备的CPU、MEM及线路流量的变化情况进行记录,对记录的数据进行对比分析,
得出其正常运行情况下的变化曲线,对设备的端口、服务器的使用情况进行统计,
那么管理人员就可以对自己的网络的承载能力有一个正确的评估,通过调整,使
网络资源的分配更为合理,提高资源的利用效率,可以指导网络的管理人员进行
更为有效的投资,避免了盲目投资所造成的不必要的浪费。
7.3.8.保障全网健康稳定运行,避免严重系统故障造成损失
综合IT管理方案解决方案能够帮助网络的管理人员建立一套“事前运维”的
管理机制,改变以往一旦系统发生问题后,网络管理员往往凭经验来确定故障的
来源,尝试各种解决问题的途径,延误网络系统恢复时间,导致一些主要的业务
系统如门户系统,公务批复系统等大大地受到影响,可能会造成利润损失和管理
成本指数上升。而且网络规模的扩大,使管理人员成为到处奔波的“救火队员”,
穷于四处应付各种问题。
70
综合IT管理方案通过详细的监控参数和智能处理方式,能够有效的避免发
生网管环路产生的广播风暴造成大面积网络瘫痪、某台机器的IP和重要服务器
IP冲突造成重要业务中断这样严重的影响网络各类生产运营的事件。通过综合IT
管理方案能够帮助网络的整体网络可用率提高到一个全新的水平。
8.系统培训、维护、升级和二次开发
8.1.系统培训
8.1.1.培训体系
在面临新世纪的竞争和挑战中,信息技术正日益转变着企业的运作方式和管
理模式。我公司的教育培训正是在这样的商业背景下,培训资源提供全方位的培
训方案,全面、系统的培训课程,灵活、多样的培训方式,高标准高效率的培训
服务,以实现与企业共创未来的宏伟目标。
近几年来,我公司以前所未有的速度及规模发展,通过主动与用户直接接触,
并与有关部门协作,为许多类型的企业举办了因设备更新、技术发展所需的技术
培训项目。结合中国信息产业的特点及实际情况,为用户组织各种技术、技能培
训,帮助政府和企业用户造就了大量人才。
8.1.2.培训组织
技术培训组组员对该实施组组长负责,组长对实施项目负责人负责,实施项
目负责人对联合领导组负责。管理方式采取垂直管理和统一管理方式,以确保工
程的顺利实施。
我公司拥有一支受到过正规培训,具体丰富经验的技术培训队伍,我们将与
用户密切合作,为机房集中监控系统提供全面的技术培训,以最终达到管理人员
和使用人员对系统的使用、维护等目的。
71
8.1.3.培训理念
我公司拥有一支技术过硬的用户操作和维护、管理队伍,是保证系统正常稳
定运行的重要保障。我公司提供的培训整合了国外培训领域中先进理念和中国特
色,形成了一系列针对军队、政府机构、行业甲方的培训方案。方案针对用户的
需求,适应了信息化时代竞争的特点。
培训特点是目的性、针对性、实效性和创新性:
目的性
着眼于可以使用户逐步熟练使用系统,掌握系统管理的基础知识和管理方
法。
针对性
公司拥有多年的行业和管理经验,结合本项目用户特点及所属教育行业实际
状况,提供适合甲方的、有针对性的培训方案。
实效性
项目自始至终,我们都通过与用户组成共同的工作小组来完成培训方案的
设计,从而保证方案为甲方各层面管理层所接受,并得到有效实施。
创新性
通过引进最前沿的信息化管理方法论与工具集,融合最新技术,以增强甲方
对培训课程的适应性。
8.1.4.培训目标
我公司在长期从事计算机应用及工程项目实践中的一条重要经验是将对用
户的培训看作是整个系统建设的重要内容。系统运行好坏往往与用户具备的操作
和维护能力紧密相关,凡是用户能熟练进行操作和维护的系统,往往能长期运行
而很少出现故障,反之则会频繁地出现问题。从这个意义来说,培训做到位,无
异于增加了系统的可靠性,这是用户单位和系统建设者共同的心愿。其次,数据
中心的网管员通过系统的理论和操作培训,可随工程的建设成长一批有用的人
才,这是系统建设的另一个不可忽视的成果。
72
数据中心运维管理系统最终的使用和维护不可避免的要落在用户自己身上,
因此系统实施过程中,为用户培养一批掌握基本理论,了解工程实施具体操作和
维护的人才是系统建设的重要任务之一。从人是第一宝贵因素来看,为本项目培
养一批人才的重要性不亚于系统建设的本身。公司从用户角度出发,一贯将对用
户的培养看作是系统工程建设的重要组成部分。在工程建设中培养用户使用,维
护,更改和扩充的能力,并可达到完成类似本系统的设计实施能力。此外,我公
司所选择设备供应商亦均可向用户提供技术培训。
通过培训达到以下目标:
用户能操作和使用运维管理系统提供的各种功能。
如果机房设备出现问题发生报警,系统管理人员应能进行诊断和必要
的处理。
使信息系统工作人员具备运作、支持、维护和为系统升级的能力。
8.1.5.培训计划安排
我公司会在合同生效后开始与用户共同协商确定培训时间、次数、人数等事
宜。我公司会根据招标文件的要求和用户的实际需要提供详尽的课程内容安排,
并在合同签订并征得用户同意后实施。
本次培训包括理论培训和现场培训,其中,理论培训在实施规划准备期间进
行,现场实践技能在到货后、集成实施前进行,以推进系统的应用。
8.2.系统维护升级
我公司如果有幸中标,将严格按照合同签订服务日期进行软件维护服务,并
在服务期间对每个软件服务项目(包括新业务开发项目和日常事务)都需要给出
项目开发完成进度、工作量(人月)、人员安排及项目管理措施,得到采购单位
的同意后按计划组织实施。
73
8.2.1.远程支持服务流程
我公司为用户提供免费技术服务热线,在接到用户请求后,根据请求情况协
调公司资源,第一时间给用户反馈并解决问题。
技术支持服务热线工作流程图
1、诊断故障并提交故障诊断报告
根据系统运行过程中出现的系统故障或其它异常情况,及时进行故障诊断,
并提出故障诊断报告。故障诊断报告的主要内容包括:故障现场情况记录、故障
的级别和紧急处理过程记录等。
2、制定系统维护和故障恢复的实施计划
根据提交的故障诊断报告,制定系统维护和故障恢复的实施计划。按照制定
的计划实施系统维护工作。
3、管理、监督维护计划的实施
平台系统
工程师
高级
培训教师
售前技术支持
工程师
应用软件系统
工程师
系统专家
用户
接线员
项目组
汇总解决
登记和查询
疑难问题
74
组成系统维护工程管理和监督工作组,全面负责管理和监督系统维护工作实
施过程(应包含用户方与项目承包商双方)。并根据系统维护实施的各个阶段提
交维护工作报告。
4、确认维护工作完成并提交维护报告
在系统维护工作完成后,由系统维护人员提交系统维护工作报告,由用户方
项目组的技术人员对系统维护情况进行测试并予以确认。
5、提交成果
每次系统维护工作完成后,都应提交如下的报告、记录等文档等资料:
故障诊断报告
系统维护和故障恢复的实施计划
维护工作阶段报告
系统维护工作报告
说明:紧急情况下,以排除故障,满足用户需要为首要任务,可以进行紧急
处理,但事后要补充相应文档与记录。
8.2.2.现场服务流程
众所周知,最优的售后服务是一个项目的承建商必须做出的承诺。但是,如
何根据用户的实际情况(人员素质、计算机应用水平、系统的要求等),做出切
合实际的项目售后服务计划书,才是用户关注的问题。优质的售后服务也一直是
我们我公司在经营活动中最基本的原则。我公司的技术支撑部门担负着专业的服
务工作,无论是在系统的安装调试过程中还是在系统投入运行之后,无论发生任
何问题用户都可以得到最快的响应,售后服务流程如下图所示:
75
售后服务流程
我公司提供的服务内容包括:
应用软件运行维护:应用软件自身缺陷的调整,为客户及时解决日
常运行中出现的问题。
根据政策和经办规程调整,及时响应需求变更,并在甲方要求的时
限内完成对应用系统的修改或调整。
应用软件技术改造与升级服务:主动或应客户要求,将最新的技术
成果和先进的管理模式升级到原有系统,使应用系统的永远保持先
进性。
数据库支持服务:我公司提供专职工程师为客户提供长期的数据库
优化及技术支持服务,以及异常数据修正、批量数据处理等数据维
护工作。
定期系统巡检:在系统维护期过后,按照签订的维护合同,定期等
76
到现场对应用系统运行情况,主机运行情况,数据库系统情况进行
检查和维护。
客户新技术培训服务:为使客户技术人员能及时掌握最新技术,我
公司每年组织客户进行技术学习。
现场诊断与客户回访:我公司启动心贴心客户服务计划,每年选一
批客户,由我公司领导组团对客户进行回访和现场系统诊断,对诊
断发现的问题跟踪解决。
网络与硬件服务:虽然本次只是软件招标,但离不开网络及硬件系
统的支持,我公司愿凭自身的技术实力,为本项目提供硬件调试与
网络技术支持服务。
客户端服务
(1)收集最终用户对系统的使用意见和建议;
(2)对最终用户进行操作指导;
(3)客户端故障判断和排除指导;
(4)服务方式以提供远程服务为主。
8.2.3.应急维护方案
系统在运行过程中一旦出现紧急重大问题,导致新系统不能正常运行的情况
下,就需要启动售后服务紧急预案,以保证业务经办的正常进行。
8.2.3.1.应急预案目标
在一旦出现紧急情况下,需要启动应急预案的情况下,应急预案必须以保证
系统正常运行为目标。
8.2.3.2.应急预案具体措施
应急预案需要从业务系统、数据库、网络平台三个方面来考虑应急处理措施,
在出现紧急重大问题的情况下,我公司会在最短时间内作出故障响应,第一时间
由驻现场维护人员启动备份系统,同时将指派具有解决故障能力的软件工程师、
77
数据库工程师以及硬件网络工程师组成的紧急服务小组解决问题。
8.2.3.3.应急处理流程
1、系统出现故障,我公司接受故障,并确定为紧急情况。
2、启动应急处理服务流程。
3、紧急情况处理小组的领导(由用户和我公司人员共同组成)立刻调派
我公司的资深专家和用户相关人员。首先尽最大可能收集事件相关信
息,确定事件类别、事件来源,保护证据,以便缩短应急响应时间。
4、根据收集的信息,紧急情况处理小组立刻采取措施抑制事件的影响进
一步扩大,限制潜在的损失与破坏。
5、根据实际情况,技术专家进行系统的恢复工作。
6、如果是应用软件故障,我公司保证2小时内解决问题,恢复故障系统。
7、如果项目组难以短时间内解决故障,及时申请公司技术支持中心派专
家,必要时申请相关软件厂家的技术专家到现场协助排除故障。
8、在问题得到解决、系统恢复工作后,回顾并整理该事件的各种相关信
息,尽可能地把所有情况记录到文档中,并完成《紧急事件处理结果
报告》。
9、提交《紧急事件处理结果报告》。
10、应急维护行动结束。
8.3.二次开发
本系统提供丰富的接口供二次开发。若甲方需要我公司提供二次开发服务,
可参照第6章所述的《实施方案》,基本流程如下图所示:
78
9.系统实施计划
9.1.实施步骤
9.1.1.实施指导思想
我公司已先后承接过多项数据中心运维管理系统,均按合同及招标书的要求
圆满的完成了实施任务,所承建的数据中心运维管理系统均达到了优良工程的要
求。在长期的工程实践中,我司培养了一批具有很强的专业技术能力和丰富实施
管理经验的业务骨干,同时在长期的工程活动中所积累的经验和教训也成为我司
宝贵的财富,在本项目中,我司将充分发挥这方面的优势。
对于本项目,我公司本着“质量第一,用户至上”、“注重信誉、信守合同”
的宗旨,发扬“追求卓越、创出精品”的企业精神,每一项工程都要达到优良标
准。我公司将组织熟悉实施规范、技术全面的管理人员组成现场项目部。挑选技
术高,做工精细,能刻苦耐劳的工程师组成实施队伍。充分发挥卓有成效的集团
化、制度化、规范化、专业化管理,使整个工程在质量、进度、安全、文明实施
方面创最优成绩、创最佳效果。
79
9.1.2.实施方案
我公司将组织后台开发人力资源,现场技术人员与后端支持按照开发和维护
服务要求配置资源,主要开发人员要培养后备力量,防止人员变动影响服务质量,
确保软件开发和维护工作按计划顺利完成。
我公司经过多年的开发实践,根据自己的业务特点,形成自己的项目开发实
施过程,可分为八个阶段,即项目启动、需求分析、原型开发与策划、设计与编
码实现、测试、安装实施、总结验收和运行维护。每个阶段对应着不同的活动内
容和工作任务。在运维服务中我公司将按照开发实施过程,根据数据中心软件升
级的需求和升级软件的规模适当的裁剪和简化开发过程,达到系统升级稳定快速
上线运行要求。项目升级内容工作量少于30个工作人日,通过软件《变更请求
单》,对需求变更进行描述,并由相关主管人员对变更内容进行确认后,安排开
发人员进行开发,详细流程见下文系统维护流程;工作量高于30个工作人日,
建议进行正式需求调研,调研与需求分析的任务主要是获取用户需求,分析用户
需求特点和要求,形成系统需求,作为项目开发工作的基准。我公司的软件开发
方案简单介绍如下:
9.1.2.1.项目启动过程
软件升级启动过程意味着项目组正式成立,本公司领导在内部项目启动会上
任命软件升级负责人,激励项目组成员,并介绍项目和甲方背景,以便项目组顺
利开展工作。
如果软件升级内容较多,影响范围较大,根据情况最好召开现场启动会,现
场启动会议建议由甲方方领导组织项目成员和相关人员参加,是一个项目正式开
始的动员会,宣告项目启动,明确各方责任,说明注意事项,并要求所有相关人
员和部门配合项目开展。我公司项目负责人简要介绍开发实施的过程和方法。
执行中参照的规程或标准:本公司质量体系文件《产品与解决方案策划过程》
和《项目软件过程定义规程》。
80
9.1.2.2.需求分析
对于甲方提出的应用软件升级需求,由现场工程师与甲方进行沟通,了解甲
方对应用软件的升级需求,形成需求文档,经相关部门确认后,按双方商定的开
发进度进行开发和实施。
首先需要经双方协调,制定《需求调研计划》及《需求调研大纲》,确定准
备工作、需求调研的内容、方法方式以及人员和日程安排等内容,用户也须做好
准备工作,经双方同意后按此计划开始调研。调研正式开始前,项目开发组应检
查所有必要的准备工作已经圆满完成。
按调研计划的进度进行现场调研,主要任务是用业务语言描述甲方需求。尽
可能及早落实主要算法,确定关键参数,掌握甲方政策文件,收集需要打印的报
表等。每天应将当天调研的内容整理成文档,并及时与用户确认,提高工作效率。
及时将访谈记录、用户政策材料整理成规范格式的需求分析报告,向甲方项目组
长汇报调研结果,共同对需求分析报告内容进行确认。同时明确今后需求变更控
制的规程需求变更控制流程。对于调研期间未落实的问题,以待明确问题的形式
体现在需求报告中,并确定落实期限。
项目开发组根据调研编写《系统需求分析报告》,并由项目组评审,不合格
的部分进一步完善调研;评审通过后由双方共同签署评审意见,并正式生效。
对于软件生产过程而言,需求阶段是整个过程中最重要的阶段,需求分析成
果的好坏将直接导致项目的成功与否。评审通过后的需求报告将成为系统的设
计、开发、测试、实施、试运行和项目验收的基本依据之一,因此原则上用户需
求将不再因为其它因素的改变而变更,如需进行此种变更,需经双方项目负责人
协商确定。
开发组与甲方一起制定总体项目计划,共同确定本项目的各项工作进度安
排,明确每一阶段的工作内容,以及需要用户配合完成的具体工作。
9.1.2.3.开发策划
需求调研结束后,根据当前掌握的项目信息进行项目开发过程的策划,软件
开发组对用户需求进行深入分析,并和我公司项目原型库各原型进行对比分析,
81
选出和本项目模式接近的复用源作为原型,以便能快速架构和开发出符合本项目
特点的稳定适用的原型系统。必要时给项目组成员培训原型系统。
将系统需求各部分功能进行分解,估算分解后各子功能的根据各成员的特长
和业务发展方向分配任务。将开发过程分为几个阶段,把某些重要任务的完成作
为检查点。根据任务划分结果制定开发计划进度表,并标记出各阶段检查点,作
为项目跟踪监控的依据。开发计划要符合公司的模板模范,并与前面提到的总体
项目计划保持一致,不可预知事务建议采用日程表记录,不再制定计划。
《项目开发计划》制定出来后,要提交给部门进行评审和风险分析,评审通
过后纳入配置管理。开发计划一般作为开发过程进度安排,在执行中根据实际情
况变化应及时调整修改计划,并将实际执行结果与最初的计划相比较,作为考评
开发负责人的一项内容。开发计划进度表参见《软件实施计划书》
执行中参照的规程或标准:本公司质量体系文件《软件需求管理规范》、《软
件需求规格说明书模板》、GB8567-88*计算机软件产品开发文档编制指南、
GB9385-88*计算机软件需求说明编制指南。
9.1.2.4.设计与编码实现
9.1.2.4.1.系统设计
项目经理召集项目组全体成员一起讨论和明确系统设计、数据结构、每个人
的工作内容、各部分之间的接口关联等。做到每个项目组成员对项目的总体情况、
整体工作目标和个人工作目标、工作时间、与其他人的关系、工作的方式方法等
都有个清晰的概念,为项目的顺利开展及项目组成员间的良好沟通做好铺垫。
应全面考虑调研时用户提出的每个功能模块,开发出的程序应贴近用户需
求,开发人员应从用户的角度来考虑问题。做到定期检查和总结,来保证整体程
序的完整性、一致性和协调性,保证项目按计划进行。如果发现有重大问题可能
影响项目进展,PSM要及时向PM和部门负责人员提出。在开发过程中有不明确
的需求,应该尽量以书面的形式与用户交流。
项目开发组通过对系统的功能、运行和性能要求加以分析,产生一个高层次
的系统结构、软件结构、接口和数据格式的设计,形成《系统设计报告》(其中
82
包括数据库设计),提交项目组评审。对其中评审不合格的部分进一步完善和重
新策划,评审通过后,作为后续软件开发和测试的基础。
9.1.2.4.2.编码实现
根据系统设计输出结果和公司编码规范的要求进行代码编写,实现软件功
能。制定二级开发计划,作为软件编码阶段的项目管理和监控依据,项目开发小
组要严格据此计划控制项目进度,按时向工程领导小组汇报工作进展。为保证质
量软件开发组应每周进行代码审查,提前发现问题,减少测试工作量。
为了使用户能够及时获知项目的进展情况,开发小组向甲方项目组长或相关
领导提交项目周报。在编码实现过程中,也欢迎甲方业务和技术负责人对阶段结
果进行检查,以便及早发现问题,纠正偏差。
9.1.2.5.系统测试
测试是检验软件开发结果质量的重要手段之一,根据阶段不同,可将测试划
分为三个阶段:单元测试、集成测试和系统测试。
首先是单元测试,侧重于核实软件的最小可测试元素。单元可以是一个窗口
(窗体),也可以是一个函数、菜单、报表或一个存储过程。单元测试应对单元
内所有重要的控制路径设计测试用例,以便发现单元内部的错误,保证模块自身
的准确性和流畅性。
集成测试是把通过单元测试的各个模块组装在一起之后,按设计要求进行的
测试,以便发现与接口有关的各种错误,保证系统的初步正确和稳定。
系统测试在单元测试和集成测试后,基于系统的整体需求说明书而对系统进
行的准确性和完整性的测。
根据测试的内容和侧重点不同又可将测试分为:功能测试、性能测试和安全
性测试。
功能测试是对软件系统的功能需求进行的测试。主要暴露由于系统说明写的
不明确或开发人员对系统说明的误解或理解不足造成的功能错误。
性能测试是为描述测试对象与性能相关的特征并对其进行评价,而实施和执
83
行的一类测试,如描述和评价计时配置文件、执行流、响应时间以及操作的可靠
性和限制等特征。包括负载测试、强度测试、并发测试、恢复测试等内容:
负载测试:核实在保持配置不变的情况下,测试对象在不同操作条件(如
不同用户数、事务数等)下性能行为的可接受性;
压力测试:核实测试对象性能行为在异常或极端条件(如资源减少或用
户数过多)之下的可接受性;
并发操作测试:核实测试对象在处理多个并发请求时的可接受性;
恢复测试:恢复测试可确保测试对象能成功完成故障转移,并能从导致
意外数据损失或数据完整性破坏的各种硬件、软件或网络故障中恢复。
通过加强性能测试提高软件可靠性,使系统每年中断工作次数不超过3次,
累计时间不超过1小时。
安全性测试是测试系统在防止非授权的内部或外部用户的访问或故意破坏
等情况时的表现。
测试人员在软件开发过程中开始编写测试用例和测试大纲,根据制定的《测
试计划》,在软件功能模块完成后,根据需求和设计结果的要求对软件进行测试,
填写《测试问题卡》,并进行测试总结编制《测试总结报告》,对测试所发现的
问题进行追踪修改和确认测试,直到彻底修改完成并对其它模块没有任何影响。
测试过程尽量能够模拟用户环境测试几个周期。测试组测试时,开发人员应密切
配合,及时改正测试出的问题,对问题应做备忘录,以便将来查询。测试资料作
为项目验收的重要内容之一。为加快项目进度,建议用户方测试组及早介入测试,
最晚也应在我方的系统测试完成之前介入,并按事先双方约定的规范方式进行测
试。
9.1.2.6.实施培训
完成升级开发和测试工作后,需经用户方相关领导确认。为了保证软件升级
对系统影响最小,中心端应用版本升级、安排在中午休息时间;甲方软件升级一
般在下午5点以后。软件部署上线时,主要开发人员必须到现场提供技术支持。
系统正式运行前,要认真检查数据库对象是否完整、正确,基础数据是否齐备,
要与用户一起认真对照每一个参数维护得是否准确,要保证运行程序与源码的一
84
致性,要保证网络的连通性,要对所有安装过程序的机器做记录,以便程序升级
时及时更新。还有很关键的一点,就是要保证整个网络系统中没有计算机病毒。
所有环节核对准确后,要做一次初始状态的数据备份。以上事项PSM最好拉一个
任务清单,在系统上线运行前和用户开一个准备会议,把每项工作逐一落实到人
头负责,经双方交流协调,形成《项目实施计划》,确定现场实施的准备工作、
人员和日程安排、培训计划、阶段目标等内容,经双方负责人签字后生效,按此
计划开始现场实施。正式开始现场实施前,项目开发组应检查所有必要的准备工
作是否已经完成。
软件升级实施完成,并运行稳定2周(以打版时间为准)后,向采购单位提
供程序源代码,并及时组织对采购单位技术人员的培训工作。
在培训开始之前双方协商形成《培训计划》,明确培训环境、条件及方式,
参加人员,课程课时等详细内容,由双方现场实施负责人签字后生效,并分别开
始着手准备,在既定时间内完成。
培训过程中要对每个操作员培训效果进行考核,严格把关,这对我们系统能
否平稳启动和运行有很大关系。培训过程中由工程师提供《培训考勤记录》,培
训应该脱产、集中、封闭进行,并要求所有参加人每日必须两次考勤;培训完成
后由双方共同进行《培训总结》,针对培训效果确定是否达到目标,是否再增加
培训课程。
培训顺利完成后将开始软件在试点部门试用,试用期内各业务和技术人员可
以再冷次检查软件功能和性能是否满足业务和管理需要,列出未完成及含有较严
重、明显错误的模块清单形成软件问题及修改记录并提交给开发组继续完善。
系统正式运行前应将试运行期间产生的无效数据清理,重新导入基础数据。
上线运行初期,项目组成员分别跟踪各子系统的运行状态,一旦发现问题及时解
决。系统启动后一周内,应确定一个时间每天和用户一起沟通和落实当天发现的
问题。随着问题的减少,以后可以一周一次。
系统实施是项目过程的关键阶段,整个实施阶段需要用户和我方项目组双方
很好地沟通,遇到问题选出可行的方案。系统实施前双方落实需要准备的各项工
作是否到位,应制定好实施计划,并商讨和落实实施计划,按计划行事。实施过
程中,要有书面文档,在每个里程碑要有备忘录,清楚记载每件事情的原因,经
85
过及解决结果。以系统能够成功运行为目标,一旦出现严重的问题应该实事求是
的分析问题,将事故的原因详尽的写出报告,并且在第一时间向用户和我方领导
汇报。积极解决问题,决不回避。
9.1.2.7.总结验收
验收分两个阶段:安装运行前的用户测试;系统正式运行后的实际业务操作
的检验。系统运行满足约定时间后,进行软件的验收工作。验收前和用户沟通好
验收的时间和方式,制定验收计划,列出模块清单,并且安排好每个模块验收的
时间段,按照这个时间列表与用户逐个模块验收。双方事先商定验收过程要求及
参加人员,必要时邀请行业专家和相关领导参与。
软件验收以符合需求分析、业务要求作为验收标准。验收结果说明软件满足
下列要求:符合通过审核的需求和设计文档中表述的功能要求,以及符合性能和
安全性等非功能要求。
问题处理:将验收过程中发现的所有错误都必须记录下来;对错误进行分类
和确定级别;报告的错误得到修改/处理,或修改错误的计划得到同意。
验收工作建议由用户相关部门组织的专家组对软件系统进行全面的验收和
鉴定,并出具项目验收小组领导签字的项目验收报告,并签署验收意见,本公司
在此过程中将全程参与,在现场进行验收前的维护工作。
9.1.2.8.问题处理机制
对运行中的系统进行维护时,要严格按流程操作,以防带来意想不到的后果。
系统维护一个很重要的事情就是我们要与用户沟通好工作的方式和方法:
软件开发和升级完善遇到不能按时完成等重大问题时,须提前提出,双
方协商解决。
系统基本稳定后,如果有问题,由用户定期书面提交问题报告,我们根
据问题情况,制定问题解决方案及提交时间,并书面反馈。有秩序、心
平气和而又很理智去思考和解决问题。
86
9.1.2.9.系统简化维护流程
在系统升级完成后,难免遇到系统维护问题,对与系统维护和日常系统维护
管理建议采用如下流程:
系统维护请求
甲方如有业务变更或增加的要求,须填写《变更请求单》对变更或新增
的需求进行详尽的描述,在得到甲方领导签字确认后,由甲方反相关负
责人提交给我公司项目组,并由双方各保留一份。对于用户口头提出的
应予以记录,并请甲方确认。
对用户提出的问题明确的答复时间,一般不超过一天。项目组根据用户
方提出的需求要求,从甲方业务办理、技术实现难度、对现有系统的冲
击等方面,对用户维护请求内容进行可行性分析和风险评估,给出分析
结果和相关建议。
维护请求的接受
甲方的维护请求属于合同规定的范围内的,项目组在与甲方沟通的基础
上自动接受维护请求。超出合同规定范围外的维护请求,项目组必须通
报上级主管,由部门负责人与甲方沟通后决定。
紧急问题:对于可能导致系统难以继续运行的重大故障,我方维护人员
可以立即着手工作,首先进行数据备份,然后才能查找并修改问题,事
后及时补充相关记录,落实其他事项。
系统修改
针对本次维护制定系统修改和实施计划。与甲方业务人员及相关负责人
共同制定合理的维护计划。明确维护范围、进度和责任人,以及测试与
更新实施的安排和需要用户配合的工作,估算本次维护成本。对于较简
单(三天以内能完成)的维护维护工作计划的形式可以非常简化,但不能
省略。
系统修改前认真阅读甲方的维护请求,明确维护涉及的范围。正式开始
修改前必须在项目组内或向PSM阐明设计思路。对新增、变更的模块应
补充相关的说明文档和技术文档,以备案检查;
系统测试
87
修改完成后必须经过项目组其他成员的测试,有条件时可请甲方参与测
试,确认无误后,才可进行更新。最好与用户一起制定出修改验收的标
准,让用户对每个标准逐一确认。如果条件发生变更,须在实施前修改
维护计划,以确保实施成功,降低风险。
系统维护与更新实施
将修改后的结果更新到实际系统前,需要通知甲方本次要更新的内容,
并在甲方系统管理人员在场的情况下,才能对软件进行更新。
系统更新必须选择甲方下班或不使用系统的期间进行备份数据(必须)
备份将被更新的文件(可以单个或全部)运行新文件或替换被更新文件
任何软件的维护,包括经过严格的测试也有出错的可能,关键是需要多
长时间切回原来的系统,用户方需要确认清楚这种风险的存在,因此建
议用户方在作新的需求修改时需要对社会公告,将由于系统升级造成的
影响降低到最小。
系统更新确认
请甲方确认更新后的内容,并在更新记录上签字,标明本次维护工作完
成,维护请求关闭。
9.2.项目团队
9.2.1.项目领导小组
本项目是在甲方领导下开发的应用软件,因此在项目管理中建议实施领导小
组负责制(领导小组应由甲方相关领导和我公司的领导共同组成),领导小组对
项目实施提供全面的指导。一方面,它可以协调各方关系,调动各方力量;另一
方面,它对项目实施过程中对出现的重大问题进行决策。
项目领导组是最高决策机构,它为所有工作人员提供强有力的支持与保障,
协调各方之间的关系,同时监督项目参与方的行为。因此,项目领导小组的有效
运作,是本项目成功的基础与关键。
88
9.2.2.项目指导小组
由甲方相关部门,以及有代表性的相关部门组成项目指导小组。负责从技术、
业务和项目管理等方面对项目实施进行总体指导和协调。具体内容包括:
1.协助需求调研,并参与需求分析工作;
2.负责答复和确认需求分析阶段提出的业务需求问题;
3.提供软件开发必要的政策、数据及现有的信息分类标准和编码等资料;
4.指导并确定软件开发中所需用到的新的数据标准和业务流程规范。
9.2.3.运维总负责人
运维总负责人是整个项目组织中的核心角色,负责整个项目的实施。项目经
理将负责所有的管理工作,以及其它相关的工作,如交付物、财务、合约等。他
/她对系统的开发服务将承担最终的职责。项目经理将参与日常的系统实施管理,
监控项目的进度,与系统结构师、实施小组经理和系统基础结构经理一起工作以
确保新系统的开发可以跟踪和控制。项目经理负责向领导小组汇报新系统的开发
进度和开发相关的问题。
运维总负责人一方面作为我公司的统一接口,协调用户,另一方面协调和管
理公司内容各类小组,减轻用户在项目执行工程中发生的对公司的协调。无论何
时,项目经理都将得到项目领导小组在技术和处理实施问题上的强力支持。
我公司安排熟悉运维系统和现场经验的项目经理做为本项目的服务运维总
负责人,根据系统运维服务需要进行远程支持和不定期的现场支持,确保整个系
统高效、安全、稳定的运行,同时负责协调与用户单位的商务、技术、人员安排、
项目管理及进度控制等事宜,项目经理负有如下职责:
1.作为我公司与用户方之间的用户高级代表,与用户直接接触,第一时间
获取用户信息、意见和需求,并协调我公司内部各方面关系,对发现的问题做出
及时的响应;
2.作为整个项目实施计划的执行负责人和监督者,负责协调、监督我公司
各部门资源,保证工程进度,保证工程质量达到项目要求;
3.作为整个项目的项目经理,在现场担任现场实施的总负责人,协调人员
89
安排、问题协商与解决等工作。
4.制定工程质量方针、目标和标准,控制项目质量环节。在项目推进的关
键部位上设置质量检查环节和改进通道,通过建立岗位工作规范,强化质量意识
和服务意识,确保项目质量、工期、成本和客户满意度都达到预期的目标。
5.组织召开项目的周会、例会和技术碰头会等工作,参与各项文档组织等。
9.2.4.总协调人
公司安排高层领导作为运维服务项目的总协调人,充分保证系统维护的人力
资源和系统资源的连续性和及时性。
9.2.5.项目管理组
项目管理组主要就过程和工作成果的质量进行评估和审计。
1.过程顾问组。过程顾问组负责为项目提供方法学、过程的咨询,负责为
项目制定有效的开发过程,协助项目负责人策划项目,对项目成员进行过程方面
的培训和指导,负责相关过程评估工作,参与评审,并促进过程的不断改进。评
审和审计集成和软件产品和活动以验证它们符合适用的规范和标准。该成员中将
包括CMMI顾问,提供该领域的咨询和指导。
2.质量保证(QA)组。QA组独立于项目之外的过程管理人员,负责评审
项目过程、审计系统工件、工具和设备,为项目过程状态提供可视性,向高层经
理及项目经理提供QA报告。QA的工作不受项目经理的领导,具有独立的向高
层经理汇报的途径。QA将与用户方项目管理团队紧密合作,完成项目整体管理
以及质量保证工作。
9.2.6.现场负责人
项目实施经理负责客户系统环境的搭建、系统迁移及与相关实施过程的控
制。在实施活动中,将组建软件实施小组和硬件集成实施小组,分别对应软件系
统和硬件设备的实施工作。
系统实施组
90
系统实施组主要负责系统软件、硬件实施,包括系统软件和硬件系统的安装、
调试、集成和切换。
应用软件实施组
软件实施组主要负责应用软件的安装、调试,系统实施的数据预处理或者数
据迁移,软件系统的上线。
9.2.7.项目软件经理
项目软件经理是对一个项目的系统开发活动负有全面职责的角色,是控制项
目软件开发过程的全部进度、开发资源的责任人。在该项目中,项目软件经理主
要管理系统架构组、需求组、开发组和测试组,保证整个系统的设计与实现。项
目软件经理负责对所辖项目的全部软件活动,负责控制项目的软件资源,就软件
部分向项目经理实施承诺。
主要负责:开发计划编制;评审分配需求和软件开发计划;参与软件工程内
部的定期审核,对照软件开发计划跟踪技术进展、性能和问题项与有关人员共同
解决审核中出现的问题项。
1、需求组
需求组的任务包括开发系统的用户需求和软件需求两个部分。
业务分析师
业务分析师负责项目的业务建模。在开发系统用户需求的活动中
分析人员和客户方充分调研,从客户的角度编写,侧重于系统的
核心特性和可接受的系统品质,确定用户在业务用例模型和业务
对象模型中的流程、角色以及职责。
需求分析师
需求分析师负责需求的获取及用例建模。在开发软件需求的过程
中,需求分析组与客户和涉众(客户和最终用户)在系统的工作
内容方面达成并保持一致;定义系统边界;为计划迭代的技术内
容提供基础;为估算开发系统所需成本和时间提供基础;定义系
统的用户界面,重点是用户的需要和目标,使应用开发组能够更
清楚地了解系统需求。
91
2、架构组
系统架构组的任务是系统架构的分析设计,包括提供便于小组间
技术交流的架构,达到系统的质量要求,从而实现应用。系统架构组
由一组具有一个公正的、广泛的专业技术水平的员工组成,它包括如
下几方面:丰富的行业领域经验来确保提出一个合适的设计视图(设
计模式中意义重大的原理);丰富的软件技术经验来确保建立一个合
适的进程视图(并发处理,事务处理,安全处理,例外处理,外部接
口),逻辑视图(软件模型的结构)和部署视图(软件和硬件的配置,
容量,性能);系统架构组还要负责系统总体质量,它包括可靠性,
运行性能,灵活性和可维护性。
架构师
构架师负责在整个项目中对技术活动和工件进行领导和协调。构架
师要确立架构视图的整体结构:视图的详细组织结构、元素的分组
以及这些主要分组之间的接口。
数据库设计师
数据库设计员负责定义表、索引、视图、约束条件、触发器、存储
过程、表空间或存储参数,以及其他在存储、检索和删除永久性对
象时所需的数据库专用结构。
设计师
设计师负责对子系统、模块或包的设计。包括设计包或子系统所拥
有的所有类,定义一个或几个类的职责、操作、属性及关系,并确
定应如何根据实现环境对它们加以调整。
UI设计师
UI设计师负责根据客户的需求和系统软件架构,对界面视觉效果
和交互作出设计。包括分析对用户界面的需求,包括可用性需求,
以及构建用户界面原型。
3、开发组
应用开发组由多个小组构成,每个小组由一个小组长管理。小组
长负责管理功能和系统的设计和构造,模块化和软件集成。主要职责
92
包括:软件组件设计、用户界面设计和原型化、对象和动态模型、详
细数据分析、软件构造、软件组件测试、文档管理等。
开发工程师
开发工程师根据系统设计文档和设计实现策略,遵循开发规范和开
发指南,负责编码实现以及质量验证,确保按时按质完成项目开发
工作。
软件集成工程师
软件集成工程师负责将系统的构件组合起来,生成一个可执行的版
本。
4、测试组
测试组包括以下角色的成员:
测试经理
测试经理负责软件产品测试的规划、设计并执行测试过程,以保证
软件产品的质量符合设计要求,确保软件产品的顺利释放。
测试工程师
测试工程师负责支持软件产品测试的规划并执行测试过程,以保证
软件产品的质量符合设计要求,确保软件产品的顺利释放。
5、系统集成
系统集成组包括以下角色的成员:
系统集成维护
对系统提供定期巡检,提供巡检报告。
硬件维护
对硬件问题及时沟通,协调各方及时解决。
工具专家
工具专家负责项目中的支持工具,包括选择和购买工具。工具专家还要配置
和设置工具,并核实工具是否可以使用。
93
10.项目经费预算
10.1.项目预算表
项目预算表
项目编号:ABCD-1234金额单位:元项目名称:ABCD-1234
序号预算科目名称预算经费备注
(1)(2)(4)
1一、经费支出
21、设计费
32、材料费
43、外协费
54、专用费1)燃料动力费
64、专用费2)差旅费
74、专用费3)会议费
85、测试化验加工费
96、固定资产使用费
107、人员工资费
118、管理费
129、其他费用
13二、经费来源
141、从甲方专项经费调拨
152、自筹经费来源
本文发布于:2023-01-26 11:53:06,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/139599.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |