20170731_北京_中加基金_EMC告警问题处理

更新时间:2023-06-14 04:22:57 阅读: 评论:0

高尔夫挥杆 中加基金-EMC存储报警问题处理
【处理时间】
荣一2017年0731日现场处理
【客户名称】
中加基金
【主机信息】
EMC VNX5300 FCNXX    10.1.18.246/248 和10.1.18.247/248兄有债
【处理人员】
毕光明
【问题说明】
现象:存储告警灯常亮,
EMC存储Unisphere图形管理界面发现有如下报错:
Severity : Error
System : FCNXX
Domain : Local
Created : Jul 30, 2017 6:21:04 PM
Message : DPE (Bus 0 Enclosure 0) is faulted.
Full Description : Disk Processor Enclosure (Bus 0 Enclosure 0) is faulted. Servers may have lost access to disk drives in this storage system.
Recommended Action : Contact your rvice provider.
Event Code : 0x7409
                                事 件 分 析
1、首先现场检查EMC存储状态,发现只有EMC存储告警灯常亮,但各部件的告警灯正常。
2、登录EMC管理控制台,查看各部件状态,发现各部件转台正常。
3、收集2个控制器的日志包,能看到如下的报错日志:
07/30/17 10:17:38 Spe0 PowA          993 SP Environmental Interface Failure. [DeviceError] 0    136      a8000000
07/30/17 10:18:33                    2580 Storage Array Faulted Bus 0 Enclosure 0 : Faulted
07/30/17 10:21:04 Bus0 Enc0          7409 Disk Processor Enclosure is faulted. See alerts for details.
提示电源A有报错
4、查看电源状态:
就要草
三思是什么意思c:\EMC\Navisphere\7.31.33.0.41.1\ -np getcrus -all
--------------------------------------------------------------------------------
DPE7 Bus 0 Enclosure 0      *FAULT*
  (Bus 0 Enclosure 0 : Faulted)
Enclosure Drive Type: SAS
Current Speed: 6Gbps
Maximum Speed: 6Gbps
SP A State:                Prent
SP B State:                Prent
董事会工作报告Bus 0 Enclosure 0 Power A State: Prent
Bus 0 Enclosure 0 Power B State: Prent
Bus 0 Enclosure 0 SPS A State: Prent
Bus 0 Enclosure 0 SPS B State: Prent
Bus 0 Enclosure 0 SPS A Cabling State: Valid
Bus 0 Enclosure 0 SPS B Cabling State: Valid
Bus 0 Enclosure 0 CPU Module A State: Prent
Bus 0 Enclosure 0 CPU Module B State: Prent
Bus 0 Enclosure 0 SP A I/O Module 0 State: Empty
Bus 0 Enclosure 0 SP A I/O Module 1 State: Empty
Bus 0 Enclosure 0 SP B I/O Module 0 State: Empty
Bus 0 Enclosure 0 SP B I/O Module 1 State: Empty
Bus 0 Enclosure 0 DIMM Module A State: Prent
Bus 0 Enclosure 0 DIMM Module B State: Prent
显示电源(Power)A/B以及电池(SPS)A/B都是正常状态。
怀疑微码版本
因此怀疑是个误报。
建议
(不影响业务,为安全起见,建议在非业务时间段操作):
1、重启 manager  rver服务,查看告警是否消失
具体步骤如下:
  以下步骤需在两台SP上分别执行:
a)打开浏览器
b)输入地址:http: //<IP_address_of_SP>/tup
c)页面加载完成后,输入用户名密码以进入Navisphere Ur Interface (UI)
d)登录后,点击"Restart Management Server"按钮
e)页面加载完成后,点击"Yes"并"Submit"
2、升级微码
由于第一步重启管理没能消除错误日志以及告警灯,既然黑老鸹硬件都正常我们就怀疑可能是微码太低,版本老,产生的误报,我们就准备实施微码升级(由于是生产建议在线升级)
升级firmware过程前,确保所有使用本存储的应用服务器多路径完全正常,可以正常访问阵列的SPA和SPB。会依次升级阵列的SPB和SPA的firmware,如果发现升级完SPB导致SPB路径不可访问,则中断升级。
a)备份存储数据,通过HMC控制台观察小连接存储的状态,诺顿NBU完成数据备份
b)Unisphere图形管理界进入工程师模式,然后将告警信息删除。(告警不能删除,执行c
1)    浏览器登录阵列管理界面
2)    到System---Monitoring and alerts---Alerts
3)    安装CTRL+SHIFT+F12,输入密码 messner,进入工程师模式
4)    点击需要消除的告警,看能否删除
c)升级微码 Block OE:05.32.000.5.221 or later code, 在升级前先检查业务服务器的存储多通道是否健康,升级大约需要3-4个小时)。
d)升级微码的过程是
汉字大写
在线升级步骤:
检查 VNX 上有无硬件故障
检查 VNX 版本信息
客户检查主机上多路径软件
检查 SPI/O 是否满足在线升级条件
disable 统计日志写入;
disable callhome 或者 connecthome(如果有)
USM 进行升级 flare code;两个 SP 需要依次升级/ 重启
升级完成后,检查 SP read write cache 的状态
检查有无 LUN trespass
Commit  flare
检查 flare code 版本
Enable callhome 或者 connecthome
收集系统日志
e)升级后检查,控制器升级完成后检查故障是否消除,发现故障依旧存在。
f)根据现有环境,做了一步关闭---重启SPS A电池,故障未消除
g)更换电池SPS A和SPS B通讯信号线,出现控制器都不能识别到电池的F状态。
h)一晚上没能解决故障,由于现场没有备件所有能做的尝试都不能消除故障,下一步申请两块电池以及电池与控制器的通讯线检查链路状态
升级过程中由于链路状态不稳定服务器端会看到:
检查链路:powermt display dev=all|more
The powermt display dev=**mand shows hardware path with asb:iopf instead of alive:
Symmetrix ID=xxxxxxxxxxx
state=alive; policy=SymmOpt; queued-IOs=0

--------------- Host ---------------------------------------- -Stor- -I/O Path- -Stats-
### HW Path I/O Paths Interf. Mode State Q-IOs Errors
3072 pci@1e,600000/SUNW,qlc@3,1/fp@0,0 c3tXXADD18d4s0 FA 7eA asb:iopf alive 0 2
3074 pci@1e,600000/SUNW,qlc@3/fp@0,0 c2tXXADD1Cd4s0 FA 8eA active alive 0 0
恢复链路:powermt t mode=active dev=all force 强制
3、更换备件
1、更换SPS电池方法
第一步:找到坏掉的电池,关闭电池电源,等待大约2分钟电池灯完全关闭;
第二步:依次拔掉管理线和电源线;
第三步:卸载并安装对应电池(新电池开关要为关闭状态);
第四步:依次连接管理线和电源线;
第五步:打开电池开关,等待电池充电,绿灯会一直闪烁;充满后会放电,然后再次充满;(注:两次充电时间大约3个小时及以上,电池充满后最上面一个灯绿色为长亮)
第六步:打开管理控制台,观察电池状态(从充电时就可以观察state,Unknown——>prent),电池图标由F变为T,再消失,更换完毕,工作正常,结束;
注意:如果两次充电后,电池状态由Unknown变为prent,说明电池正常,但是电池图标依然F,这时建议重启控制器,一般都会消失;
2、更换SPS时注意的事项:
* 如果是双控制器和电池,又有UPS,里面的 write cache 不需要disable .近单控制器,单电池,又没有UPS的时候要先把 write cache 变为disable (以免数据丢失,但是如果业务比较重,会影响业务,做之前要跟管理员商议好).
* 更换好之后要确认write cache  enabled
1)、关闭故障SPS上的开关,不要拔线,此时即断掉了其中一路电源供应,SPS的状态灯会灭掉,另一个SPS电池的ON-BATTERY LED亮起,等待大概几十秒后,另一个SPS的ON-BATTERY LED  灭掉,ACTIVE LED开始慢闪。
2)、此时才能开始拔线(顺序:AC-IN,AC-OUT,连接控制器的INTERFACE)。
3)、从设备后面,卸下4个固定螺丝,从设备前面,拆开挡板,卸下6个固定螺丝,卸下故障SPS。
4)、装上新的SPS。注意要保证新SPS上的开关是在0位置,即关闭的。
5)、接好电源线后(顺序:连接控制器的INTERFACE,AC-OUT,AC-IN)。
6)、打开更换的SPS的开关。
A)检查存储日志,更换状态是日志报错其中电池电池通讯线不重启控制器,通过更改电池测试时间,使电池到指定时间自动测试。右击电池标识设定时间
B) 到设定时间电池测试结果报出,周期性测试没有被执行
C) 通过更换SPB电池后发现SPA电池状态恢复正常。
D) 以上三个步骤都是在线重启控制器的基础上做得尝试,接下来需要等业务完成备份尝试通过更换电池、通讯线后重启控制器方法处理。
E)NBU备份,停止NBU服务
F)先对A控重启B控重启,告警还是未能消除
G)仔细分析之前的日志发现,SP B的电源问题较大,一直怀疑电池的方向错误
H)半夜,供应商工程师又联系他的同事送来一块电源,更换完成。
I)登录EMC管理界面,检查各部件状态,无报错信息,各部件运行正常。
J)检查链路状态,保存清除小机系统中链路重启的导致的报错信息
K)启动NBU服务,故障处理结束
问题总结
    经过处理这次故障,还是要仔细查看日志,哪里故障就更换哪里,(这次故障也有点蹊跷,只有一个总的告警,没有具体到部件位置)避免多次延误维护时间,提高处理故障效率。

本文发布于:2023-06-14 04:22:57,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/949858.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:电池   状态   升级   故障   管理   发现
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图