高尔夫挥杆 中加基金-EMC存储报警问题处理 | |||||||||||||||||||||||||||||||
【处理时间】 | 荣一2017年07月31日现场处理 | ||||||||||||||||||||||||||||||
【客户名称】 | 中加基金 | ||||||||||||||||||||||||||||||
【主机信息】 | EMC VNX5300 FCNXX 10.1.18.246/248 和10.1.18.247/248兄有债 | ||||||||||||||||||||||||||||||
【处理人员】 | 毕光明 | ||||||||||||||||||||||||||||||
【问题说明】 | 现象:存储告警灯常亮, EMC存储Unisphere图形管理界面发现有如下报错: Severity : Error System : FCNXX Domain : Local Created : Jul 30, 2017 6:21:04 PM Message : DPE (Bus 0 Enclosure 0) is faulted. Full Description : Disk Processor Enclosure (Bus 0 Enclosure 0) is faulted. Servers may have lost access to disk drives in this storage system. Recommended Action : Contact your rvice provider. Event Code : 0x7409 | ||||||||||||||||||||||||||||||
事 件 分 析 | |||||||||||||||||||||||||||||||
1、首先现场检查EMC存储状态,发现只有EMC存储告警灯常亮,但各部件的告警灯正常。 2、登录EMC管理控制台,查看各部件状态,发现各部件转台正常。 3、收集2个控制器的日志包,能看到如下的报错日志: 07/30/17 10:17:38 Spe0 PowA 993 SP Environmental Interface Failure. [DeviceError] 0 136 a8000000 07/30/17 10:18:33 2580 Storage Array Faulted Bus 0 Enclosure 0 : Faulted 07/30/17 10:21:04 Bus0 Enc0 7409 Disk Processor Enclosure is faulted. See alerts for details. 提示电源A有报错 4、查看电源状态: 就要草三思是什么意思c:\EMC\Navisphere\7.31.33.0.41.1\ -np getcrus -all -------------------------------------------------------------------------------- DPE7 Bus 0 Enclosure 0 *FAULT* (Bus 0 Enclosure 0 : Faulted) Enclosure Drive Type: SAS Current Speed: 6Gbps Maximum Speed: 6Gbps SP A State: Prent SP B State: Prent 董事会工作报告Bus 0 Enclosure 0 Power A State: Prent Bus 0 Enclosure 0 Power B State: Prent Bus 0 Enclosure 0 SPS A State: Prent Bus 0 Enclosure 0 SPS B State: Prent Bus 0 Enclosure 0 SPS A Cabling State: Valid Bus 0 Enclosure 0 SPS B Cabling State: Valid Bus 0 Enclosure 0 CPU Module A State: Prent Bus 0 Enclosure 0 CPU Module B State: Prent Bus 0 Enclosure 0 SP A I/O Module 0 State: Empty Bus 0 Enclosure 0 SP A I/O Module 1 State: Empty Bus 0 Enclosure 0 SP B I/O Module 0 State: Empty Bus 0 Enclosure 0 SP B I/O Module 1 State: Empty Bus 0 Enclosure 0 DIMM Module A State: Prent Bus 0 Enclosure 0 DIMM Module B State: Prent 显示电源(Power)A/B以及电池(SPS)A/B都是正常状态。 怀疑微码版本: 因此怀疑是个误报。 | |||||||||||||||||||||||||||||||
处 理 建议 | |||||||||||||||||||||||||||||||
(不影响业务,为安全起见,建议在非业务时间段操作): 1、重启 manager rver服务,查看告警是否消失 具体步骤如下: 以下步骤需在两台SP上分别执行: a)打开浏览器 b)输入地址:http: //<IP_address_of_SP>/tup c)页面加载完成后,输入用户名密码以进入Navisphere Ur Interface (UI) d)登录后,点击"Restart Management Server"按钮 e)页面加载完成后,点击"Yes"并"Submit" 2、升级微码 由于第一步重启管理没能消除错误日志以及告警灯,既然黑老鸹硬件都正常,我们就怀疑可能是微码太低,版本老,产生的误报,我们就准备实施微码升级(由于是生产建议在线升级): 升级firmware过程前,确保所有使用本存储的应用服务器多路径完全正常,可以正常访问阵列的SPA和SPB。会依次升级阵列的SPB和SPA的firmware,如果发现升级完SPB导致SPB路径不可访问,则中断升级。 a)备份存储数据,通过HMC控制台观察小机连接存储的状态,诺顿NBU完成数据备份 b)Unisphere图形管理界进入工程师模式,然后将告警信息删除。(告警不能删除,执行c) 1) 浏览器登录阵列管理界面 2) 到System---Monitoring and alerts---Alerts 3) 安装CTRL+SHIFT+F12,输入密码 messner,进入工程师模式 4) 点击需要消除的告警,看能否删除 c)升级微码 Block OE:05.32.000.5.221 or later code, 在升级前先检查业务服务器的存储多通道是否健康,升级大约需要3-4个小时)。 d)升级微码的过程是:
e)升级后检查,待两控制器都升级完成后检查故障是否消除,发现故障依旧存在。 f)根据现有环境,做了一步关闭---重启SPS A电池,故障未消除 g)更换电池SPS A和SPS B通讯信号线,出现了控制器都不能识别到电池的F状态。 h)一晚上没能解决故障,由于现场没有备件所有能做的尝试都不能消除故障,下一步申请两块电池以及电池与控制器的通讯线,检查链路状态。 升级过程中由于链路状态不稳定在服务器端会看到: 检查链路:powermt display dev=all|more The powermt display dev=**mand shows hardware path with asb:iopf instead of alive: Symmetrix ID=xxxxxxxxxxx state=alive; policy=SymmOpt; queued-IOs=0 --------------- Host ---------------------------------------- -Stor- -I/O Path- -Stats- ### HW Path I/O Paths Interf. Mode State Q-IOs Errors 3072 pci@1e,600000/SUNW,qlc@3,1/fp@0,0 c3tXXADD18d4s0 FA 7eA asb:iopf alive 0 2 3074 pci@1e,600000/SUNW,qlc@3/fp@0,0 c2tXXADD1Cd4s0 FA 8eA active alive 0 0 恢复链路:powermt t mode=active dev=all force 强制 3、更换备件 1、更换SPS电池方法 第一步:找到坏掉的电池,关闭电池电源,等待大约2分钟电池灯完全关闭; 第二步:依次拔掉管理线和电源线; 第三步:卸载并安装对应电池(新电池开关要为关闭状态); 第四步:依次连接管理线和电源线; 第五步:打开电池开关,等待电池充电,绿灯会一直闪烁;充满后会放电,然后再次充满;(注:两次充电时间大约3个小时及以上,电池充满后最上面一个灯绿色为长亮) 第六步:打开管理控制台,观察电池状态(从充电时就可以观察state,Unknown——>prent),电池图标由F变为T,再消失,更换完毕,工作正常,结束; 注意:如果两次充电后,电池状态由Unknown变为prent,说明电池正常,但是电池图标依然F,这时建议重启控制器,一般都会消失; 2、更换SPS时注意的事项: * 如果是双控制器和电池,又有UPS,里面的 write cache 不需要disable .近单控制器,单电池,又没有UPS的时候要先把 write cache 变为disable (以免数据丢失,但是如果业务比较重,会影响业务,做之前要跟管理员商议好). * 更换好之后要确认write cache enabled 1)、关闭故障SPS上的开关,不要拔线,此时即断掉了其中一路电源供应,SPS的状态灯会灭掉,另一个SPS电池的ON-BATTERY LED亮起,等待大概几十秒后,另一个SPS的ON-BATTERY LED 灭掉,ACTIVE LED开始慢闪。 2)、此时才能开始拔线(顺序:AC-IN,AC-OUT,连接控制器的INTERFACE)。 3)、从设备后面,卸下4个固定螺丝,从设备前面,拆开挡板,卸下6个固定螺丝,卸下故障SPS。 4)、装上新的SPS。注意要保证新SPS上的开关是在0位置,即关闭的。 5)、接好电源线后(顺序:连接控制器的INTERFACE,AC-OUT,AC-IN)。 6)、打开更换的SPS的开关。 A)检查存储日志,更换状态是日志中报错的其中一块电池及电池通讯线不会重启控制器,通过更改电池测试时间,使电池到指定时间自动测试。右击电池标识设定时间 B) 等到设定时间电池测试结果报出,周期性测试没有被执行 C) 通过更换SPB电池后发现SPA电池状态恢复正常。 D) 以上三个步骤都是在线不重启控制器的基础上做得尝试,接下来需要等业务完成备份后,尝试通过更换电池、通讯线后重启控制器的方法处理。 E)NBU备份,停止NBU服务 F)先对A控重启,后又对B控重启,告警还是未能消除。 G)仔细分析之前的日志发现,SP B的电源问题较大,一直怀疑电池的方向错误 H)半夜,供应商工程师又联系他的同事送来一块电源,更换完成。 I)登录EMC管理界面,检查各部件状态,无报错信息,各部件运行正常。 J)检查链路状态,保存并清除小机系统中链路重启的导致的报错信息 K)启动NBU服务,故障处理结束 | |||||||||||||||||||||||||||||||
问题总结 | |||||||||||||||||||||||||||||||
经过处理这次故障,还是要仔细查看日志,哪里故障就更换哪里,(这次故障也有点蹊跷,只有一个总的告警,没有具体到部件位置)避免多次延误维护时间,提高处理故障效率。 | |||||||||||||||||||||||||||||||
本文发布于:2023-06-14 04:22:57,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/fan/82/949858.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |