某局点S5120-EI设备丢包问题分析案例
一、组网:
二、问题描述:
S5120-EI下挂服务器,双上行到S5800汇聚设备
客户反馈现场服务器和S5800之间的通信概率存在丢包,怀疑丢包发生在S5120-EI。
三、过程分析:
经过测试发现,通过S5800 ping服务器, ping 100个报文的话会概率存在丢1~2个报文,通过在S5120-EI做的流量统计可以看到丢包发生在S5120-EI的G1/0/32口,进一步查看底层芯片统计信息发现G1/0/32口有大量的HOLD丢包,如下面红色的统计表明是丢包。
[H3C-diagno]bcm 1 1 show/c/ge7
...
0 : 0 +0
0 : 0 +0
0 : 123 +12
0 : 0 +0
0 : 0 +0
如何通过用户端口号找到调试命令对应的内部端口号这里说明一下,需要通过debug port mapping命令来查看,如下所示:
[H3C]en_diag
[H3C-diagno]debug port mapping 1
[Interface] [Unit][Port][Name][Combo?][Active?]
===================================================
GE1/0/1 0 0 ge0 no no
GE1/0/2 0 1 ge1 no no
GE1/0/3 0 2 ge2 no no
GE1/0/4 0 3 ge3 no no
GE1/0/5 0 4 ge4 no no
GE1/0/6 0 5 ge5 no no
GE1/0/7 0 6 ge6 no no
GE1/0/8 0 7 ge7 no no
GE1/0/9 0 8 ge8 no no
GE1/0/10 0 9 ge9 no no
GE1/0/11 0 10 ge10 no no
GE1/0/12 0 11 ge11 no no
GE1/0/13 0 12 ge12 no no
GE1/0/14 0 13 ge13 no no
GE1/0/15 0 14 ge14 no no
GE1/0/16 0 15 ge15 no no
GE1/0/17 0 16 ge16 no no
GE1/0/18 0 17 ge17 no no
GE1/0/19 0 18 ge18 no no
GE1/0/20 0 19 ge19 no no
GE1/0/21 0 20 ge20 no no
GE1/0/22 0 21 ge21 no no
GE1/0/23 0 22 ge22 no no
GE1/0/24 0 23 ge23 no no
GE1/0/25 1 0 ge0 no no
GE1/0/26 1 1 ge1 no no
GE1/0/27 1 2 ge2 no no
GE1/0/28 1 3 ge3 no no
GE1/0/29 1 4 ge4 no no
GE1/0/30 1 5 ge5 no no
GE1/0/31 1 6 ge6 no no
GE1/0/32 1 7 ge7 no no
GE1/0/33 1 8 ge8 no no
...
则可以查看到G1/0/32,对应的内部端口号是unit=1,port=ge7,那么看这个端口的统计信息应该这样看:
[H3C]en_diag
[H3C-diagno]bcm 1 1 show/c/ge7
如果要看G1/0/5,对应的内部端口号为unit=0,port=ge4,那么看这个端口的统计信息这样看:
[H3C]en_diag
[H3C-diagno]bcm 1 0 show/c/ge4
而HOLD丢包的含义是交换机端口超线速了,多个端口打一个端口或者高速的端口打低速的端口都会导致这个问题。
四、解决方法:
从目前的S5120-EI G1/0/32端口上看存在大量的HOLD丢包,因此是存在某些时间段多个端口的流量同时涌向G1/0/32下挂服务器造成的超端口线速拥塞,解决的办法是可以将用户关心的业务报文提升一下优先级(比如5),那么就可以尽量避免业务报文不丢包或者现场从组网设计上避免此类端口产生拥塞的情况。
流量统计典型配置
一、功能需求:
流量统计就是通过与类关联,对符合匹配规则的流进行统计,统计报文数或字节数。是排查丢包和不通类问题的手段。例如,可以统计从某个源IP地址发送的报文,然后管理员对统计信息进行分析,根据分析情况采取相应的措施。
二、组网信息及描述:
如图所示组网,PCA访问PCB web业务无法访问成功,怀疑网络中存在丢包,使用流量统计,确认丢包位置。在大型网络中通过流量统计也可以缩小故障范围。PCA的IP为1.1.1.1,PCB的IP为2.2.2.2。
三、配置步骤:
定义acl,匹配PCA访问PCB的流量计,在做流量统计时应尽量保证匹配的情况精确,避免抓取到其他业务流量,使流量统计不准确。
[H3C]acl number 3333
[H3C-acl-adv-3333]description traffic accounting for host A to host B
[H3C-acl-adv-3333]rule 10 permit tcp source 1.1.1.1 0.0.0.0 destination 2.2.2.2 0.0.0.0 destination-port eq 80
定义流分类,匹配acl定义的PCA访问PCB的web流量。
[H3C]traffic classifier traffic_accounting_from_A_to_B
[H3C-classifier-traffic_accounting_from_A_to_B]if-match acl 3333
定义流行为,统计报文个数
[H3C]traffic behavior traffic_accounting_from_A_to_B
[H3C-behavior-traffic_accounting_from_A_to_B]accounting packet
定义qos策略,关联流分类和流行为
[H3C]qos policy traffic_accounting_from_A_to_B
[H3C-qospolicy-traffic_accounting_from_A_to_B]classifier traffic_accounting_from_A_to_B behavior traffic_accounting_from_A_to_B