Pingmesh:
数据中心网络时延测量与分析的大规模系统
摘要
我们能在一个大规模的数据中心网络中的任意两个服务器之间获得任何时候的网络延迟吗?收集的延迟数据可以用来定位一系列问题:告知应用程序是否被感知延迟问题是由网络引起的,定义和跟踪网络服务级别协议(SLA),自动网络故障排除。我们已经开发了Pingmesh:大型数据中心的网络延迟测量和分析系统来回答上述问题。pingmesh系统已经在微软数据中心运行超过四年,它每天收集数百万兆字节延迟数据。Pingmesh不仅广泛被网络软件开发人员和工程师使用,也包括应用程序和服务开发人员和运营商。
CCS的概念
•网络→网络测量;云计算;网络监控;•计算机系统
组织→云计算;
关键词
二胡经典曲目数据中心联网;网络故障诊断;静默丢包
1简介猪肚
现在的数据中心中有成千上万的服务器。这些服务器是通过网络接口卡(NIC),交换机和路由器,电缆和光纤连接,形成大规模的批内和批间数据中心网络。数据中心网络规模(DCNS)由于云计算的快速发展越来越大。在物理数据中心基础设施之上,构建了各种大规模的分布式服务,例如,搜索[ 5 ],分布式文件系统[ 17 ]和存储[ 7 ],MapReduce [ 11 ]。这些分布式服务是大型的、演化的软件系统,具有多个组件并且有复杂的依赖关系。所有这些服务都是分布式的,他们的许多组件需要通过在一个数据中心或不同的数据中心之间进行网络交互。在这样的大系统中,软件和硬件失败是常态而非例外。因此,网管团队面临着一些挑战。第一个挑战是确定一个问题是否是一个网络问题。由于分布式系统的特性,许多故障表现为“网络”问题,例如,某些组件只能间歇性地到达,或端到端延迟增加到九十九个百分点,网络吞吐量从20Mb/s下降到小于5MB/s。我们的经验表明大约50%的“网络”问题不是网络本身造成的. 然而,也不能简单地说一个“网络”问题是否确实是由网
络引起的。第二个挑战是定义和跟踪网络服务水平协议(SLA)。许多服务需要网络提供一定的性能保证。例如,搜索查询可能涉及数千个服务器,搜索查询的性能取决于最慢服务器的最后一次响应。这些服务对网络延迟和丢包是敏感的。他们关心网络服务水平协议SLA。网络SLA对于不同的服务需要单独测量和跟踪。因为它们可能使用不同的服务器集群和或者不同的网络。这是一项艰巨的任务,由于网络中数量庞大的服务和客户。第三个挑战是网络故障诊断。网络服务水平协议SLAs由于各种网络问题和“直播网站”事件被破坏。直播网站事件会对客户,合作伙伴或收入产生影响。直播现场事件需要被尽快检测,缓解和解决。但是数据中心网络有成百上千的服务器,交换机,以及数以百万计的电缆和光纤。因此,检测问题所在的位置是一个难题。针对上述问题,我们设计并实现了Pingmesh:一个大型数据中心的网络延迟测量分析系统。pingmesh利用所有服务器发起TCP或HTTP层提供最大延迟的测量范围。pingmesh形成多层次的完整图。在数据中心,Pingmesh让机架内的服务器构成一个完整的图形,并使用机架(Tor)开关的顶部作为虚拟节点,并让它们形成第二个完整图。在数据中心中,Pingmesh通过处理每个数据中心作为一个虚拟节点形成了第三个完全图。完整的图及相关参数的计算由一个中央pingmesh控制器控制。测量的延迟数据被收集和存储,通过数据存储和分析管道进行汇总和分析。从
延迟的数据,网络SLAs的定义和在宏观层面追踪(即数据中心层面)和微观层面(例如,每服务器和每机架水平)。所有的服务和应用SLAs网络的服务和应用程序映射到他们使用的服务器计算。
bigwigsPingmesh已经在成千上万的全球分布式数据中心的微软运行了四年。它产生24百万兆字节数据和2000亿多个探头的每一天。由于Pingmesh数据的通用性,回答如果直播网站事件是因为网络变得更容易:如果Pingmesh的数据并不表明网络问题,然后LiveSite可以满足事件不是由网络引起的。Pingmesh是大量用于网络故障定位问题所在。通过可视化和自动模式检测,我们能够回答何时何地数据包下降和/或延迟增加,识别无声开关包下降和黑洞在网络中。由Pingmesh制作的结果也被用于应用程序开发人员和服务考虑网络更好的服务器选择算子延迟和丢包率。本文提出了以下贡献:我们展示的可行性建设大规模的网络延迟测量和分析系统的设计与实现Pingmesh。通过让每个服务器参与,我们提供所有服务器的延迟数据。我们发现,pingmesh可以帮助我们更好地了解数据中心网络的定义,在宏观和微观范围跟踪网络的SLA,并pingmesh有助于揭示和定位开关的分组丢失数据包的黑洞和沉默的随机丢包,这是不了解以前。
2背景
2.1数据中心网络
数据中心网络通过高速连接服务器,提供高服务器到服务器带宽。今天的大型数据中心网络是由商品以太网交换机和路由器(1, 12, 2)构建的。图1显示了典型的数据中心网络结构。该网络有两部分:内部数据中心(dc)网络和数据中心(dc)网络。内部直流网络是一个典型的Clos几个IERS类似网络在[ 1, 12, 2 ]描述网络。在第一层中,数以万计的服务器(例如,40)使用万兆以太网或40GbE以太网网卡连接到架顶式(TOR)开关,形成一个豆荚。TOR交换机上(例如,20)将被连接到第二层叶片开关(例如,2-8)。这些服务器和ToR和叶片开关形成podt。多podts然后连接到第三层交换机的脊柱(几十到几百)。通过使用现有的以太网交换机,内部DC网络可以连接数万个或更多的具有高网络容量的服务器。
内部DC网络的一个很好的特性是多叶和脊交换机提供了一个冗余的多径网络。ECMP(等价多路径)是用于负载平衡流量在所有的路径。ECMP采用TCP / UDP五元组的选择下一跳的哈希值。因此,即使在连接的五元组已知的情况下,TCP连接的确切路径在服务器端也不知道。这原因,找到一个错误的脊柱开关是不容易的。直流网络是连接内部直流网络
和连接直流网络到因特网的网络。间直流网络采用高速、长距离光纤连接不同geolocations网络数据中心。软件定义网络(天鹅[ 13 ],在[ 16 ])进一步引入更好的广域网流量工程。我们的数据中心网络是一个大型的、复杂的分布式系统。它由成百上千的服务器、成千上万的交换机和路由器组成,还有数以百万计的电缆和光纤。它是由自动驾驶仪管理的[ 20 ],我们土生土长的数据中心管理。软件栈,和交换机和网卡运行软件和固件不同交换机和网卡供应商提供。运行在网络顶部的应用程序可能会引入复杂的流量模式。
2.2网络延迟和丢包
在本文中,我们使用术语“网络延迟”。
应用程序的观点。当服务器上的应用程序A在对等服务器上向应用程序B发送消息时,网络延迟被定义为从发送消息到接收消息的时间的时间间隔。在实践中,我们测量往返时间(RTT)由于RTT测量不需要同步的服务器时钟。RTT是由应用程序处理的延迟,操作系统内核的TCP/IP协议栈和驱动程序的处理时间,网卡介绍延迟(例如,DMA操作,中断调制)[ 22 ],分组传输时延、传播时延、排队时延,在沿路径的分组交换缓冲了。有人可能会说,应用程序和内核堆栈引入的延迟并不真正来自网络。实际上,我们的经验告诉我们,我们的客户和服务开发人员并不关心。一旦观察到延迟问题,通常称为“网络”问题。网络团队有责任说明这个问题是否确实是一个网络问题,如果是,减轻和根本上造成问题。用户感知的延迟可能会增加,由于各种原因,例如,排队延迟,由于网络拥塞,繁忙的服务器CPU,应用程序错误,网络路由问题,等我们也注意到,包滴增加用户感知延迟,因为数据包丢失,需要重传。在不同的地方,由于各种原因,如可能发生丢包,纤维FCS(帧校验序列)的错误,交换ASIC的缺陷,开关织物疵点、交换机软件的bug,网卡的配置问题,网络拥塞,等我们看到所有这些类型的问题在我们的生产网络。
快乐32.3数据中心管理和数据处理系统
接下来我们介绍自动驾驶仪[ 20 ]和宇宙和范围[ 15 ]。数据中心由集中的数据中心管理系统管理,例如自动驾驶仪[ 20 ]或博格[ 23 ]。这些管理系统提供了如何管理包括物理服务器在内的资源、如何部署、调度、监视和管理服务的框架。Pingmesh是在自动驾驶仪的框架构建。自动驾驶仪是微软的自动数据中心管理软件栈。它的理念是运行软件,使所有数据中心管理任务自动化,包括故障恢复,尽可能少地涉及人员。使用自动驾驶仪术语,集群是一组由服务器连接的服务器。
本地数据中心网络由自动驾驶环境管理。自动驾驶环境有一套自动驾驶服务,包括设备管理器(DM),它管理机器状态、部署服务(DS),它为自动驾驶仪和各种应用程序提供服务部署,配置服务(PS)安装服务器操作系统映像,监视服务并报告健康。
各种硬件和软件的状态,维修服务(RS)执行修复行动,从DM等命令。
自动驾驶仪提供共享服务模式。共享服务是在每台自动驾驶仪管理的服务器上运行的一段代码。例如,一个服务经理是一个共享服务管理生命周期和其他应用程序的资源使用,一p
erfcounter收集器是一个共享服务,收集当地的性能计数器,然后上传计数器自动驾驶仪。共享服务必须是轻量级的,CPU、内存和带宽资源使用率低,需要可靠。
无资源泄漏和崩溃。Pingmesh用我们的本地数据存储和分析系统,宇宙/范围,延迟的数据存储和分析。宇宙是微软的大数据系统类似Hadoop的[ 3 ],它提供了一个分布式文件系统GFS和MapReduce等[ 17 ] [ 11 ]。只在文件中追加文件,并将文件分割成多个“扩展”,并将其存储在多个服务器中,以提供高可靠性。宇宙星团可能有
数以万计的服务器或更多,并给予用户
几乎无限的存储空间。范围[ 15 ]是一个声明性的和可扩展的脚本语言,它建立在宇宙之上,用于分析大量数据集。设计范围很容易
使用。它使用户能够专注于他们的数据,而不是底层的存储和网络基础设施。用户只需要编写类似于SQL的脚本,而不必担心并行执行、数据分区和故障处理。所有这些复杂性都是由范围和宇宙来处理的。
3设计与实现
排骨炖汤3.1设计目标
Pingmesh的目标是建立一个网络延迟测量和分析系统来解决我们在1节中描述的问题。Pingmesh应该一直能够为所有服务器提供网络延迟数据。它需要一直保持,因为我们需要一直跟踪网络状态。它需要为所有服务器生成网络延迟数据,因为对网络延迟数据最大可能的覆盖对我们更好地理解,管理和解决我们的网络基础设施是必不可少的。生来倔强歌词
从一开始,我们从各种公共的和专有的网络工具(如traceroute,tcpping,等)选择pingmesh。我们意识到那些网络工具不适合我们,原因如下:首先,这些工具并不总是运行,它们只在运行时生成数据。其次,它们生成的数据没有达到所需的覆盖范围,因为这些工具并不总是运行,所以我们不能指望它们跟踪网络状态。这些工具通常用于网络故障排除当源节点和目标节点已知时。然而,对于大规模数据中心网络来说不能很好地工作:当发生网络事件时,我们甚至可能不知道源节点和目标节点对。此外,对于暂时性的网络问题,这个问题可能在我们运行工具之前就已经消失了。
可爱漫画图片3.2 pingmesh架构
基于上面提到的设计目标,Pingmesh需要满足如下要求。首先,因为Pingmesh的目的是为了提供最大可能的覆盖范围和从应用程序的角度测量网络延迟,从而每个服务器都需要一个Pingmesh代理,且pingmesh代理所消耗的CPU,内存,带宽开销是小的并且负担得起的。
其次,pingmesh代理的行为应该是可控制的和可配置的,需要一个高度可靠的控制平面来控制服务器应该如何进行网络延迟测量。
吃的写法第三,延迟数据应该是汇总的、可分析的,实时生成,存储以便进行深入分析。根据以上要求,我们设计了Pingmesh的结构如图2所示。Pingmesh有如下三个组成部分。
pingmesh控制器。它是整个系统的大脑,因为它决定了服务器应该如何探测彼此。有了pingmesh控制器,Pingmesh generator为每一个服务器产生每一pinglist文件。pinglist文件包含对等服务器列表和相关参数。pinglist文件基于网络拓扑生成的。服务器通过RESTful Web界面得到相应的pinglist。