数据中心网络维护经典命令必备

责任编辑：贾世华作者：harbor |来源：企业网D1Net 2015-01-21 09:22:06 原创文章企业网D1Net

网络是数据中心最重要的组成部分，也是日常维护工作的重中之重，作为一名网络运维的技术新手，有必要掌握一些基本的故障判断技能，这样往往可以在数据中心运行出现故障时，迅速找到故障点，及时排除故障。本文就是将一些常用的经典命令呈现出来，供广大的网络运维初学者学习使用。虽然这几年出现了许多新的网络技术，让人看得眼花缭乱，面对这些新技术时，往往一头雾水，无从下手，是否以往经验积累下来的东西是否就不好用了，其实经典的东西永远都不过时，网络技术再发展也离不开传递信息的本质，所有的新技术都是在最普通的二、三层转发基本之上演化来的，万变不离其中。那么下面就来说一说这些经典好命令。

PING

PING恐怕是最古老的网络诊断命令了，只要接触到网络的人一定知道它和使用过它。不过PING实际上有很多的妙用，学会真正地使用PING，往往能够将故障范围迅速缩小。如下是PING测试时可以带的参数，我们可以通过携带这些参数，知道哪些长度的报文是不通的，回应报文延迟有多大，丢包率有多少等等。如今还有很多的PING测试工具，提供了更多图形化的功能，可以进行快PING测试（比如1秒钟之内PING数百个报文），多地址同时PING，支持统计PING记录，将PING的结果通过图形来呈现，还可以构造不同的PING测试IP和MAC地址。通过大量的PING测试，可以迅速掌握当前的数据中心故障位置在哪里，是哪台设备可能出现了问题。再利用PING的各种参数，又可以知道具体的是哪类故障，比如是丢包还是不通，是全部地址都不通还是部分地址不通，将故障进行细化。PING是在数据中心网络故障诊断时最不可缺少的诊断命令。

Usage: ping [-t] [-a] [-n count] [-l size] [-f] [-i TTL] [-v TOS][-r count] [-s count] [[-j host-list] | [-k host-list]][-w timeout] target_name
Options:
    -t             Ping the specified host until stopped.
                   To see statistics and continue - type Control-Break;
                   To stop - type Control-C.
    -a             Resolve addresses to hostnames.
    -n count       Number of echo requests to send.
    -l size        Send buffer size.
    -f             Set Don't Fragment flag in packet.
    -i TTL         Time To Live.
    -v TOS         Type Of Service.
    -r count       Record route for count hops.
    -s count       Timestamp for count hops.
    -j host-list   Loose source route along host-list.
    -k host-list   Strict source route along host-list.
    -w timeout     Timeout in milliseconds to wait for each reply.

TRACERT

TRACERT也是和PING类似的诊断命令，TRACERT命令的特点是通过依次发送ICMP TTL等于网络跳数报文，看网络是否可达。TRACERT相比PING，可以迅速掌握达到目的地址所经历的网络跳数，是否可能存在路由环路，是否走了等价路由，中间哪一跳地址是不通的，都可以通过TRACERT获知。不过很多网络设备默认并没有开启TRACERT的回应功能，在使用TRACERT命令时，要确认网络设备也开启了此功能，否则可能会造成误判。

Usage: tracert [-d] [-h maximum_hops] [-j host-list] [-w timeout] target_name
Options:
    -d                 Do not resolve addresses to hostnames.
    -h maximum_hops    Maximum number of hops to search for target.
    -j host-list       Loose source route along host-list.
    -w timeout         Wait timeout milliseconds for each reply.

流量统计

几乎所有的网络设备都支持流量统计，所谓的流量统计就是通过定义特定的流量，通过ACL进行流量计数统计，结合PING测试或者具体业务，然后通过流量统计确认报文丢弃的位置，明确故障设备。由于流量统计一般都是在设备的转发芯片或者CPU上进行统计，流量统计的结果并不一定完全准确的，一个流量进入设备，在达到转发芯片之前，还要经过端口光模块、端口物理连接器、PHY器件、PCB布线等部分，如果是这些地方出现了问题，那么就会影响判断的准确性，而这些器件处理的都是物理信号，也无法对报文流量进行统计，这时最好的方式就是在两边的设备端口上同时做流量统计，根据统计的结果来判断。如果两边统计的结果不一致，那么再通过更换多端口来测试，这样来明确故障的位置。流量统计的命令，不同的网络设备配置方法各有不同，不再一一提及。

镜像

镜像也是在进行数据中心网络故障排除时最常用的诊断方法，这时的故障往往是集中于应用层的，通过PING/TRACERT无法明确故障的。通过镜像可以将特定的应用流量抓出来，然后对报文逐个分析，找出故障的原因。比如是报文有大量重传还是有大量的错包，是报文内容有错还是报文出现乱序等，这些都通过镜像一目了然。不过镜像也有不少的限制，比如并不是所有的设备都能支持流镜像，那么就需要对整个端口的流量进行镜像，在流量比较大时，镜像本身的流量太大也会占用设备带宽，反到可能引发设备转发拥塞。还有镜像如果每秒钟达到数百兆的流量，则没有哪个笔记本可能长时间的做这种抓包。通过镜像虽然可以将所有应用流量都抓出来，但是最终还是要通过笔记本来翻译，所以笔记本性能是很大的瓶颈。当然网络设备如果都支持流镜像就不会遇到这类烦恼了。

重定向上CPU

很多时候，发生故障的都是无人职守的数据中心，现场根本没有人，这样就无法进行镜像抓包，所以通过重定向的命令，将自己关注的业务流量重定向上CPU一部分，这样来分析业务故障的可能性，通过打开上CPU报文的开关，就可以详细看到流量抱文，这样就可以进行深入分析。重定向上CPU对CPU是个考验，很多数据中心交换机转发芯片能力很强，但是CPU很弱，如果将大量的业务流量重定向上CPU，可能会将CPU冲跨，所以这种诊断使用时要慎重，而且重定向的方式改变原有的业务流量而上CPU。如果原来的业务仅仅是丢报而已，通过重定向上CPU后，将使得业务全部中断，所以使用时要慎重。还有一些网络设备提供镜像上CPU的功能，有这样的功能可以在不影响业务的情况下，将流量镜像上CPU，将故障问题再一一查明，重定向的命令也是不同设备也有差异，但是实现原理都差不多，可以很快上手使用。

NET

服务器有一些NET相关的常用命令。比如：通过net view显示当前工作组服务器列表，通过net user显示服务器上用户帐号的列表，通过net use查看网络连接，通过net session还可以查看连接记录，net share查看服务器的共享资源，通过这些命令可以对服务器的网络运行情况有个基本了解，再结合PING/TRACET可以很快找到问题设备，及时将故障排除。

除了以上这些命令和方法，还有很多技巧，针对不同的网络协议、网络应用都会有不同的分析方法。但是不管是哪些应用，在分析故障时，依然都离不开PING、TRACERT、流量统计、镜像、重定向、NET等等。作为一名网络维护新手，应该将这些诊断方法吃透，将有助于缩减查找到数据中心故障根源的时间。

关键字：数据中心