当前位置:数据中心技术专区 → 正文

如何降低数据中心高速光模块故障率

责任编辑:cres 作者:harbor |来源:企业网D1Net  2019-03-28 13:31:14 原创文章 企业网D1Net

5G、大数据、人工智能等技术都对数据处理和网络带宽有了更高要求,数据中心需要不断提升网络带宽去满足,所以数据中心这段时间对提升网络带宽有迫切需求,尤其是互联网的数据中心。提升网络带宽最直接的方式就是提升单端口的网络带宽,从40G提升到100G,从100G到200G,甚至更高,从而将整个数据中心的带宽提升起来。已经有专家预测,大多数400GbE部署将在2019年开始,400GbE交换机将作为超大规模数据中心的脊柱或核心交换机,以及私有和公共云数据中心的脊柱或主干交换机启动,要知道100G也才普及两三年,现在就要过渡到400G,网络带宽提升速度越来越快。
 
一面是数据中心对高速模块的强烈需求,一面是模块故障率居高不下。相比1G、10G,40G、100G甚至200G,直观感受故障率要高得多。当然,这些高速模块的工艺复杂度远比低速高,比如一个40G光模块,本质上就是通过4个10G通道绑定起来,同时工作实现的,相当于4个10G在工作,只要有一路有问题,整个40G就无法再用了,故障率当然要比10G高,而且光模块还要实现4条光路的协调工作,出错概率自然更高。100G更是如此,有的就是通过10个10G通道绑定起来,还有的采用新的光技术,这些都会增加出错可能。更高速率的更不用提了,技术成熟度上就不高,像400G仍是实验室里的技术,2019年就要推向市场,必然出现一次故障率的小高潮,好在刚开始用量不会很多,随着技术的不断提升,相信也会像低俗模块那样逐渐稳定。试想20年前拿到GBIC的1G光模块去用,和现在用200G的感觉差不多,新品短期内故障率升高是必然。
 
好在,光模块的故障对业务冲击较小,数据中心的链路都是有冗余备份的,一条链路光模块出问题,业务可走其它链路,如果是CRC错包也可通过网管立即发现,及早做更换处理,所以光模块故障很少对业务有较大影响,极少数情况下,可能因为光模块引发设备端口故障,从而导致整个设备挂掉的情况,这种情况多是设备实现不合理导致的,很少出现,绝大多数的光模块和设备之间是松耦合的,虽然连接在一起,并没有耦合关系。所以虽然高速光模块使用中坏的比较多,但对业务冲击也没那么大,一般不会引起人们重视,发现故障直接更换掉,高速光模块的维保时间也长,故障了基本是免费的更换,损失也不大。
 
光模块的故障多表现在端口无法UP、光模块无法识别、端口CRC错包等现象,这些故障与设备侧、光模块本身和链路质量都有些关系,尤其是错报和无法UP,很难从软件技术上判断故障位置。有些还是适配类的问题,双方都没有问题,只不过相互之间没有调试和适配过,导致无法在一起工作,这种情况还不少,所以不少的网络设备都会给出适配的光模块清单,要求客户用自己适配过的光模块,这样才能保证稳定可用。若遇到了故障,最好用的方法依然是轮换测试,换链路光纤、换模块,换端口,通过这一系列测试确认到底是光模块问题,还是链路或设备端口问题,好在一般这类故障现象比较确定,遇到那种故障现象不固定的就难处理了。比如端口上有CRC错包,将光模块直接拔出来换一个新的,故障现象消失,再将原来的光模块换回来,故障不再复现,这就不好判断到底是不是光模块问题。这种情况在实际使用中也会经常碰到,这让人难做判断。
 
如何降低光模块的故障率?第一,抓好源头,更高带宽的光模块不要急于推向市场,要做好充分的实验,而且高速模块需要相应的设备配套实现,这些技术也需要完善才能成熟,新的高速模块要平滑地引入市场,不要简单地追求高速,现在网络设备都支持多端口捆绑,400G不行,就用4个100G捆绑也可以满足需求;第二,抓好高速光模块的引入,网络设备商和数据中心客户,在引入高速光模块上要慎重,增加对高速光模块的严格测试,坚决过滤质量上有缺陷的产品。现在市面上高速光模块市场竞争也比较激烈,都希望在新的高速模块上抢占先机,但质量和价格参差不齐,这就需要网络设备商和数据中心客户能加大考核力度,越是速率高的模块,越增加验证的复杂度;第三,光模块其实是一个集成度特别高的器件,露在外面的光纤通道和内部器件都比较脆弱,使用时要轻拿轻放,带上干净手套,避免落入灰尘,这些也会降低使用故障率,不用的光模块要带好光纤帽,放在袋子里。第四,尽量少的出现极限情况,比如100G的光模块长期在接近限速的情况下使用,200米距离的光模块,偏偏要在200米距离使用,这些极限边界值使用对光模块的损耗较大,它就像人一样,人在24~26度的空调房里工作,工作效率就高,到了35度外面的高温环境,注意力无法长时间集中,工作效率极低,到了40度以上,人都快中暑了还怎么工作。为光模块提供一个令其舒适的环境,能够有效延长光模块的使用寿命。
 
随着海量数据的增长,数据中心带宽需求越来越高,引入更高速的光模块成了必由之路,必须控制好其质量的问题。如果新的高速模块在市场上频繁碰壁,也难逃被淘汰的结果。当然,任何一种新技术都有一个走向成熟的过程,高速光模块也不例外,需要不断地技术创新,解决各种问题,提升模块质量,降低故障概率。高速光模块是模块厂商的利润引擎,是历代模块厂商的必争之地,必须要严控质量关。

关键字:数据中心

原创文章 企业网D1Net

x 如何降低数据中心高速光模块故障率 扫一扫
分享本文到朋友圈
当前位置:数据中心技术专区 → 正文

如何降低数据中心高速光模块故障率

责任编辑:cres 作者:harbor |来源:企业网D1Net  2019-03-28 13:31:14 原创文章 企业网D1Net

5G、大数据、人工智能等技术都对数据处理和网络带宽有了更高要求,数据中心需要不断提升网络带宽去满足,所以数据中心这段时间对提升网络带宽有迫切需求,尤其是互联网的数据中心。提升网络带宽最直接的方式就是提升单端口的网络带宽,从40G提升到100G,从100G到200G,甚至更高,从而将整个数据中心的带宽提升起来。已经有专家预测,大多数400GbE部署将在2019年开始,400GbE交换机将作为超大规模数据中心的脊柱或核心交换机,以及私有和公共云数据中心的脊柱或主干交换机启动,要知道100G也才普及两三年,现在就要过渡到400G,网络带宽提升速度越来越快。
 
一面是数据中心对高速模块的强烈需求,一面是模块故障率居高不下。相比1G、10G,40G、100G甚至200G,直观感受故障率要高得多。当然,这些高速模块的工艺复杂度远比低速高,比如一个40G光模块,本质上就是通过4个10G通道绑定起来,同时工作实现的,相当于4个10G在工作,只要有一路有问题,整个40G就无法再用了,故障率当然要比10G高,而且光模块还要实现4条光路的协调工作,出错概率自然更高。100G更是如此,有的就是通过10个10G通道绑定起来,还有的采用新的光技术,这些都会增加出错可能。更高速率的更不用提了,技术成熟度上就不高,像400G仍是实验室里的技术,2019年就要推向市场,必然出现一次故障率的小高潮,好在刚开始用量不会很多,随着技术的不断提升,相信也会像低俗模块那样逐渐稳定。试想20年前拿到GBIC的1G光模块去用,和现在用200G的感觉差不多,新品短期内故障率升高是必然。
 
好在,光模块的故障对业务冲击较小,数据中心的链路都是有冗余备份的,一条链路光模块出问题,业务可走其它链路,如果是CRC错包也可通过网管立即发现,及早做更换处理,所以光模块故障很少对业务有较大影响,极少数情况下,可能因为光模块引发设备端口故障,从而导致整个设备挂掉的情况,这种情况多是设备实现不合理导致的,很少出现,绝大多数的光模块和设备之间是松耦合的,虽然连接在一起,并没有耦合关系。所以虽然高速光模块使用中坏的比较多,但对业务冲击也没那么大,一般不会引起人们重视,发现故障直接更换掉,高速光模块的维保时间也长,故障了基本是免费的更换,损失也不大。
 
光模块的故障多表现在端口无法UP、光模块无法识别、端口CRC错包等现象,这些故障与设备侧、光模块本身和链路质量都有些关系,尤其是错报和无法UP,很难从软件技术上判断故障位置。有些还是适配类的问题,双方都没有问题,只不过相互之间没有调试和适配过,导致无法在一起工作,这种情况还不少,所以不少的网络设备都会给出适配的光模块清单,要求客户用自己适配过的光模块,这样才能保证稳定可用。若遇到了故障,最好用的方法依然是轮换测试,换链路光纤、换模块,换端口,通过这一系列测试确认到底是光模块问题,还是链路或设备端口问题,好在一般这类故障现象比较确定,遇到那种故障现象不固定的就难处理了。比如端口上有CRC错包,将光模块直接拔出来换一个新的,故障现象消失,再将原来的光模块换回来,故障不再复现,这就不好判断到底是不是光模块问题。这种情况在实际使用中也会经常碰到,这让人难做判断。
 
如何降低光模块的故障率?第一,抓好源头,更高带宽的光模块不要急于推向市场,要做好充分的实验,而且高速模块需要相应的设备配套实现,这些技术也需要完善才能成熟,新的高速模块要平滑地引入市场,不要简单地追求高速,现在网络设备都支持多端口捆绑,400G不行,就用4个100G捆绑也可以满足需求;第二,抓好高速光模块的引入,网络设备商和数据中心客户,在引入高速光模块上要慎重,增加对高速光模块的严格测试,坚决过滤质量上有缺陷的产品。现在市面上高速光模块市场竞争也比较激烈,都希望在新的高速模块上抢占先机,但质量和价格参差不齐,这就需要网络设备商和数据中心客户能加大考核力度,越是速率高的模块,越增加验证的复杂度;第三,光模块其实是一个集成度特别高的器件,露在外面的光纤通道和内部器件都比较脆弱,使用时要轻拿轻放,带上干净手套,避免落入灰尘,这些也会降低使用故障率,不用的光模块要带好光纤帽,放在袋子里。第四,尽量少的出现极限情况,比如100G的光模块长期在接近限速的情况下使用,200米距离的光模块,偏偏要在200米距离使用,这些极限边界值使用对光模块的损耗较大,它就像人一样,人在24~26度的空调房里工作,工作效率就高,到了35度外面的高温环境,注意力无法长时间集中,工作效率极低,到了40度以上,人都快中暑了还怎么工作。为光模块提供一个令其舒适的环境,能够有效延长光模块的使用寿命。
 
随着海量数据的增长,数据中心带宽需求越来越高,引入更高速的光模块成了必由之路,必须控制好其质量的问题。如果新的高速模块在市场上频繁碰壁,也难逃被淘汰的结果。当然,任何一种新技术都有一个走向成熟的过程,高速光模块也不例外,需要不断地技术创新,解决各种问题,提升模块质量,降低故障概率。高速光模块是模块厂商的利润引擎,是历代模块厂商的必争之地,必须要严控质量关。

关键字:数据中心

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^