当前位置:安全企业动态 → 正文

企业该从携程的黑天鹅事件中学什么

责任编辑:editor006 作者:程小微 |来源:企业网D1Net  2015-05-30 07:27:00 本文摘自:百度百家

摘要 : 我们不得不承认,安全问题是一个相对的概念,公关是一个突发的事件。这些不确定性事件构成了黑天鹅事件,既然类似携程这种黑天鹅事件无法避免,那就想办法从中获取最大利益。

在澳大利亚的黑天鹅没有被发现前,人们认为所有的天鹅都应该是白色的;在昨晚的携程事件之前,99%的企业都会认为自己是不会出问题的。

5月29日1:30分,携程官方微博发布声明表示:经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。昨天携程的股价也出现下降。

从昨天的11:09分开始,直到晚上22:45分才基本恢复,此次携程网站崩溃事件共持续了近12个小时,无论从宕机时长还是从产生的影响,都会在以后被作为一个“著名”的案例被不断提及。

我们不得不承认,安全问题是一个相对的概念,公关是一个突发的事件。这些不确定性事件构成了黑天鹅事件,既然类似携程这种黑天鹅事件无法避免,那就想办法从中获取最大利益。每一件事情都会从波动得到利益或承受损失。脆弱是指因为波动和不确定而承受损失。反脆弱则是让自己避免这些损失,甚至因此获利。尼采名言:「杀不死我的,使我更强大」。所以,我们需要知道我们会被那些东西杀死,以及如何变得强大。

从携程的声明中表明,导致此次事件的直接原因是员工误操作造成,但请注意“应用”二字,作为一个十几年历史的公司、作为曾一度被认为仅有的几家因专注而著称的上市公司、一个后端还连接一个3万人的呼叫中心系统,对接国内外的海量的机票和酒店库存系统的在线海量交易平台,这的确是个令人沮丧的原因。我们可以通过防火墙、数据容灾备份、云存储等等方式,让数据更加安全,甚至准备了N套应急预案,所以外界一度猜测的“员工恶意物理删除数据库”、“黑客入侵”,如果存在的话应绝对不会花上近12个小时去解决。只有应用程序出错才会出现这种情况,这也印证了为什么会出现“写好的程序被删”的情况,也印证了为什么在所有代码都存在、数据库备份依然完好、数据没有丢失的情况下,恢复起来却如此漫长。

笔者比现在年轻10岁的时候,每次看到军事演习都会在心里暗暗的为如此大规模的浪费而惋惜,10年后,我知道这是错的。而企业灾备同理。灾备不是简单的存储、简单的备份,这些工作都是为了一个目的——数据恢复,我相信携程肯定会与自己的数据中心、自己的灾备系统、甚至自己的私有云等等。但很多企业,甚至可能包括携程在内,往往热衷于建立一个“高大上”的灾备中心,却忽略了备份演练,更不用说定期做演练,灾备中心变成了“观光中心”。

多备份CEO胡茂华认为,要防范此类异常情况,一是应用发布平台要改造,做好应用程序的动静态分离,制定并遵循严格的工作流审批发布程序;二是核心流程自动化测试,缩短应用上线服务验证时间;三是所有在线应用程序都要做备份和版本管理,需要一个可视化的集中管理平台维护最新版本和应用之间的关系;四是则是如上午提到的重视演练,灾难恢复要做到一周一小练,一月一大练。

资深运维从业者智锦认为,真正有效的根源解决做法是从黑盒运维(运维人员不断的去做重复性的操作,不知道应用的依赖关系,哪些配置是有效配置、哪些是无效配置)走向白盒运维。运维的核心和难点其实是配置管理,运维人员只有真正的清楚所管理的系统的功能和配置,才能从根源上解决到处救火疲于 奔命的情况,也才能真正的杜绝今天携程这样的事件重现,从根本上解决运维的问题。

运维派创始人赵广认为,虽然我们听到了No ops(不需要运维)的声音,但携程的这次事件再次向我们表明运维人员的重要作用,云计算、大数据、互联网+的繁荣,增大了基础设施的建设,系统的架构更加复杂、数据量更大,这些都是对运维的挑战,与其说是No ops,莫不如说是Not only ops!而在数据恢复方面,运维团队则需要多多思考数据备份归档后,是否有去校验数据备份完整性?是否有在日常去演练过数据容灾恢复流程?

此次事件对于携程来说当然是一件坏事,但却为众多的企业敲响了警钟,非常不可能发生和无法预测的事件,存在于世界上几乎每一种事物之中,墨菲定律也一再上演,企业需要将不确定性变成一件好事,同时,以反脆弱的方式建立各种业务,包括数据安全、灾备以及公关。

关键字:携程运维黑天鹅

本文摘自:百度百家

x 企业该从携程的黑天鹅事件中学什么 扫一扫
分享本文到朋友圈
当前位置:安全企业动态 → 正文

企业该从携程的黑天鹅事件中学什么

责任编辑:editor006 作者:程小微 |来源:企业网D1Net  2015-05-30 07:27:00 本文摘自:百度百家

摘要 : 我们不得不承认,安全问题是一个相对的概念,公关是一个突发的事件。这些不确定性事件构成了黑天鹅事件,既然类似携程这种黑天鹅事件无法避免,那就想办法从中获取最大利益。

在澳大利亚的黑天鹅没有被发现前,人们认为所有的天鹅都应该是白色的;在昨晚的携程事件之前,99%的企业都会认为自己是不会出问题的。

5月29日1:30分,携程官方微博发布声明表示:经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。昨天携程的股价也出现下降。

从昨天的11:09分开始,直到晚上22:45分才基本恢复,此次携程网站崩溃事件共持续了近12个小时,无论从宕机时长还是从产生的影响,都会在以后被作为一个“著名”的案例被不断提及。

我们不得不承认,安全问题是一个相对的概念,公关是一个突发的事件。这些不确定性事件构成了黑天鹅事件,既然类似携程这种黑天鹅事件无法避免,那就想办法从中获取最大利益。每一件事情都会从波动得到利益或承受损失。脆弱是指因为波动和不确定而承受损失。反脆弱则是让自己避免这些损失,甚至因此获利。尼采名言:「杀不死我的,使我更强大」。所以,我们需要知道我们会被那些东西杀死,以及如何变得强大。

从携程的声明中表明,导致此次事件的直接原因是员工误操作造成,但请注意“应用”二字,作为一个十几年历史的公司、作为曾一度被认为仅有的几家因专注而著称的上市公司、一个后端还连接一个3万人的呼叫中心系统,对接国内外的海量的机票和酒店库存系统的在线海量交易平台,这的确是个令人沮丧的原因。我们可以通过防火墙、数据容灾备份、云存储等等方式,让数据更加安全,甚至准备了N套应急预案,所以外界一度猜测的“员工恶意物理删除数据库”、“黑客入侵”,如果存在的话应绝对不会花上近12个小时去解决。只有应用程序出错才会出现这种情况,这也印证了为什么会出现“写好的程序被删”的情况,也印证了为什么在所有代码都存在、数据库备份依然完好、数据没有丢失的情况下,恢复起来却如此漫长。

笔者比现在年轻10岁的时候,每次看到军事演习都会在心里暗暗的为如此大规模的浪费而惋惜,10年后,我知道这是错的。而企业灾备同理。灾备不是简单的存储、简单的备份,这些工作都是为了一个目的——数据恢复,我相信携程肯定会与自己的数据中心、自己的灾备系统、甚至自己的私有云等等。但很多企业,甚至可能包括携程在内,往往热衷于建立一个“高大上”的灾备中心,却忽略了备份演练,更不用说定期做演练,灾备中心变成了“观光中心”。

多备份CEO胡茂华认为,要防范此类异常情况,一是应用发布平台要改造,做好应用程序的动静态分离,制定并遵循严格的工作流审批发布程序;二是核心流程自动化测试,缩短应用上线服务验证时间;三是所有在线应用程序都要做备份和版本管理,需要一个可视化的集中管理平台维护最新版本和应用之间的关系;四是则是如上午提到的重视演练,灾难恢复要做到一周一小练,一月一大练。

资深运维从业者智锦认为,真正有效的根源解决做法是从黑盒运维(运维人员不断的去做重复性的操作,不知道应用的依赖关系,哪些配置是有效配置、哪些是无效配置)走向白盒运维。运维的核心和难点其实是配置管理,运维人员只有真正的清楚所管理的系统的功能和配置,才能从根源上解决到处救火疲于 奔命的情况,也才能真正的杜绝今天携程这样的事件重现,从根本上解决运维的问题。

运维派创始人赵广认为,虽然我们听到了No ops(不需要运维)的声音,但携程的这次事件再次向我们表明运维人员的重要作用,云计算、大数据、互联网+的繁荣,增大了基础设施的建设,系统的架构更加复杂、数据量更大,这些都是对运维的挑战,与其说是No ops,莫不如说是Not only ops!而在数据恢复方面,运维团队则需要多多思考数据备份归档后,是否有去校验数据备份完整性?是否有在日常去演练过数据容灾恢复流程?

此次事件对于携程来说当然是一件坏事,但却为众多的企业敲响了警钟,非常不可能发生和无法预测的事件,存在于世界上几乎每一种事物之中,墨菲定律也一再上演,企业需要将不确定性变成一件好事,同时,以反脆弱的方式建立各种业务,包括数据安全、灾备以及公关。

关键字:携程运维黑天鹅

本文摘自:百度百家

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^