Facebook闪存失效大规模研究三个结论

责任编辑:jackye

作者:赵为民

2015-12-14 09:11:29

摘自:中关村在线

在传统磁盘的应用环境中,一般开机故障率比较高,然后是稳定期,故障率维持恒定,最后经过长时间使用,故障率又上升。即闪存的故障率与闪存单元读取数据的操作关系不大,也就是闪存的寿命也几乎不受读操作影响,这一点是一致的。

如今,闪存已经在一些互联网数据中心中大量采用,然而,对于用户来说,闪存与传统硬盘有着很大的区别,而在应用过程中,则会出现不同的挑战。

前段时间卡耐基梅隆大学基于Facebook数据中心大量的PCIe闪存使用环境写过一篇论文《Facebook闪存失效大规模研究》。这个研究的结果时间跨度非常长,而且监控的数量也足够大,非常具有代表意义。

闪存数据中心的应用

  闪存数据中心的应用

下面我们来看一下这个研究结果的几点重要结论:

(1)闪存与传统硬盘的失效性不同。

在传统磁盘的应用环境中,一般开机故障率比较高,然后是稳定期,故障率维持恒定,最后经过长时间使用,故障率又上升。

而闪存的失效与传统的饿磁盘并不相同,闪存的失效并不是单纯地随闪存芯片磨损增加。它们历经几个明显的时期,与失效如何出现和随后如何被检测到相一致。如下图,闪存是开机故障率低,之后故障率有所提高,然后又是稳定期,最后故障率又提高。

Facebook闪存失效大规模研究三个结论

  ,

这种情况的出现是因为当闪存大规模使用时,质量不好的颗粒就会出现损坏,故障率上升。这时闪存可以通过OP(Over-provisioning,是指SSD给坏块预留的空间)的颗粒替换质量不高的颗粒,替换之后,闪存逐步进入稳定工作的状态,故障率降低,直至生命周期的末端,故障率提升。

(2)闪存读操作干扰情况并不普遍。

即闪存的故障率与闪存单元读取数据的操作关系不大,也就是闪存的寿命也几乎不受读操作影响,这一点是一致的。

Facebook闪存失效大规模研究三个结论

  闪存

(3)高温会带来高的失败率。

通过截流SSD操作看来可以极大地减少高温带来的可靠性负面影响,但是会带来潜在的性能下降。

温度过高会带来错误,导致失败。温度过低,也并不利于SSD性能的发挥。并且,在闪存产品的生产过程中,由于焊接等操作,也会对闪存产生直接的高温威胁,造成闪存出厂时就有了很高的故障率。

Greenliant通过对生产过程的技术把控,并且在生产前和生产后进行反复检测,保证在生产环境中不会出现像论文中提到的,如同facebook使用过程中由于温度升高,出现大量无法修复的错误造成设备故障。

以上这三点就是通过《Facebook闪存失效大规模研究》这篇论文,联系到实际的闪存使用中的一些总结。闪存产品的稳定性和可靠性是完全可以通过技术的手段来完善的。这就与不同厂商的技术有很大关系,目前国内的闪存厂商很多,但是整体来说,在技术方面还有很大的空间。但值得我们关注。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号