取消
搜索历史
热搜词
原创
活动
创新2.0
I T
产业
当前位置:首页 >互联网•IT > 存储 > 存储系统 > 正文
澳大利亚税务局(ATO)的存储宕机报告出炉
来源:高端存储知识  :西瓜哥 2017-06-13 09:09:43
大家可能奇怪,XP7和3par是不同的平台,怎么能做同步复制?刚开始我也没有想明白,后来我像通了,应该是利好了HP XP7的异构虚拟化功能,把3par接管过去,采用卷镜像的方式来实现异构的同步复制。

\

Register的记者Simon Sharwood前两天说澳大利亚税务局(ATO)关于HPE 3PAR存储的两次宕机事件分析报告出来了。这估计是该记者最后一次报道这事了吧。

\

原来他前前后后写过好几篇文章追踪报导,说一直要追踪到调查报告出炉。

\

关于这事,HPE发言人也给记者发了一个官方的解释:

\

现在,这个调查报告终于出来了,发表在ATO的官网上,链接如下:

https://www.ato.gov.au/uploadedFiles/Content/CR/downloads/js39322_ATO-systems-report_w.pdf

大家也可以点击文后的<阅读原文>链接直接打开。

\

这份报告一共22页,还是有一些详细的信息。

比如,大家仔细看备注,发现HPE 3PAR的设备型号居然是高端全闪存阵列3PAR 20850,HPE推荐用这个当时(2015年)这个最新的型号来替换EMC的存储。两次出事的居然是高端存储,而且还是全闪。

\

但出事的原因,好像交代得不太清楚,最少说了下面几点吧:

1、SAN光纤问题。应该是3par 20850后面的磁盘框的SAS光缆有问题。第一和第二次都是由于光纤的问题触发的故障。至于为什么光纤会造成故障,报告也没有讲得太清楚。

2、硬盘的固件问题。可惜报告没有点名是那个厂商的硬盘。由于3par 20850是AFA,因此肯定是SSD盘。我知道三星应该是3par的SSD供货商之一,不知道这个是否是三星的SSD。固件的bug造成3par阵列不能复位SSD,这个原因里面提了。

当然,里面还提到了监控没有搞配好,导致故障前的警告没有第一时间自动回传给HPE。另外,这是一个turn key的项目,外包给了HPE,用户自己关注不够,而且可靠性设计不够好,更关注性能和成本了。比如备份的配置也放在同一个阵列,造成阵列故障的时候,备份也不能用。

(怎么感觉有点想西安地铁坏电缆的事件似的,看来HPE有低价中标的嫌疑)

但是,我看其一共用了两台3par的阵列,一个在悉尼数据中心,一个在悉尼西数据中心,采用异步复制的技术。虽然不能自动切换,但是一个数据中心故障后应该可以手工切换到另外一个中心才对啊?报告说没有进行过切换的演练,但是好像也没有做切换尝试,可能怕数据不完全一致吧?因为毕竟是异步复制(估计距离太远)。

文章最后说,要继续加强可靠性设计。今年年底要改成下图4阵列的形态。

\

看来客户还是觉得HP XP7(OEM自HDS)要更可靠性些,因此,打算上两套XP7做生产存储,分布放在两个数据中心,做异步复制。原来的3par存储作为开发测试环境使用,也做异步复制。但同一个数据中心内,XP7和3PAR做同步复制。

大家可能奇怪,XP7和3par是不同的平台,怎么能做同步复制?刚开始我也没有想明白,后来我像通了,应该是利好了HP XP7的异构虚拟化功能,把3par接管过去,采用卷镜像的方式来实现异构的同步复制。

另外,ATO已经把WEB服务器迁移到公有云上了,因为他们觉得公有云更安全一些。以后估计更多的应用会迁移到公有云。

据说现在3par的存储已经全部更换了,老的存储HPE 3PAR要拿回去再分析。也许有新的故障诊断发现也不一定。但我估计ATO的事件真相可能永远都不会大白于天下,但也无所谓,这份22页的报告还是看出ATO的一些改进的措施,其他用户如果关注关注存储的可靠性问题,也是可以仔细阅读,也许会有一些启发。

其实,上一套阵列双活加异地复制的两地三中心方案就比较理想了,这些故障也许都能避免。

编辑:田甜
关键字:     存储  数据中心  公有云 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。