2004年9月5日,某市国税局税务系统由于电压不稳定造成连接在IBM M80服务器上的 IBM 7133 磁盘阵列柜工作不正常,所有的报税数据都因为阵列的崩溃而丢失。国税局领导先是找硬件设备提供商来解决问题,硬件提供商检测了 Raid 卡和所有硬盘,均未发现硬件故障。硬件提供商又找到了IBM 高级工程师,经过一番抢救,最后宣布抢救失败。领导们还没放弃,因为这些数据实在是太重要了,没了这些数据,整个城市的税务统计将会陷入混乱状态,谁也负不起这个责任。硬件提供商是北京的一家IBM 服务器产品代理商,知道北京有专门从事数据恢复业务的公司,在互联网GOOGLE 搜索引擎搜索到了北京数十家从事数据恢复业务的公司,经过打电话咨询,发现这些公司技术水平各有差异,有的数据恢复公司说要把整个7133 阵列柜拿到北京才能恢复,有的说要把阵列卡和硬盘带上才能恢复,有的说只带硬盘就能恢复。恢复耗费时间有的公司说不能确定,有的说一个星期左右,有的说两到三天的时间。经过一番比较,最后领导们选择了我们数据恢复公司。 2004 年9 月6 日,国税局的人和硬件设备提供商将 8 块硬盘带到了北京做恢复。
经典案例描述
硬件环境:一台 IBM M80 和一台 IBM 7133 磁盘阵列。其中 7133 阵列挂接 8 块 SSA 接口硬盘, 1 到 4 号盘做一组 Raid5 , 5 到 8 号盘做一组 Raid5 。
软件环境: IBM AIX5.1 系统和 ORACLE8 数据库
二、故障描述
由于突然掉电, 7133 阵列从 IBM M80 中消失,通过后台管理察看,两组阵列中每组阵列各自有两块盘被踢出阵列,强行 ONLINE 也加不回到阵列中,在 AIX 系统层面上, IBM 高级工程师判断为不可恢复的。
三、恢复难点
1 、硬盘接口是 SSA 接口,这是 IBM 专门为 7133 阵列柜定做的一款特殊接口的硬盘,在 PC 机上没有办挂接这样接口的硬盘,它不同于 SCSI 接口,加一个 SCSI 卡就能挂接在 PC 机上。
四、故障分析
Raid5 出现两块或两块以上的硬盘掉线,通常是阵列信息出错或丢失引起的,在这种情况下,强制上线一块盘有时候能使阵列正常,但是在 IBM 7133 阵列上,所有的 Raid 信息配置都在 AIX 操作系统层面上做的,掉了两块盘,根本就没有强制上线这些选项。根据这些特征,重新配置 Raid5 还是解决不了问题,最根本的解决办法是,按照 Raid5 的数据组合方式,把每组阵列的数据重新组合,写到另一个配置好的阵列或者一个大的 SCSI 硬盘上,然后在 AIX 系统上导入原先阵列 VG 信息,数据也就出来了。
作为一个很专业的数据恢复公司,拥有自己独立知识产权的数据恢复工具“数据恢复巡洋舰”系列数据恢复软件。我们用“巡洋舰”分别对 8 个盘做镜像,经过 1 天的最底层的数据分析,从 8 块打散的硬盘中找出规律,然后用“护航舰” Raid 数据恢复工具把 8 块盘两组 Raid5 的数据重组到两块 SCSI 硬盘上,在 AIX 系统上导入,成功恢复出全部数据。
写在最后的话: 本文来自 护航时代
数据安全永远是相对的, IBM 7133 磁盘阵列柜在设计上无论在安全还是在性能上都是很出从,如果没有安全备份意识,再安全的存储设备也是不安全的。在这个案例上,如果数据在 7133 以外的存储设备上有备份的话,就没有必要花这么大的代价来做恢复工作了。 要提醒那些在数据安全备份还不够重视的领导们,从现在开始,就要做好相应的备份工作,数据安全是相对了。