戴尔服务器中有8组MDISK,硬盘故障离线,导致整个通用卷无法使用

戴尔服务器故障维修售后中心

戴尔服务器中有8组MDISK,其中一组MDISK中有一块硬盘故障离线,在热备盘启用并替换过程中,同组MDISK中的另一块硬盘也故障离线,导致热备盘同步失败,该组MDISK失效,从而导致整个通用卷无法使用。

【恢复方法】

1.我通过镜像软件对每一块磁盘都进行镜像操作,后期所有的数据恢复工作将在镜像盘上进行,原始磁盘始终保持原始状态,不影响数据。目的主要是为防止数据恢复过程中发生误操作情况,一旦操作失误将导致原盘数据的二次破坏,后期数据恢复难度将更大。

2.分析并重组MDISK,首先根据客户提供的一部分配置信息,把硬盘按照MDISK组进行分类。将每一组MDISK中的所有硬盘都进行分析,从而得到相关的RAID信息。使用专业的数据恢复软件进行MDISK的虚拟重组。

3.对所有MDISK进行分析,得到pool的相关信息。使用专业的数据恢复软件虚拟重组出pool。

4.掉盘分析。由于RAID5的固有特性我们知道RAID5最多能允许一块成员盘离线,也就是说如果有一块成员盘发生故障的情况下,RAID5还可以正常使用。所以可以结合之前存在RAID失效的情况判断当时有两块盘发生故障。

在对各成员盘中的底层数据进行分析后发现,有两块硬盘,在硬盘前部的数据完全一样,则判断两块盘中一块硬盘为热备盘,另一块硬盘为故障盘。

据此可以初步推断,RAID中有一块成员盘先发生故障,在热备盘进行同步的过程中,另一块成员盘也发生故障,导致RAID失效。后RAID恢复正常时,由于先发生故障的硬盘上的数据已经不是最新的,所以正常后的RAID中的数据出现部分错误。

5.对硬盘的RAID结构与成员盘的掉盘情况分析完成后,使用专业数据恢复软件完成对MDISK和pool的组建,并生成其中的数据。

【戴尔服务器RAID 5磁盘阵列算法原理】

分布式奇偶校验的独立磁盘结构(也就是我们称之为的RAID 5)数据恢复有一个“奇偶校验”概念需要理解。我们可以把它简单的理解成为二进制运算中的“异或运算”,通常使用的标识是xor。这个用运算的规则就是若二者值相同则结果为0,若二者结果不同则结果为1。