障害・データ復旧

メディア解説:RAID:障害・データ復旧

RAIDはRedundant Arrays of Independent Disks(独立した複数のディスクの冗長性配列)の名の通り、複数のHDDで構成することによって冗長性を持たせ、データ消失の悲劇の発生を予防することを目的としているのだが、実際にその役目を完全に果たすことは難しいのが現実で、データ復旧業者に持ち込まれる例も少ないとはいえない。その原因は、単純には確率論でも説明することが出来る。つまり、システム全体の障害の発生率は、冗長性を持たせると、発生率(小数点以下)の“掛け算”になり、低下するのだが、HDDの個体数が増えることによる、“足し算”も成立するために、表面化しない故障(冗長化によってシステムダウンとして顕在化していない日常のメンテナンス)頻度は高くなり、そのメンテナンスを適切に行うことが必要条件として存在し、「RAIDの導入はその上での“データ消失予防策”」なのだ。

1. 1台Failしたら、直ぐ交換
既に記載したように、RAIDの故障率は1台の単独のHDDより故障発生確率は高くなり、0.1%の故障率のHDDを4台でRAID5を構成して場合は、故障率は0.4%と4倍になる。1台のHDDが故障してもRAIDの機能に助けられてシステムダウンが予防されているうちに適切にメンテを実施しないと、2台目がFailしてデータ消失の憂き目を見ることになる。特に、RAIDの場合は同一メーカ・同一製造ロットのHDDが使用されている可能性が高かく、ほぼ同時期に同一原因の故障の発生する可能性が高いと認識する必要がある。
2. 再構築(リビルト)の前にバックアップ
RAID構成のシステムで1台のHDDのFailを確認したら、すぐにHDDを交換しリビルトを開始、またはリビルトが自動起動するように設定されているケースが多いと思うが、データ復旧業者の視点では、「バックアップなしのリビルトは危険」である。特にリビルトの動作は、残存しているHDDのデータとパリティから、「FailしたHDDのデータを作り直す」が、このときのHDDは正に「フルパワー!アクセル全開!」の状態であり、HDDの発熱源はヘッドを駆動しているVCMのヘッドシーク頻度も想定を超えた状態となり、HDD全体の温度上昇を招き、2台目のHDDが故障する確率が高くなる。
3. HDDの脱着に注意
RAIDシステムに組み込まれているHDDを1台でも脱着すると、それをトリガーにリビルトが自動起動するシステムの場合、HDDを外して誤った順番にセットしてリビルトを行うと、データは完全に破壊され、データ復旧業者でも復旧不可能となる可能性が高い。
4. RAIDボードの互換性に注意
ハードウェアRAIDで、RAIDボードが原因で障害を起こすことが当然存在するが、同一メーカ・同一型番のボードでも、ファームが同一でない場合は互換性が保たれていない場合が存在し、最悪はHDD上に書き込まれている、RAID構成情報を破壊してしまう可能性も存在する。