PR
情報インフラの負担を軽減するデータ重複除外テクノロジ
文:EMCジャパン株式会社 マーケティング本部 羽鳥 正明
データ重複除外とは
昨今の企業情報システムでは、急激に増加する情報量によって、単に運用の負担が増えているだけでなく、実際の運用面ではさまざまな問題が表面化している。たとえば、バックアップ時間が長くなる、ネットワークの帯域を圧迫してしまう、データ量が予想以上に増加してしまうなど、当初の計画では想定していなかったことが起こっている。特にバックアップに関しては、従来の手法では対処が難しくなってきているといえる。
そこで登場するのが「データ重複除外(重複排除)」テクノロジである。データ重複除外とは、基本的には保存されるデータのうち、重複している部分を除外することだ。データ重複除外の目的は、データの保存を1回だけに済ませてバックアップを効率化することであり、バックアップ用のストレージ容量を減らすのに大きく寄与する。データ重複除外は急激に増加する情報に対し、情報インフラへの負担を軽減する重要なテクノロジである。
データ重複除外の利点
企業にとって、データ重複除外テクノロジの導入は非常に有効であり、以下のようなメリットがもたらされる。
●バックアップデータの保持期間延長
毎日バックアップを行う必要がある場合、重複除外を導入すると少ないストレージ容量でバックアップデータの保持期間を長くすることができる。
●コストの削減
データ重複除外は、必要なストレージ容量を削減できるため、ストレージ購入コストが抑えられ、消費電力の削減、冷却設備の削減にも貢献できる。また、ハードウェアのスペース効率も上がるので、設置費用も削減できる。
●毎日フルバックアップを取得
バックアップクライアント側でデータ重複除外を行うと、短い時間で毎日フルバックアップを実施できるようになる。毎日フルバックアップを実施すれば差分バックアップが必要なくなり、結果的にリストア作業が容易になる。
●ディスクバックアップの導入による性能向上
データ重複除外でデータが減ればストレージ容量も削減できるので、高性能なディスクバックアップも検討しやすくなる。ディスクバックアップはテープバックアップより、リストア時間が早く、しかも信頼性の高いバックアップ方法である。
●バックアップ用のネットワーク帯域削減
データ重複除外をソース側(バックアップ対象側)で実施した場合、ネットワークを流れるバックアップデータを最小限に抑えることができる。 結果的に、WAN経由で各拠点に点在するデータのバックアップを実行する場合に特に有効である。
データ重複除外の考え方
典型的なデータ重複除外はファイルを細かくブロックに分け、重複データを見つける手法である。サブファイルデータ重複除外テクノロジは、特に「同じファイルではないが、似たようなデータが多く存在する」場合に有効である(図1)。
●ソース側でのデータ重複除外
ソース(バックアップ対象サーバー)側でのデータ重複除外テクノロジは、パックアップストレージにデータを送る前にデータ重複除外を行うため、ネットワークに転送するデータを減らすことができる(図2)。バックアップウィンドウの短縮も可能となる。WAN経由のバックアップや、VMware環境のバックアップなど、バックアップに必要なネットワーク帯域が限られた環境に向いている。このソース側での重複除外は、専用ソフトウェアが必要となる。EMCジャパンの「EMC Avamar」やシマンテックの「Veritas NetBackup PureDisk」などが代表的な製品である。
●ターゲット側でのデータ重複除外
ターゲット(バックアップストレージ)側でのデータ重複除外は、一般的なバックアップソフトウェアを利用しつつ、新しい重複除外テクノロジを導入できることが大きなメリットである。ターゲット側でのデータ重複除外は、バックアップストレージ上にすべてのバックアップデータをいったん転送するため、バックアップ実行時のネットワーク使用率やバックアップウィンドウは通常のバックアップと同様となる。この種の製品は、ストレージ側に重複除外を組み込んでいる。データドメインの「非重複化(デデュープ)ストレージ」が代表的な製品である。




