米国議会図書館、アマゾン、北米マツダの事例に見る大規模ストレージ管理のコツ|ストレージ|トピックス|Computerworld

CW_Welcomeバナー

header_cwr_head_mid_fl_logo

CW_ウルトラバナー_Topics02

CW_ウルトラバナー_Topics04

CW_ウルトラバナー_Topics05

CW_ウルトラバナー_Topics06

CW_ウルトラバナー_Topics07

CW_ウルトラバナー_Topics08

ストレージ

RSS
【事例】

米国議会図書館、アマゾン、北米マツダの事例に見る大規模ストレージ管理のコツ

課題も多いが解決方法も多い――超大規模ストレージへの取り組みからヒントを探る
(2011年10月28日)

 あなたがもし、データセンターのストレージ・システム管理がもう手に負えないとくじけそうになったら、「データベースのオブジェクトが4,500億個も存在している」、あるいは「毎週40TB(テラバイト)のデータが追加され続ける」、そのような環境で日々戦っている管理者のことを想像してみていただきたい。ここで紹介するのは、そんな大変なデータ環境に対処している組織の事例であり、きっとストレージ・システム管理のヒントになるはずだ。

 膨大な量のデータを管理するうえでは、巨大なファイルの保存と長期アーカイブの作成、そしてもちろん、保存されているデータへの容易なアクセスが課題となる。データ管理はこれまでも常にITの重要な役割だったが、「このところ大きな注目を集めており、市場はかつてない活況を呈している」と、米国WinterCorp Consulting Servicesのアナリスト、リチャード・ウィンター(Richard Winter)氏は語る。同社はビッグ・データを巡る動向を分析している。

 既存ベンダーも新興ベンダーも、ビッグ・データ管理を支援する新製品を続々と投入している。Hadoop、MapReduce、NoSQL、データ・ウェアハウジング・アプライアンス、ファイル・システム、アーキテクチャなど、多様な技術が進化を遂げ、データ管理の分野は盛り上がりを見せていると、ウィンター氏は指摘する。

 一部のIT組織は、ビッグ・データの管理につきまとう課題を嫌というほど知っている。米国議会図書館、米国Amazon.com、米国マツダノースアメリカンオペレーションズ(日本の自動車大手マツダの北米子会社の総称)では、この課題に対処するために、何千億個ものオブジェクトやペタスケールのストレージ・メディアの運用、データのタグ付けによる高速検索、エラーの根絶に向けた革新的なアプローチを導入している。

1. 米国議会図書館

 米国議会図書館は、毎年2.5PB(ペタバイト)のデータを処理している。1週間当たりでは約40TBだ。同図書館のエンタープライズ・システム・エンジニアリング担当グループ・チーフのトーマス・ユーケル(Thomas Youkel)氏は、数年後にはデータ・ロードが4倍になると見積もっている。同図書館には、歴史家へのデータの提供と、多様なフォーマットでの情報の保存という2つの任務があるからだ。

 議会図書館は2つのデータセンターで、600台のサーバに接続され、合計1万5,000~1万8,000枚の回転ディスクを搭載するストレージに情報を保存している。そのうち90%以上のデータ(3PB以上)がファイバチャネルSANに保存されており、残りはNASに保存されている。

 議会図書館は、保存している情報の一部がメタデータ(保存されているデータについてのデータ)で、そのほかが実際のコンテンツであるという点で、「興味深いモデル」だと、コンサルティング会社の米国StorageIOのアナリスト、グレッグ・シュルツ(Greg Schulz)氏は語る。メタデータを使っている組織は多いが、同図書館は、データ・ストアの規模の大きさに加え、収蔵物すべてにタグを付けているところがユニークだとシュルツ氏は説明する。収蔵物には、年代物の録音、ビデオ、写真、そのほかのメディアが含まれる。

 実際のコンテンツ(アクセスされることはめったにない)は、オフラインやテープで最適な状態で保存されており、場合によっては、サムネイルや低解像度コピーもディスクに保存されていると、シュルツ氏は語る。

 同図書館では現在、1つのデータベースにつき5億個程度のオブジェクトを保持している。だがユーケル氏は、この数が今後50億個に増えると予想している。それに備えて、ユーケル氏のチームは、同図書館の名前空間システムを再検討し始めている。「そうした膨大なオブジェクトを扱える新しいファイル・システムを模索している」(同氏)

 米国Gartnerのストレージ・アナリスト、ジーン・ルース(Gene Ruth)氏は、スケールアップやスケールアウトを適切に行うことが重要だと指摘する。データ・ストアが10PBを超える規模になると、データのバックアップやそのほかの処理にかかる時間と費用が跳ね上がる。ルース氏は、この問題に対処する1つのアプローチは、大部分のデータを扱うインフラをプライマリ・ロケーションで運用し、長期アーカイブ用ストレージをセカンダリ・ロケーションに置くというものだと語る。
 

記事詳細テキストバナー

ページの先頭へ戻る