EMC、グリーンプラムのプラットフォームに非構造化ビッグ・データ分析機能を追加
Hadoop開発者には1,000以上のノードから構成されるテスト・ベッドも提供EMCの子会社となったGreenplumは9月21日、同社の「Hadoop Data Computing Appliance(DCA)」に新機能を追加し、ユーザーが非構造化および構造化データのアナリティクス・プラットフォームを組み合わせられるようにしたと発表した。
またEMCは、「Apache Hadoop」ソフトウェアの統合テストを行う、1,000以上のノードから成る「Greenplum Analytics Workbench」テスト・ベッドについてもアナウンスしている。
同テスト・ベッドはHadoopのイノベーションを加速させる目的の下、Hadoopオープンソース・コミュニティに対し、バグを迅速に特定したり、新しいリリースを安定させたり、ハードウェア設定を最適化させたりするためのテスト・リソースを提供するという。すべてのテストおよびその結果は、Apache Software Foundationと同オープンソース・コミュニティに還元されることになる。EMCによるテストは、Apache Hadoopプロジェクトと連携して実施される予定だ。HadoopはGoogleが開発したオープンソース・ソフトウェア・プラットフォームで、大容量データを分析するのに利用できる。
Greenplumアプライアンスに関しては、EMCが「Modular Data Computing Appliance」と呼ばれる製品を販売している。ユーザーはこれを利用し、超並列リレーショナル・データベースとエンタープライズ規模のApache Hadoopを単一の統合アプライアンス内で組み合わせることで、構造化/非構造化データの処理が可能になる。
Greenplumは2010年10月にDCAを発売した。同製品のアップデート版には、2011年5月にリリースされたHadoopアプライアンスが含まれている。
Greenplum HD(Hadoop) DCAはIntel x86サーバをベースに開発され、EMCが2010年に買収したGreenplumが開発した構造化データベースと、HadoopのApacheオープンソース・バージョンの両方を使用する。同アプライアンスの旧版は、Sun Fire x64サーバを基にしていた。
Greenplumの共同創設者であり、EMCのデータ・コンピューティング部門製品副社長も務めるスコット・ヤラ(Scott Yara)氏によれば、管理者はGreenplumからHDFS(Hadoop File System)へのデータ読み込みおよび書き込みを同時に行うことができ、したがってすばやいデータ共有が実現するという。Greenplum SQLや、HDFS上のデータにアクセスする先進的なアナリティック機能を利用した、プラットフォーム横断分析も実行可能だ。
新たなModular DCAには、SAS Instituteの「 In-Memory Analytics」ソフトウェアとしてHPC(high-performance computing)モジュールが実装されたため、データベースなどの構造化データと構造化されていないファイル・データのどちらも処理できるようになるとヤラ氏は説明している。
SASソフトウェアの搭載により、構造化/非構造化データが複数のx86ホスト上に存在することが可能になったが、これはユーザーが1つのクラスタ・コンフィギュレーション内の各サーバ・ノード上のメモリにおいて、コンピューティング処理を行えるようにするための措置だ。
新たなModular DCAは現在製品トライアルの段階にあり、2011年末までに一般発売する見込みだと、ヤラ氏は話している。
(Lucas Mearian/Computerworld米国版)



























