7年近くの歳月をかけてついに正式版リリースとなった「Apache Hadoop 1.0.0」
目玉機能はKerberosベースのセキュリティ、WebHDFS REST API、HBase7年近くに及ぶ開発と微調整を経て、オープンソースの大規模分散並列処理フレームワークの正式版「Apache Hadoop 1.0.0」が2011年12月27日、同ソフトウェアのプロジェクト・チームによって公開された。
Apache Hadoopプロジェクト・チームのバイス・プレジデント、アルン・マーシー(Arun Murthy)氏は、「ユーザーには、このリリースがオープンソース・コミュニティによってサポートされることを確信してもらえる。使いたい機能によって、使うべきHadoopのバージョンが違うという混乱はもう解消された」と述べている。
マーシー氏は、このリリースは、特に、新たに追加された3つの機能のおかげで、「1.0.0」という呼称に値するものになったと説明している。その機能の1つが、エンドツーエンドのセキュリティだ。Hadoop 1.0.0では、ネットワーク認証プロトコル「Kerberos」を使って、マスター-スレーブ間などネットワーク全体にわたってセキュリティを確保できるようになった。このため、企業は自社のHadoop環境で機密個人データを扱える。
もう1つの主要な新機能は、「WebHDFS REST API」だ。このAPIにより、Hadoopは、管理者やプログラマーになじみ深いWebの技術を使って操作することが可能になり、より多くの企業が導入しやすいものとなっている。
もう1つの主要新機能は、オープンソースの分散データベース「Apache HBase」がフルに利用できることだ。HBaseにより、管理者は使い慣れたリレーショナル・データベース風の構造でデータを保存できる。
Hadoopは、オープンソース検索エンジン「Lucene」プロジェクトの創設者、ダグ・カッティング(Doug Cutting)氏がマイク・カファレラ(Mike Cafarella)氏とともに2005年に、米国Googleの「MapReduce」アルゴリズムの実装として開発した。MapReduceは、多数のサーバに分散されたデータを分析するためのプログラミング・モデル兼ソフトウェア・フレームワークである。カッティング氏はその後、米国Yahoo!で同社の検索サービスにHadoopを利用するための取り組みに携わった。この取り組みによるHadoop実装は最終的に、4万台以上のサーバで利用されるようになった。
Hadoopは、しばしば“ビッグ・データ”と呼ばれる大規模データ・セットの保存と分析に利用できる。当初は大規模検索サービスの支援を目的としていたが、企業でも導入が広がっていると、マーシー氏は述べている。Hadoopプロジェクトは、コードのコミッターが少なくとも35人いて、そのほかに数百人の貢献者がいる。
Hadoopは、従来のリレーショナル・データベースには大きすぎるデータ・セットを扱う場合や、大量のデータを収集しているもののそれらに対してどのような分析を行うべきかがまだわからない場合に便利だ。米国JPMorgan Chaseは、Hadoopを不正検出やリスク管理に利用している。米国EBayも、Hadoopを使って自社のオークション・サービスの新しい検索エンジンを開発している。
また、Hadoopは多くのベンダーがサポートしている。新興企業の米国Cloudera、米国Hortonworks(Yahoo!からのスピンオフ企業)、米国MapRは、商用のHadoopディストリビューションを提供中。米国IBMはデータ分析パッケージ「InfoSphere BigInsights」にHadoopを統合済みだ。米国Microsoftもクラウド・サービス「Windows Azure」でHadoopを運用している。
(Joab Jackson/IDG News Serviceニューヨーク支局)



























