【 ここから本文 】
Googleウォッチ
ソーシャルブックマークに登録 :
印刷用ページの表示
エンタープライズ検索テクノロジーの「着眼点」
企業ITインフラ上での位置づけを押さえ、導入に備えよう
(2006年09月19日)
検索技術に求められるもの
検索は文字どおり、ユーザーが欲しい情報を探すためのサービスとして提供される。探す対象はファイルであったり人であったりとさまざまだが、いずれにせよ何か知りたいことにたどり着くことが目的であることには変わりない。
企業内に限ったことではないが、データはものすごい勢いで膨張を続けており、人が情報を処理できる速度の向上よりもデータが増える速度のほうが圧倒的に速い(図1)。
企業内では、特に、PCをはじめとするIT機器やオフィス・アプリケーションの普及によって、ワープロや表計算、プレゼンテーションなど各種ドキュメント・ファイルのデータが大量に蓄積されることとなった。
それらのデータは、ストレージ・コストが急激に下落したこともあって積極的に削除されることもなく、日々膨張を続けている状況にある。「隠すなら森の中」ではないが、情報の中に情報が埋もれてしまうような光景は、今日、どこのオフィスにおいても見られる。
また、一説によると、企業内のデータの8割は、リレーショナル・データベース管理システム(RDBMS)に格納されていない非構造化データだと言われる。SQLのような便利なツールが使えないとなると、ピンポイントで適切な情報にたどり着くのは非常に困難であるため、非構造化データから必要な情報を探し出すことを可能にする効率的な手法へのニーズは以前からあった。
その1つの表れがナレッジ・マネジメントの分野でも見られたが、より直接的な問題解決手法として、ここにきて検索技術があらためて注目を集めることとなったわけだ。これが、今日的な意味でのエンタープライズ検索の出発点であると言える。
| 図1:ものすごい勢いで膨張を続けるデータ(資料:米国カリフォルニア大学バークレー校情報マネジメント&システム「How much information 2003 ?」) |
エンタープライズ検索の定義と要件
背景を整理したところで、エンタープライズ検索という技術分野の定義を試みたい。現時点では、次のようにとらえるのがわかりやすいのではないだろうか。
「エンタープライズ検索とは、検索技術を用いて、社内の情報探索および情報共有の効率向上、ひいては全体業務の品質向上を図ることを目的に情報管理を実現する技術である」
さて、「検索」という同じ言葉で呼ばれ、基本技術も似ているとはいえ、Web検索やインターネット検索と、企業内のイントラネットを対象とするエンタープライズ検索とでは、ユーザー・ニーズの点でいくつか違いが見られる。以下、代表的な違いを挙げ、この技術分野の要件を明らかにしてみたい。
【1】 ハイパーリンクが存在しない
イントラネット内に複数のサイトが構築されるのは特に珍しいことではない。だが、そこには、インターネットのように、置かれたファイルの隅々にまでハイパーリンクが張り巡らされているわけではない。
インターネットの世界でも、検索エンジンのクローラが巡回できない領域を「ディープWeb」と呼ぶことがあるが、イントラネットはそれこそディープWebの固まりのようなものである。そのため、ファイルのリンク構造に依存した設計では、ファイルの存在をとらえることさえままならない。
詳しくは、セマンティクスの話と併せて後述したいが、ハイパーリンク情報が存在するか否かは、Webの世界で普及している検索エンジン・ベンダーと企業内検索に特化したエンタープライズ・ベンダーとにプレーヤーを2分し、それぞれに市場を形成させてしまっていることの大きな要因となっている。
【2】 RDBMSの存在
当たり前の話だが、基幹系をはじめとする業務システムの多くはRDBMSを利用して構築されており、そこに膨大な業務データが格納されている。もちろん、ERPやCRMのような重要な業務であるからこそ多額のコストを投じてシステム化がなされているわけであり、これらが扱うデータが検索の対象にならないようでは意味がない。
つまり、エンタープライズ検索においては、ファイルだけでなくデータベース内に格納されたデータも検索対象となるわけだ。なお、企業内データから必要な情報を検索する際の、RDBMSとエンタープライズ検索システムの違いは次節で詳しく述べることにする。
【3】 セキュリティの確保とアクセス権限
企業内のデータの中には、職務上の権限がなければ閲覧してはならない、といったたぐいのものが多い。SOX法(Sarbanes-Oxley Act:米国企業改革法)を含めた証券関連法規制の強化もあって、今日、ポリシーの適用が中途半端なアクセス権を設定することは経営リスクを高めることになりかねない。
よって、エンタープライズ検索は、単にユーザーが求めるデータを集めてアクセスできるようにすればよいというわけではなく、ディレクトリや他のアプリケーションに設定されている参照権限を検索エンジンが引き継ぐなどして、だれが、どのデータにアクセスしてよいのかといったセキュリティ・ポリシーを正しく適用したうえで運用する必要がある。
【4】 カスタマイズ
企業内で使うということは、業務効率の向上が最終的な目的となるわけであり、導入方法は企業ごとに異なってくるはずだ。大規模システム/アプリケーションの構築経験が先例となるが、基本的な設計のよさに加え、カスタマイズがどのぐらい柔軟に行えるかといったことが重要なポイントとなろう。
こうした要件の違いにより、Web検索とエンタープライズ検索は今のところまったく同じアプリケーションとして提供される状態には至っておらず、前述したように、顔ぶれを異にするメンバーによって別の市場が形成されているのである。
【COLUMN 01】
セマンティクスとメタデータ
──エンタープライズ検索を実現する技術・手法
渡辺 聡
検索エンジンのコア技術の1つに、検索結果表示のランキングを決めるアルゴリズムがある。サービスとしてのWeb検索には、グーグルの「PageRank」以来、ファイル間のリンク構造を解析して個別のファイルの重要度を算定する手法が巧みに取り入れられてきた。
しかし、本文でも述べているように、企業内に置かれているファイルにハイパーリンクが張られているケースはさほど多くない。特別な分類管理手法を採用しているのでもないかぎり、ディレクトリごとに分類して置かれているのが普通である。
そこで、企業内データの重要度を算出し、ユーザーにとっての検索結果品質の向上(いわゆるレレバンシー〈Relevancy:適切さ、関連性〉の向上)を図るために行われているのが、セマンティクス(データの意味解析)とメタデータの利用である。
以下に、ファストが開発したアルゴリズムを例にとって説明しよう。同社の検索エンジン検索結果は、ユーザーの属性や利用履歴傾向を解析したユーザー側のメタデータ(ユーザー・コンテクスト)とファイルを解析して得られたメタデータ(情報コンテクスト)のマッチングを行った後に導き出される。
なお、ファイルの解析はファイル・データをクロールしてインデックスを作成する際に併せて行われ、各ファイルにメタデータが生成付与されて格納されるという仕組みになっている。
そして、解析処理時には、作成者や更新日時、ファイル・タイプといったいわゆる属性情報にとどまらずファイル内部に書かれた内容の意味解析も行われ、固有名詞や頻出単語などがメタデータとして抽出され、分類情報として付加される。
また、運用時には、企業固有の運用ポリシーなどがアプリケーション・コンテクストとして設定され、検索範囲の設定や表示順に影響を与えることになる(下図)。
以上の処理プロセスをまとめると、ファイルから作成されたメタデータと利用場面などユーザー側のメタデータとのマッチングを基本に、運用管理者側で設定したフィルタを通過したうえで最終的な検索結果ランキングが決められるわけだ。
また、企業内の非構造化データをピンポイントで探し出す仕組みは、セマンティクス分析関連の技術で実装されている。このセマンティクスは、Web検索エンジンでも採用されている取り組みだが、ソフトウェアに求められる基本要件が異なるため、基本技術は同じであっても実装方法は異なる。
本文で述べている、Web検索サービスとエンタープライズ検索がそれぞれ別の市場を形成し、製品やサービスを提供するベンダーも分化するという見解の論拠は、ここにもある。
| 検索結果ランキングのメタデータとなる3つのコンテクスト
|
【インタビュー】「検索エンジンは今やミッション・クリティカル・アプリケーションである」――ファストサーチCEOのレルヴィック氏


オラクルCEOのエリソン氏、エンタープライズ検索システムを世界初披露


【Oracle OpenWorld Tokyo 2006】































