【 ここから本文 】
ビジネス・コミュニケーション
ソーシャルブックマークに登録 :
印刷用ページの表示
“使える!”ビジネス・インテリジェンス(BI)がやってきた
エンタープライズ検索との融合で、必要なデータへの直接アクセスが可能に
(2006年08月24日)
BI検索は何が違うか
最近、エンドユーザーはWebベースの検索エンジンに慣れ親しんでいるため、検索をBIへと拡張することにもあまり抵抗はないだろう。ほとんどトレーニングをしなくても、Web検索エンジンの高度検索と同様の機能をすぐに利用できるようになるはずだ。
ただし、エンタープライズ検索の仕組みは、Web検索エンジンのそれとは大きく異なる。今日のほとんどのWeb検索は、非構造型データをターゲットにしている。例えば、HTMLやPowerPointプレゼンテーション、PDFファイルなどだ。これらのリソースはドキュメント・オリエンテッドであるため、検索エンジンはデータの意味や関連性にインテリジェントな判断を下すことができる(Webページはこのプロセスを円滑にするための特殊なタグを含んでいる)。
対照的に、構造化データは一般的にこうした文脈的な情報を提供しない。データベースを開き、“part”という項目の数字を見ても、それが示す意味(パーツ番号か、単価か、在庫数か、倉庫の場所か)を直ちに理解するのは難しい。バヤ氏は、「この問題はメタ・データを利用することで、いずれ解決できるだろう」と見ている。確かに、データベースのXMLサポートなどによって、そうした方向に進んでいることは間違いない。しかしながら、「構造化データの大部分について言えば、今日の時点では簡単なソリューションは存在しない」(同氏)のも、また確かだ。
BIソフトウェアは、テンプレートや経験豊富なアナリストによるデータの関連性定義を用いることで、この問題を(一部ではあるが)解決している。このため、GoogleやX1など今日の検索エンタープライズ・エンジンの多くは、構造化データの検索をBIソフトウェアに任せ、結果だけを自前の検索インデックス・アイテムとフェデレート(連結)するようにしている。
他方、非構造化データにも課題はある。その1つは、物理的な量だ。IBMの情報管理戦略担当プログラム・ディレクター、マーク・アンドリューズ氏によると、典型的なビジネス・ユーザーは1日70通の電子メールをやり取りするという。従業員2万5,000人規模の企業であれば、年間5億通の電子メールを蓄積し、検索可能にしなければならない計算だ。これに他のドキュメント類(HTML、ワープロ、スプレッド・シート、プレゼンテーションなど)を加えると、企業が管理するデータは膨大な量になる。もし検索結果が数千件になったとすれば、どのように関連性をランクづけできるだろうか。
一方、グーグル・エンタープライズで製品開発のヘッドを務めるマシュー・グロッツバック氏は、「(エンタープライズ検索には)Web検索と違って、アルゴリズムをだまそうとするようなスパム・サイトは存在しないが、検索の傾向を判断するための大規模な利用データもない」と指摘する。グーグルはアルゴリズムを明らかにしていないが、同社では特殊なエントリに対して“該当性(authoritativeness)”のようなものを確立したい考えだ。
アルゴリズムの開発に積極的なIBMでは、エンタープライズ検索に関連性の加重係数をいくつか組み合わせて利用している。例えば、ユーザーのクリック・パターン、ドキュメント内におけるエントリの形式と位置(本文より目次を優先する)、メタ・データ(リンク先のテキストとドキュメント本文のテキストとで優先度が異なる)などだ。
現在の製品のほとんどは、特定のドキュメントやURLが必ず検索結果の上位に来るように、それらとの関連性を高めるための手法を用意している(例えば、“セクシャル・ハラスメント”を検索した場合、会社のポリシーがトップに来るように調整するなど)。また、多くの製品が、企業特有の専門用語でのカスタマイズを可能にする機能を搭載している。これにより、例えば“地区1”の検索を“東海岸”の検索と関連づけたりすることができるわけだ。



