【 ここから本文 】

データ・マネジメント

ソーシャルブックマークに登録 : Yahoo!ブックマークに登録 はてなブックマークに登録 del.icio.usに登録 newsing it!に登録 Buzzurlにブックマーク livedoorクリップに登録 Slashdotにタレコむ イザ!ブックマークに登録 Twitterでつぶやく
print 印刷用ページの表示


エンタープライズ検索テクノロジーの「着眼点」

企業ITインフラ上での位置づけを押さえ、導入に備えよう

(2006年09月19日)

検索技術に求められるもの

 検索は文字どおり、ユーザーが欲しい情報を探すためのサービスとして提供される。探す対象はファイルであったり人であったりとさまざまだが、いずれにせよ何か知りたいことにたどり着くことが目的であることには変わりない。

 企業内に限ったことではないが、データはものすごい勢いで膨張を続けており、人が情報を処理できる速度の向上よりもデータが増える速度のほうが圧倒的に速い(図1)。

 企業内では、特に、PCをはじめとするIT機器やオフィス・アプリケーションの普及によって、ワープロや表計算、プレゼンテーションなど各種ドキュメント・ファイルのデータが大量に蓄積されることとなった。

 それらのデータは、ストレージ・コストが急激に下落したこともあって積極的に削除されることもなく、日々膨張を続けている状況にある。「隠すなら森の中」ではないが、情報の中に情報が埋もれてしまうような光景は、今日、どこのオフィスにおいても見られる。

 また、一説によると、企業内のデータの8割は、リレーショナル・データベース管理システム(RDBMS)に格納されていない非構造化データだと言われる。SQLのような便利なツールが使えないとなると、ピンポイントで適切な情報にたどり着くのは非常に困難であるため、非構造化データから必要な情報を探し出すことを可能にする効率的な手法へのニーズは以前からあった。

 その1つの表れがナレッジ・マネジメントの分野でも見られたが、より直接的な問題解決手法として、ここにきて検索技術があらためて注目を集めることとなったわけだ。これが、今日的な意味でのエンタープライズ検索の出発点であると言える。


図1:ものすごい勢いで膨張を続けるデータ(資料:米国カリフォルニア大学バークレー校情報マネジメント&システム「How much information 2003 ?」)

エンタープライズ検索の定義と要件

 背景を整理したところで、エンタープライズ検索という技術分野の定義を試みたい。現時点では、次のようにとらえるのがわかりやすいのではないだろうか。

 「エンタープライズ検索とは、検索技術を用いて、社内の情報探索および情報共有の効率向上、ひいては全体業務の品質向上を図ることを目的に情報管理を実現する技術である」

 さて、「検索」という同じ言葉で呼ばれ、基本技術も似ているとはいえ、Web検索やインターネット検索と、企業内のイントラネットを対象とするエンタープライズ検索とでは、ユーザー・ニーズの点でいくつか違いが見られる。以下、代表的な違いを挙げ、この技術分野の要件を明らかにしてみたい。

【1】 ハイパーリンクが存在しない

 イントラネット内に複数のサイトが構築されるのは特に珍しいことではない。だが、そこには、インターネットのように、置かれたファイルの隅々にまでハイパーリンクが張り巡らされているわけではない。

 インターネットの世界でも、検索エンジンのクローラが巡回できない領域を「ディープWeb」と呼ぶことがあるが、イントラネットはそれこそディープWebの固まりのようなものである。そのため、ファイルのリンク構造に依存した設計では、ファイルの存在をとらえることさえままならない。

 詳しくは、セマンティクスの話と併せて後述したいが、ハイパーリンク情報が存在するか否かは、Webの世界で普及している検索エンジン・ベンダーと企業内検索に特化したエンタープライズ・ベンダーとにプレーヤーを2分し、それぞれに市場を形成させてしまっていることの大きな要因となっている。

【2】 RDBMSの存在

 当たり前の話だが、基幹系をはじめとする業務システムの多くはRDBMSを利用して構築されており、そこに膨大な業務データが格納されている。もちろん、ERPやCRMのような重要な業務であるからこそ多額のコストを投じてシステム化がなされているわけであり、これらが扱うデータが検索の対象にならないようでは意味がない。

 つまり、エンタープライズ検索においては、ファイルだけでなくデータベース内に格納されたデータも検索対象となるわけだ。なお、企業内データから必要な情報を検索する際の、RDBMSとエンタープライズ検索システムの違いは次節で詳しく述べることにする。

【3】 セキュリティの確保とアクセス権限

 企業内のデータの中には、職務上の権限がなければ閲覧してはならない、といったたぐいのものが多い。SOX法(Sarbanes-Oxley Act:米国企業改革法)を含めた証券関連法規制の強化もあって、今日、ポリシーの適用が中途半端なアクセス権を設定することは経営リスクを高めることになりかねない。

 よって、エンタープライズ検索は、単にユーザーが求めるデータを集めてアクセスできるようにすればよいというわけではなく、ディレクトリや他のアプリケーションに設定されている参照権限を検索エンジンが引き継ぐなどして、だれが、どのデータにアクセスしてよいのかといったセキュリティ・ポリシーを正しく適用したうえで運用する必要がある。

【4】 カスタマイズ

 企業内で使うということは、業務効率の向上が最終的な目的となるわけであり、導入方法は企業ごとに異なってくるはずだ。大規模システム/アプリケーションの構築経験が先例となるが、基本的な設計のよさに加え、カスタマイズがどのぐらい柔軟に行えるかといったことが重要なポイントとなろう。

 こうした要件の違いにより、Web検索とエンタープライズ検索は今のところまったく同じアプリケーションとして提供される状態には至っておらず、前述したように、顔ぶれを異にするメンバーによって別の市場が形成されているのである。

【COLUMN 01】
セマンティクスとメタデータ
──エンタープライズ検索を実現する技術・手法

渡辺 聡
 

 検索エンジンのコア技術の1つに、検索結果表示のランキングを決めるアルゴリズムがある。サービスとしてのWeb検索には、グーグルの「PageRank」以来、ファイル間のリンク構造を解析して個別のファイルの重要度を算定する手法が巧みに取り入れられてきた。

 しかし、本文でも述べているように、企業内に置かれているファイルにハイパーリンクが張られているケースはさほど多くない。特別な分類管理手法を採用しているのでもないかぎり、ディレクトリごとに分類して置かれているのが普通である。

 そこで、企業内データの重要度を算出し、ユーザーにとっての検索結果品質の向上(いわゆるレレバンシー〈Relevancy:適切さ、関連性〉の向上)を図るために行われているのが、セマンティクス(データの意味解析)とメタデータの利用である。

 以下に、ファストが開発したアルゴリズムを例にとって説明しよう。同社の検索エンジン検索結果は、ユーザーの属性や利用履歴傾向を解析したユーザー側のメタデータ(ユーザー・コンテクスト)とファイルを解析して得られたメタデータ(情報コンテクスト)のマッチングを行った後に導き出される。

 なお、ファイルの解析はファイル・データをクロールしてインデックスを作成する際に併せて行われ、各ファイルにメタデータが生成付与されて格納されるという仕組みになっている。

 そして、解析処理時には、作成者や更新日時、ファイル・タイプといったいわゆる属性情報にとどまらずファイル内部に書かれた内容の意味解析も行われ、固有名詞や頻出単語などがメタデータとして抽出され、分類情報として付加される。

 また、運用時には、企業固有の運用ポリシーなどがアプリケーション・コンテクストとして設定され、検索範囲の設定や表示順に影響を与えることになる(下図)。

 以上の処理プロセスをまとめると、ファイルから作成されたメタデータと利用場面などユーザー側のメタデータとのマッチングを基本に、運用管理者側で設定したフィルタを通過したうえで最終的な検索結果ランキングが決められるわけだ。

 また、企業内の非構造化データをピンポイントで探し出す仕組みは、セマンティクス分析関連の技術で実装されている。このセマンティクスは、Web検索エンジンでも採用されている取り組みだが、ソフトウェアに求められる基本要件が異なるため、基本技術は同じであっても実装方法は異なる。

 本文で述べている、Web検索サービスとエンタープライズ検索がそれぞれ別の市場を形成し、製品やサービスを提供するベンダーも分化するという見解の論拠は、ここにもある。


検索結果ランキングのメタデータとなる3つのコンテクスト

前のページへ < 1234 > 次のページへ



関連記事

▲ページの先頭へ戻る


特別企画

日立のストレージ・ソリューション

柔軟なデータ・マネジメント戦略でビジネスを加速させよ

“仮想化”を基盤とした総合力で、情報資産の活用を支援する日立製作所のストレージ・ソリューション

キーパーソン

アドビ システムズ

円滑なビジネス・コミュニケーションを実現する秘訣とは――アドビLiveCycle担当者に聞く

「必要な情報が理解できる形で伝わっていないという状況を改善したい」

データディレクトテクノロジーズ

「あらゆるデータソースに対するアクセスを提供する」――データディレクト幹部

DBコネクティビティの市場リーダーが語る技術と戦略

ETLツール活用

ETLツール「DataStage」の戦略的活用法

データ統合を強力に推進する情報資産管理基盤を使いこなすために

XML DBプロダクト・レビュー

「TX1」(東芝ソリューション)

自然言語処理機能で検索精度・速度が向上したXMLデータベース

データ統制

ビジネス・コンティニュイティでIT/IS部門が果たす役割

目指すは、ディザスタ・リカバリと事業継続マネジメントの“統合”

ディザスタ・リカバリの迷路を解く

複雑な状況の中、自社にとってのベスト・プランにたどり着くためには

エンタープライズ・データを守れ

担当者が負担に押しつぶされず、企業にとって価値のある情報を保護するために

ILMの導入で、IT運用コストを引き下げろ!

ILMを成功裏に導入するための“6つのステップ”

全社レベルでコンテンツを“統制”する「ECM」

今日のコンテンツ管理製品分野における最注目領域

過去のあらゆるデータをリカバリできるデータ保護技術「CDP」

データ・ロスとダウンタイムの最小化をも実現

コンプライアンスを重視したメール運用管理の実際

ECM/CMSではカバーしきれない最重要コンテンツ

“完全なる”ペーパーレス・オフィスの実現に向けて

「もはや企業に選択の余地はない!」

キャッチアップ

EMC、IBM、マイクロソフトの3社、CMSの相互運用仕様「CMIS」を共同開発

複数ベンダーのCMS/ECMを連携させるための仕様で、2009年中には標準化の見通し

米国小売企業の半数がデータ漏洩を経験――そのほとんどは公表されず

「われわれが耳にするよりはるかに多くの事件が起きている」

デデュープ、HDDスピンダウン、SSD――EMC幹部が最新技術を紹介

「ストレージ分野は今、正に大きな変革期を迎えている」

生誕10周年を迎えた「XML」――その普及・活用の進展度を知る

「もはや“空気”のような存在であり、必要不可欠なものに」

「データ品質がビジネスの成否を左右する」

TVJP栗原氏がデータ・アーキテクチャの全体最適化を提言

今、XMLデータベースが求められる理由

新たな利用領域を開拓しつつある第2世代の製品

2007 Officeの文書フォーマット「OOXML」を正しく知る

XMLは、これまでのOffice利用にまつわる課題を解決しうるか

エンタープライズ検索テクノロジーの「着眼点」

企業ITインフラ上での位置づけを押さえ、導入に備えよう

米国企業4社のビジネスGIS[先端活用事例]

GISとBIの統合でエリア・マーケティングが変わる!

ビジネス・インテリジェンス

ビジネス・インテリジェンス最新事情

ビジネス・インテリジェンス最新事情

組織と“個”の知的生産性を高める

データベース・トレンド

マイクロソフト、次期SQL ServerにBI技術「Gemini」を搭載へ

Geminiベースのセルフサービス分析機能でBIを強化(2008年10月7日)

IBM、初のインメモリDBを出荷――今年買収したソリッドのDBがベース

DB2/Informixと組み合わせたエディションも同時リリース(2008年6月24日)

サン、買収後初のアップグレード版「MySQL 5.1」をリリースへ

パーティショニング/イベント・スケジューリング機能などを強化(2008年4月14日)

「11gは顧客最優先版」――日本オラクル、Oracle DB新版のメイン機能を説明

自動管理、テスト作業軽減、ストレージ・コスト削減を実現(2007年9月3日)

イベント・リポート

【Computerworld Conference 2007 Fall】
ビジネスの核となる「情報・データ基盤」――どう強化し、どう活用すべきか

「新時代の情報系」に求められる技術と戦略

シマンテック

電子メールの保管・管理・検索を包括的に支援する、シマンテック「Enterprise Vault」の実力

(シマンテック)

日立製作所

今、求められる「情報統合」基盤の構築。そのカギは、日立が提供するETLツール「DataStage」

(日立製作所)

鉄飛テクノロジー

“Web 2.0時代のファイル検索”を提供。ファイル・サーバに特化した検索エンジン「FileBlog」

(鉄飛テクノロジー)

コグノス

意思決定/業務プロセスの緊密な統合を図る「コグノス・パフォーマンス・ソリューション」

(コグノス)

トレンド・ウォッチ

HP、最大容量820TBの“エクストリーム・ストレージ”「ExDS」を年内投入へ

主用途は膨大なメディア・データを収めるオンライン・コンテンツ・リポジトリ(2008年9月18日)

インテル、SAP、ネットアップ、ヴイエムウェアの4社、DRソリューションの共同検証を実施

各社製品でDR環境を構築し、ERPアプリの復旧を確認(2008年9月16日)

【IDC/Gartner調査】2008年2Qのディスク・ストレージ市場、容量・金額ともに2ケタ増を記録

総出荷容量は43%増の1,777PBへ――動画利用や各種法規制で需要が急増(2008年9月8日)

NECソフト、企業向けバックアップ・サービス「オンラインバックアップASP」を提供開始

データの種類やバックアップ・タイミングの指定が可能(2008年8月25日)

米国政府機関所有のノートPCで、暗号化されていたのはわずか3割

会計検査院が2007年9月時点のセキュリティ調査結果を報告(2008年7月30日)

新世代のテープ・ストレージが続々登場――より高密度、高速に

HPとソニーは新DATを共同開発。サンとIBMも1TBドライブをリリースへ(2008年7月16日)

マイクロソフトがOOXMLの相互運用性を強化、HTMLトランスレータを開発へ

Officeなどのプロトコル技術仕様も正式公開(2008年7月1日)

増え続けるストレージの電力・冷却コスト、2007年は全世界で13億ドルを突破

依然としてストレージ需要は旺盛、電力コストも増加の一途へ(2008年6月27日)

シマンテック、Xen仮想化技術をストレージ管理ソフトに統合

仮想マシンとストレージを単一コンソールで管理可能(2008年6月11日)

HP、BIワークロードの処理を効率化するDWHアプライアンス新版をリリース

短いクエリと大規模タスクをバランシング(2008年6月3日)

競争力の高いデータ管理基盤をいかに構築するか――ネットアップが提示する仮想化活用の実際

拡大するデデュープ市場を視野にストレージ・ポートフォリオを拡充(2008年4月21日)

IBM、データ・デデュープ技術のディリジェントを買収

データ管理における豊富なノウハウに基づくNetAppストレージ/仮想化製品群(2008年5月19日)

普及に拍車がかかるエンタープライズ検索、2012年には大規模企業の半数以上が導入

「エンタープライズ検索はシステム基盤のデフォルト機能になる」(2008年4月11日)

サイベース、独自手法の「リアルタイムBI」を披露

DBの差分ログをベースにデータを抽出・蓄積(2008年4月2日)

日本IBM、データ統合/管理ソフト「Information Server V8.1」を発表

IODコンセプトに基づき、企業内に分散する情報・データの統合を支援する製品(2008年3月6日)

[連載]バックアップ新論

第1回:デスクトップのバックアップ

第1ステップはユーザーへの喚起

第2回:データセンターのバックアップ

まずは経営上のリスクとコストとのバランスを評価

第3回:メッセージのバックアップ

内部統制に必須の重要課題に取り組む

第4回:ワークグループのバックアップ

「バックアップの盲点」をいかに克服するか

第5回:PDAのバックアップ

ネットワーク・デバイスとして管理する

第6回:ブランチ・オフィスのバックアップ

常に変化する“標的”を的確に“キャッチ”する

Weekly Ranking

集計期間:11/26〜12/02



Computerworld Global
米国
英国
中国
ドイツ
オーストラリア
シンガポール
その他の国