【 ここから本文 】

Googleウォッチ

ソーシャルブックマークに登録 : Yahoo!ブックマークに登録 はてなブックマークに登録 del.icio.usに登録 newsing it!に登録 Buzzurlにブックマーク livedoorクリップに登録 Slashdotにタレコむ イザ!ブックマークに登録 Twitterでつぶやく
print 印刷用ページの表示


Google ウォッチ

エンタープライズ検索テクノロジーの「着眼点」

企業ITインフラ上での位置づけを押さえ、導入に備えよう

(2006年09月19日)

検索技術に求められるもの

 検索は文字どおり、ユーザーが欲しい情報を探すためのサービスとして提供される。探す対象はファイルであったり人であったりとさまざまだが、いずれにせよ何か知りたいことにたどり着くことが目的であることには変わりない。

 企業内に限ったことではないが、データはものすごい勢いで膨張を続けており、人が情報を処理できる速度の向上よりもデータが増える速度のほうが圧倒的に速い(図1)。

 企業内では、特に、PCをはじめとするIT機器やオフィス・アプリケーションの普及によって、ワープロや表計算、プレゼンテーションなど各種ドキュメント・ファイルのデータが大量に蓄積されることとなった。

 それらのデータは、ストレージ・コストが急激に下落したこともあって積極的に削除されることもなく、日々膨張を続けている状況にある。「隠すなら森の中」ではないが、情報の中に情報が埋もれてしまうような光景は、今日、どこのオフィスにおいても見られる。

 また、一説によると、企業内のデータの8割は、リレーショナル・データベース管理システム(RDBMS)に格納されていない非構造化データだと言われる。SQLのような便利なツールが使えないとなると、ピンポイントで適切な情報にたどり着くのは非常に困難であるため、非構造化データから必要な情報を探し出すことを可能にする効率的な手法へのニーズは以前からあった。

 その1つの表れがナレッジ・マネジメントの分野でも見られたが、より直接的な問題解決手法として、ここにきて検索技術があらためて注目を集めることとなったわけだ。これが、今日的な意味でのエンタープライズ検索の出発点であると言える。


図1:ものすごい勢いで膨張を続けるデータ(資料:米国カリフォルニア大学バークレー校情報マネジメント&システム「How much information 2003 ?」)

エンタープライズ検索の定義と要件

 背景を整理したところで、エンタープライズ検索という技術分野の定義を試みたい。現時点では、次のようにとらえるのがわかりやすいのではないだろうか。

 「エンタープライズ検索とは、検索技術を用いて、社内の情報探索および情報共有の効率向上、ひいては全体業務の品質向上を図ることを目的に情報管理を実現する技術である」

 さて、「検索」という同じ言葉で呼ばれ、基本技術も似ているとはいえ、Web検索やインターネット検索と、企業内のイントラネットを対象とするエンタープライズ検索とでは、ユーザー・ニーズの点でいくつか違いが見られる。以下、代表的な違いを挙げ、この技術分野の要件を明らかにしてみたい。

【1】 ハイパーリンクが存在しない

 イントラネット内に複数のサイトが構築されるのは特に珍しいことではない。だが、そこには、インターネットのように、置かれたファイルの隅々にまでハイパーリンクが張り巡らされているわけではない。

 インターネットの世界でも、検索エンジンのクローラが巡回できない領域を「ディープWeb」と呼ぶことがあるが、イントラネットはそれこそディープWebの固まりのようなものである。そのため、ファイルのリンク構造に依存した設計では、ファイルの存在をとらえることさえままならない。

 詳しくは、セマンティクスの話と併せて後述したいが、ハイパーリンク情報が存在するか否かは、Webの世界で普及している検索エンジン・ベンダーと企業内検索に特化したエンタープライズ・ベンダーとにプレーヤーを2分し、それぞれに市場を形成させてしまっていることの大きな要因となっている。

【2】 RDBMSの存在

 当たり前の話だが、基幹系をはじめとする業務システムの多くはRDBMSを利用して構築されており、そこに膨大な業務データが格納されている。もちろん、ERPやCRMのような重要な業務であるからこそ多額のコストを投じてシステム化がなされているわけであり、これらが扱うデータが検索の対象にならないようでは意味がない。

 つまり、エンタープライズ検索においては、ファイルだけでなくデータベース内に格納されたデータも検索対象となるわけだ。なお、企業内データから必要な情報を検索する際の、RDBMSとエンタープライズ検索システムの違いは次節で詳しく述べることにする。

【3】 セキュリティの確保とアクセス権限

 企業内のデータの中には、職務上の権限がなければ閲覧してはならない、といったたぐいのものが多い。SOX法(Sarbanes-Oxley Act:米国企業改革法)を含めた証券関連法規制の強化もあって、今日、ポリシーの適用が中途半端なアクセス権を設定することは経営リスクを高めることになりかねない。

 よって、エンタープライズ検索は、単にユーザーが求めるデータを集めてアクセスできるようにすればよいというわけではなく、ディレクトリや他のアプリケーションに設定されている参照権限を検索エンジンが引き継ぐなどして、だれが、どのデータにアクセスしてよいのかといったセキュリティ・ポリシーを正しく適用したうえで運用する必要がある。

【4】 カスタマイズ

 企業内で使うということは、業務効率の向上が最終的な目的となるわけであり、導入方法は企業ごとに異なってくるはずだ。大規模システム/アプリケーションの構築経験が先例となるが、基本的な設計のよさに加え、カスタマイズがどのぐらい柔軟に行えるかといったことが重要なポイントとなろう。

 こうした要件の違いにより、Web検索とエンタープライズ検索は今のところまったく同じアプリケーションとして提供される状態には至っておらず、前述したように、顔ぶれを異にするメンバーによって別の市場が形成されているのである。

【COLUMN 01】
セマンティクスとメタデータ
──エンタープライズ検索を実現する技術・手法

渡辺 聡
 

 検索エンジンのコア技術の1つに、検索結果表示のランキングを決めるアルゴリズムがある。サービスとしてのWeb検索には、グーグルの「PageRank」以来、ファイル間のリンク構造を解析して個別のファイルの重要度を算定する手法が巧みに取り入れられてきた。

 しかし、本文でも述べているように、企業内に置かれているファイルにハイパーリンクが張られているケースはさほど多くない。特別な分類管理手法を採用しているのでもないかぎり、ディレクトリごとに分類して置かれているのが普通である。

 そこで、企業内データの重要度を算出し、ユーザーにとっての検索結果品質の向上(いわゆるレレバンシー〈Relevancy:適切さ、関連性〉の向上)を図るために行われているのが、セマンティクス(データの意味解析)とメタデータの利用である。

 以下に、ファストが開発したアルゴリズムを例にとって説明しよう。同社の検索エンジン検索結果は、ユーザーの属性や利用履歴傾向を解析したユーザー側のメタデータ(ユーザー・コンテクスト)とファイルを解析して得られたメタデータ(情報コンテクスト)のマッチングを行った後に導き出される。

 なお、ファイルの解析はファイル・データをクロールしてインデックスを作成する際に併せて行われ、各ファイルにメタデータが生成付与されて格納されるという仕組みになっている。

 そして、解析処理時には、作成者や更新日時、ファイル・タイプといったいわゆる属性情報にとどまらずファイル内部に書かれた内容の意味解析も行われ、固有名詞や頻出単語などがメタデータとして抽出され、分類情報として付加される。

 また、運用時には、企業固有の運用ポリシーなどがアプリケーション・コンテクストとして設定され、検索範囲の設定や表示順に影響を与えることになる(下図)。

 以上の処理プロセスをまとめると、ファイルから作成されたメタデータと利用場面などユーザー側のメタデータとのマッチングを基本に、運用管理者側で設定したフィルタを通過したうえで最終的な検索結果ランキングが決められるわけだ。

 また、企業内の非構造化データをピンポイントで探し出す仕組みは、セマンティクス分析関連の技術で実装されている。このセマンティクスは、Web検索エンジンでも採用されている取り組みだが、ソフトウェアに求められる基本要件が異なるため、基本技術は同じであっても実装方法は異なる。

 本文で述べている、Web検索サービスとエンタープライズ検索がそれぞれ別の市場を形成し、製品やサービスを提供するベンダーも分化するという見解の論拠は、ここにもある。


検索結果ランキングのメタデータとなる3つのコンテクスト

前のページへ < 1234 > 次のページへ



関連記事

▲ページの先頭へ戻る


スポットライト「Google Chrome」

Google Chromeの利用率が早くも下降曲線――先週のWebブラウザ市場

IEやFirefoxは逆にシェア回復へ

Google Chromeが“Windowsの次”を担うキラー・アプリとなる可能性は?

「Internet Explorerのシェアを奪うことすら困難」と指摘する専門家も

企業はIEからGoogle Chromeに乗り換えるか――最大の懸念は既存アプリとの連携

「企業のブラウザ選定はすでに終わっている」との声も

Google Chromeに早くもセキュリティ不安――研究者が複数の脆弱性を指摘

ファイルのダウンロードに注意。悪意あるコードを勝手に実行してしまう可能性も

グーグルのブラウザ市場参入は脅威ではない――モジラら競合各社は表向き平静

一様に歓迎の意を示しつつ、自社ブラウザの優位点をアピール

グーグル幹部、新ブラウザ「Google Chrome」への注力姿勢を鮮明に

「次世代Webアプリにはすぐれたブラウザが必要」と指摘

“グーグル・ブラウザ”がついに登場――9月2日にリリースされる「Google Chrome」

HTMLレンダリング・エンジンに「WebKit」を採用したオープンソース・ブラウザ

スポットライト「Google Street View」

Google Street Viewの「日本の風景」が投じた波紋

技術進化とプライバシー保護のはざまでわき起こった論争から、地図情報サービスの将来を考える

グーグル、モバイル版Google Mapsに「Street View」を追加

歩行者向け道案内「Walking Direction」も新設

グーグル、「Street View」フランス版に着手――パリ市街を撮影開始

ただしプライバシー保護の観点からサービス開始は困難との声も

キーパーソン

政府保有の無線周波数帯を民間企業に開放せよ――グーグル創業者のペイジ氏

大統領選前の開放を迫る。開放慎重派は氏の見解に反論

「OHAへの共通理解があるから、技術的な細分化は生じない」――グーグルのAndroid担当者

「OHA各社独自のアプリケーションや機能の乱立」という懸念に答える

次世代の検索技術においても“主役の座”は渡さない

グーグル幹部、ビデオ/セマンティック/ユニバーサル検索の現状と問題点を語る

グーグル幹部、R&Dセンターの国際展開構想を語る

「グーグルは、R&Dもグローバルに考える」

「ニュースの収集・インデックス化は公正利用の範囲内」

グーグル幹部が語るGoogle Newsのポリシー

グーグル幹部、エンタープライズ分野への意気込みを語る

「ITマネジャーやCIOにも十分食い込める」

「auとの提携で何を目指すのか」

グーグルのモバイル担当責任者に聞く

「検索は引き続き事業の中核」

グーグルCEOのシュミット氏が強調

キャッチアップ

アプリ開発者がグーグルに突きつけた「Google App Engine」への要望と期待

注目のクラウド開発環境に対する“熱き思い”にグーグルはどう応えるのか

「Gmail障害」の対処に奔走するグーグル――なお残る不透明感

可用性への懸念高まるなか、Google Appsは引き続き企業に受け入れられるか

グーグル、豪華な福利厚生の大半を廃止へ――同社を去る従業員が増加

厚遇を当然と考える従業員の“あつかましさ”に対する経営陣の結論

「Gmail」が2週間で3回のサーバ・エラーに見舞われる

度重なる「502 Server Error」に、ユーザーから不満噴出

「Google Gadgetsを悪用すれば、マルウェアを強制インストールできる」――専門家が警鐘

パスワードの盗難や検索履歴が読み取られるおそれも

グーグルが「Google Search Appliance」を強化、検索文書数を1,000万に拡張

検索結果の制御もより細分化

グーグル、Wikipedia対抗の知識共有サイト「Knol」を一般公開

記事投稿は実名で。読者はコメントやレビューを記入可能

グーグル、プライバシー擁護団体の要請に対応――ホームページの「総ワード数」を変えずにリンクを追加

SEO専門家を悩ませるトップ検索エンジンの謎

“Microhoogle熱”の終焉――ヤフー争奪戦の成れの果て

イノベーション創出のため、Web 2.0を製品戦略に取り入れるベンダー各社

Google Miniが機能強化、文書の重み付けなどが可能に

「検索市場で勝ち続けるというグーグルの意欲の表れ」とアナリスト

エンタープライズ検索テクノロジーの「着眼点」

企業ITインフラ上での位置づけを押さえ、導入に備えよう

エンタープライズGoogle「期待の声」と「死角」

Web検索エンジンの覇者、“ファイアウォールの内側”に挑む

トレンド・ウォッチ

創業10周年のグーグル、エンタープライズ事業への注力をあらためて明言

「クラウド・コンピューティング・モデルでエンタープライズ市場を変革する」(2008年09月09日)

グーグル、「Google Apps」の機能拡充を表明――ただし詳細は語らず

サービス拡充に伴う料金引き上げはないもよう(2008年08月06日)

グーグル、Web上のユニークURL数が1兆を突破したと報告

「世界中の全データをインデックス化するのが目標」――原点の検索エンジンに注力(2008年07月28日)

マイクロソフト、ヤフーとグーグルの提携を「反競争的行為」と批判

「提携は市場競争の後退招く」と反トラスト法小委員会へ訴え(2008年07月16日)

開発者ブログで明かされた、ノキア製デバイスに「Android」を搭載する“ワザ”

開発者らは「Androidの実用化に大きく貢献した」と評価(2008年07月08日)

グーグル vs. ルイ・ヴィトン、AdWordsを巡る商標権侵害裁判は欧州裁判所へ

各種データをローカルDBに保存(2008年06月05日)

グーグルがカスタム検索サービスを強化、名称も「Site Search」に変更

検索オプションや詳細インデックス機能を改良(2008年06月04日)

グーグル、Android搭載携帯電話のデモを披露――お手本はiPhone?

「iPhoneのようにすぐれたWebブラウザ機能を組み込むことが目標」(2008年05月29日)

グーグル、健康記録管理サービス「Google Health」の一般提供を開始

患者がみずからの記録をオンラインで一括管理可能に(2008年05月20日)

グーグル、Webサイトにソーシャル機能を追加する「Friend Connect」を発表

OpenSocialの採用によりSNS間のデータ・ポータビリティに対応(2007年04月17日)

グーグル、企業向けWebセキュリティ・ホスティング・サービスを発表

Google Appsの1サービスとして、年額36ドルから提供(2008年05月09日)

「ベライゾンを信用するな」――グーグル、無線700MHz帯でFCCに申し立て

オープン・アクセス条項を順守するようベライゾンへの“指導”を要請(2008年05月07日)

グーグル、モバイル・バナー広告市場に参入

バナーのクリック数に応じた広告料設定でライバルより優位に(2008年04月24日)

世界の企業ブランド・ランキング、グーグルが3年連続で首位を堅持

マイクロソフトは3位、ヤフーはトップ10圏外(2008年04月22日)

グーグルのWebアプリ、XSS攻撃のターゲットに

サイト管理者によるコンテンツ情報の提供を容易に(2008年04月17日)

グーグル、Web解析ソフト新版「Urchin 6」をようやく出荷――予定より3年半の遅れ

扱いに困窮? ユーザーには「Google Analytics」のほうを推奨(2008年04月17日)

セールスフォース、SalesforceにGoogle Appsを統合

Salesforce上でGmailなどがシームレスに利用可能に(2008年04月14日)

グーグル、ラジオ広告事業の強化に向け「Google Radio Automation」を発表へ

ラジオ局業務の自動化ソフトを機能拡張(2008年04月14日)

グーグル、クラウド開発ツール「Google App Engine」をリリース

購入情報を保存・管理し、電子商取引を効率化(2008年04月09日)

Weekly Ranking

集計期間:11/25〜12/01



Computerworld Global
米国
英国
中国
ドイツ
オーストラリア
シンガポール
その他の国