【 ここから本文 】

ポータル/検索サイト

ソーシャルブックマークに登録 : Yahoo!ブックマークに登録 はてなブックマークに登録 del.icio.usに登録 newsing it!に登録 Buzzurlにブックマーク livedoorクリップに登録 Slashdotにタレコむ イザ!ブックマークに登録 Twitterでつぶやく
print 印刷用ページの表示


【インタビュー】
「次世代の検索技術においても“主役の座”は渡さない」――グーグル幹部

ビデオ/セマンティック/ユニバーサル検索の現状と問題点を語る

(2007年10月31日)

Webホスティング型コラボレーション/コミュニケーション・ソフトウェア・スイート「Google Apps」など、最近は検索エンジン以外の製品でも注目を集める米国グーグルだが、同社の収入の大半は、依然として検索技術と検索連動型の広告システム/ネットワークによって占められている。そんななか、グーグルの検索関連製品を統括する、検索製品&ユーザー・エクスペリエンス担当バイスプレジデント、マリッサ・メイヤー氏がIDG News Serviceのインタビューにこたえ、ビデオ検索、セマンティックvs.キーワード検索、ユニバーサル検索への取り組み、「ディープWeb」インデックス化への挑戦など、検索技術の現状と将来、問題点などについて語った。

ホアン・カルロス・ペレス
IDG News Service マイアミ支局

――ビデオ検索技術には複数の異なるアプローチがある。例えば、米国ブリンクスがその優位性を主張しているビデオ検索技術「Blinkx」は、音声認識技術を用い、ビデオ音声からテキストを抽出してインデックス化するものだが、グーグルのビデオ検索技術は現在どこまで進んでいるのか。

 「Google Video」は興味深い進化を遂げている。立ち上げ当初のGoogle Videoはクローズド・キャプション(米国のTV放送で耳の不自由な人向けに提供している字幕)に基づいており、言ってみれば、そのプログラムを転写したものにすぎなかった。例えば、ビデオを再生するようなことは不可能だったのだ。その弱点を補うべく、その後、ビデオ再生が行えるようにもしたし、最近はメタ・コンテンツに基づく検索も行っている。いずれにせよ、音声認識が検索分野で期待されている技術の1つであることは確かだろう。

 現在、当社は米国で地域情報に関する無料電話サービス「1-800-GOOG411」を提供している。これがビジネスとして成り立つかどうかはまだ不透明だが、個人的には少々難しいのではないかと思っている。にもかかわらずこのサービスを立ち上げたのは、音声をテキストに変換するモデルを構築してみたかったからだ。このモデルが確立すれば、ビデオ検索などさまざまな取り組みに活用することができるわけだ。

 当社の音声認識技術の専門家からは、「真に堅牢な音声認識モデルを構築するには、できるだけ多くの音素(特定のイントネーションの声を構成する音節)を集めてほしい」との要望が寄せられている。その要望に沿って、さまざまな人が話す声をできるだけたくさん収集し、音声認識モデルの基盤にしたいと考えている。

 1-800-GOOG411サービスも、その一環として開始したものだ。多くの音声サンプルを集めることで、顧客から電話がかかってきたときやビデオの音声をテキスト化するときに、きわめて正確に動作する音声認識技術を開発しようというわけだ。

――ビデオ・クリップに含まれるアクションなど、音声以外のコンテンツ認識についてはどう対処しようとしているのか。

 当社が採用している大半のアプローチはテキスト・ベースなので、音声以外のコンテンツを認識するのは現段階ではかなり難しい状況にある。優れた音声−テキスト変換モデルを構築し、最終的にテキストを引き出す――これが私たちが目指している方向性なのだ。とはいえ、実際のフレーム内には、必ずしも言葉では表されないユーモアや状況などが存在するのも事実だ。これらについては、現時点では、コミュニティによるタギングなどに頼らざるをえないだろうと考えている。

 ビデオに映されている顔やボールなど特定物体の認識/理解については、いくつか研究も行われているが、まだまだほんの入り口にすぎず、商用アプリケーションで展開するような段階にはまったく至っていないのだ。

――グーグルのクエリ分析技術が自然言語認識――つまり1つの文を丸ごと理解すること――に基づいておらず、キーワードに基づいていることに対して、批判的な意見もあるが。

 キーワードに基づく検索技術は、確かに今日、グーグルが非常に得意としている分野だ。しかしながら、この方式には限界があるのも事実で、いつかは検索エンジンが乗り越えなければならない技術だとも考えている。将来的には、人々が質問のかたちで、あるいは概念レベルで検索できるようになるべきだし、グーグルとしてはその質問の意味を理解できるようにしておく必要がある。

 実は、今も、ユーザーからは概念ベースでの質問(検索)が多く寄せられている。具体的には、特定の言葉が掲載されているページを探すのではなく、「これはどういう意味か」といった質問を投げかけてくるわけだ(「○○とは」といったキーワードを使った検索)。

 今後は、こうした質問のしかたを前提に答えを提供してくれる「セマンティックWeb」に注目が集まるようになろう。ただし、現在の検索技術は、確かに力ずくに見えるかもしれないが、膨大な量のデータを扱うことで、最終的には高度にインテリジェントな結果を得られていることも忘れないでいただきたい。

 例えば、Googleに「GM」と入力された場合、Googleはそれが「General Motors」(ゼネラルモーターズ)という企業名を意味することを認識しているし、「GM foods」と入力されれば、「genetically modified foods」(遺伝子組み換え食品)のことだと認識して、検索結果を提供する。また、Googleはおびただしい量のデータを処理しているので、頭字語や略語のつづりやそれらが使われる文脈などに関する情報も豊富に持っている。

 ここにきて、検索エンジンが急に意味を理解できるようになったと思われがちだが、実はそうではなく、それは強力なデータ処理作業の賜物なのだ。検索に求められる最良のアルゴリズムは、こうした強力な演算と完全な包括性、そして人間が持っている質の部分とを組み合わせたところに生まれることになろう。

――今年5月に立ち上げたユニバーサル検索の進捗状況はどうなっているのか。

 このプロジェクトは始まったばかりであり、基礎的な作業を行っている段階だ。ユニバーサル検索は、書籍、画像、ニュース、ビデオ、ローカル情報などを(一般のWeb検索結果として)まとめて表示するものだが、現在、担当チームはいくつかの分野に集中的に取り組んでいる。

 まず第1に、現段階では英語のみのサポートにとどまっており、カバーしている地域も大部分が米国であるため、世界各国、各言語に対応させる作業を進めている。また、ブログや特許、研究者など分野別の検索(垂直型検索エンジン)の実現にも力を入れている。そのほか、全体的なランクづけや関連性に関する問題、さらにはユーザーへの見せ方といったようないわゆるユーザー・インタフェースの部分にどういった改良を加えられるかについても、基礎的な研究を行っている。

 ユニバーサル検索を始めるために、なぜ当社がこれほど大々的に変化しなければならなかったかと言えば、それにより新たに3つの分野への適応を強いられたからだ。第1に、コスト効果を向上させるためにインフラ全体を変えなければならなかった。第2に、これまでよりもっと膨大な量の検索結果をどのような順位で表示するかを考えなければならなかった。そして最後に、ユーザー・インタフェースをどうするかという問題に取り組まなければならなかった、のである。

 すでにインフラは整い、現在、担当エンジニアたちは、上述したランクづけや関連性、ユーザー・インタフェースなどの開発作業に着手している。なかでもユーザー・インタフェースの開発作業では、今年はもとより2〜3年後あたりまでのユニバーサル検索のあり方を想定しながら、数多くの興味深いプロトタイプを作成しているところだ。

――最終目標は、ニュース、画像、ビデオ、書籍検索などすべての垂直タブを一般のWeb検索クエリ・ボックスに取り込むことか。

 検索ボックスを1つのクエリ・ボックスであるととらえてもらいたい。だが、探しているものが画像であるとかニュース記事であるとかいったことを、ユーザーが前もって特定できている場合もあるため、独立したインデックスへのリンクも維持するつもりだ。

 ただし、ユーザーが専門家ではない場合、あるいは何が(グーグルの特殊な検索エンジンに)含まれているかを知らない場合には、これらのインデックスを使用する必要はない。このような(2次インデックスは)メインのWeb検索エンジンに統合していきたいと考えている。

――いわゆる「ディープWeb」(検索エンジンの巡回プログラムでは取り込むことのできない情報群)コンテンツ検索エンジンに関しては、どのようなアプローチをとっているのか。

 ディープWebコンテンツと呼ばれる情報群は通常データベースに収められているが、これらを入手する方法として(Web)巡回は適していない。そこで当社では、「Google Base」によって、この問題に対処しようとしている。ほとんどのデータベースではXMLフィードが可能なので、ユーザーは自分のデータベースのXMLアウトプットを実行することができる。そのデータベースをGoogleとGoogle Baseにアップロードすればいいわけだ。

――そのアプローチは順調に進んでいるのか。

 進んでいる。実際、これまでに億単位の項目がGoogle Baseにアップロードされた。また、そうしたデータをインデックス化する作業も進んでいる。しかしながら、それを検索結果として提供するための作業は、まだ十分ではない。現段階のGoogle Baseでも、必要な情報を引き出すことはできるが、ユニバーサル検索という観点からすると、これをいつメインの検索結果に融合すべきかを判断するのはけっこう難しい。

――エンジニアにとって、検索エンジン技術に携わることは、今でも“クール”で“刺激的”なことなのか。

 検索には、今も解決しきれていない問題が山積している。何せ、検索は、(研究に)500年もの期間を要するような高度な専門分野なのだ。それがやっとまだ6年目に入ったぐらいの時期なのだから、もちろん今もエンジニアにとって人気のある分野であり続けている。実際、当社は毎日のように、この仕事に携わりたいという意欲を持った人たちを社員として迎え入れている。

――3〜4年ほど前に、「グーグルは確かに高収益企業だが、ユーザーは手間や利便性といった犠牲を一切払うことなくいつでも別の検索エンジンに乗り換えることができる。つまり、同社には常にこのリスクがつきまとっているわけだ」との指摘がなされたことがあったが、現在も(グーグルの優位性は堅持され)この懸念が現実になるような事態は起きていない。これについて、何か意見があれば。

 その指摘については、2つの考えを提示したい。1つは、その指摘が事実であるということだ。もし、だれかがグーグルよりも優れた検索エンジンを開発すれば、おそらくユーザーは(そちらのエンジンに)乗り換えることになろう。だが、こうした危機感こそ、エンジニアをはじめとする当社の全従業員が、「常に最も優れた検索エンジン(の会社)である」ために努力し続ける最大の動機づけとなるわけだ。よって、私たちは、Googleが最良の検索エンジンであることを毎日ユーザーに証明し続けなければならない。

 そしてもう1つは、検索エンジンは人々が想像する以上にユーザーを引き留める力を持っているということだ。(新しかったり、機能が優れていたりする)他の検索エンジンに乗り換え可能だということが頭ではわかっていても、ユーザーにとっては、いま使っている検索エンジンは信頼の源であり、愛着もある。やはり、「別の検索エンジンに乗り換えても、何の犠牲も生じない」というわけにはいかないのだ。

 長い間音信不通だった友人が見つかったり、診断が難しい疾患(症状)に関する情報がようやく得られたり、あるいはグーグルの「I'm feeling lucky」を使って思いどおりのWebサイトに一発でアクセスできたりしたときのうれしさは、思い出となってユーザーの心に残る。それは愛着であり、また、自分が本当に必要としていたものをこのツールがもたらしてくれたという信頼感でもある。こうしたことからすれば、他の検索エンジンに乗り換えたときの犠牲は、想像しているものよりはるかに大きいはずだ

(Computerworld.jp)




▲ページの先頭へ戻る


注目のリポート/ホワイトペーパー

フレームワーク化されたサプライ・チェーン・プロセスを導入すれば、ビジネス・パフォーマンスはさらに向上する

フレームワーク化されたサプライ・チェーン・プロセスを導入すれば、ビジネス・パフォーマンスはさらに向上する

企業の持続的な成長のためには、サプライ・チェーンの最適化が不可欠

調達から支払いまでのプロセスを“見える化”し、財務サプライチェーンを合理化する

調達から支払いまでのプロセスを“見える化”し、財務サプライチェーンを合理化する

現在のプロセス状況を可視化し、改善ポイントを見つけることがカギ

分散環境におけるファイル管理をいかに効率化するか

分散環境におけるファイル管理をいかに効率化するか

ファイル仮想化、レプリケーションで実現。統合されたデータ管理基盤の構築方法とは?

Windows Server 2008 対応製品(ソフトウェア関連)

SOA/BPM 関連製品

注目のトピック

ワークスタイル革新[New]
業務生産性の向上とワーク・ライフ・バランスの実現を目指して
事業継続マネジメント(BCM/DR)[Update]
万全のBC/DR基盤を構築し企業の信頼を高める
マルチコア・コンピューティング[Update]
ITインフラを最適化しパワーを最大限に生かす
グリーンITの戦略的価値
“環境マネジメント”の視点でITを最適化する
仮想化の“真実”
IT革命を支えるテクノロジー
データセンター革新
次世代ITインフラをいかに構築すべきか
ビジネス・インテリジェンス最新事情
組織と“個”の知的生産性を高める
セキュリティ・マネジメント[戦略と実践]
内外の脅威から企業を守る
Windows Server 2008 World
新世代プラットフォームの実力を探る
コンプライアンス総点検
法令順守の実態を把握し、万全の対策を!
SOAがITを変える
企業はどう備えるべきか
ITIL活用最前線
ITILでビジネスとITを変える
データ・マネジメント
新時代の情報/データ管理基盤を構築するために

Weekly Ranking

集計期間:11/15〜11/21


トピック一覧

ニュース特集

セキュリティ

ソフトウェア&サービス

経営/業務改革

ITマネジメント

データ・マネジメント

プラットフォーム

IT基盤技術

ハードウェア

ネットワーキング

トレンド

IT業界動向


Computerworld Global
米国
英国
中国
ドイツ
オーストラリア
シンガポール
その他の国