【 ここから本文 】

Googleウォッチ

ソーシャルブックマークに登録 : Yahoo!ブックマークに登録 はてなブックマークに登録 del.icio.usに登録 newsing it!に登録 Buzzurlにブックマーク livedoorクリップに登録 Slashdotにタレコむ イザ!ブックマークに登録 Twitterでつぶやく
print 印刷用ページの表示


Google ウォッチ

検索テクノロジーの未来を探る

Google、Yahoo!、MSN、goo……次世代の高機能検索エンジンで、どのようなサービスが実現するのか?

(2005年08月15日)

前のページへ < 1234| 

進化する日本語検索テクノロジー

 ここまでに述べてきたように、現在、米国発のさまざまな次世代検索テクノロジーが登場しており、それらを単純に国内に導入するだけでも、利便性の高い検索サービスを展開することは可能であろう。
 しかし、単に米国発の技術を日本語にローカライズして導入するだけでは、本当の意味で日本人に最適な検索サービスとはなりえない。では、現在、日本語検索機能の向上を実現するために、どのようなテクノロジーが登場しているのだろうか。その最新動向を、日本語処理に力を入れているgooにおける取り組みを中心に紹介したい。

日本語の特性に応じた最適結果への誘導

 通常、Web検索では入力されたキーワードを忠実に検索結果に反映させるが、日本語には英語などにはない固有の問題がある。それは、同音異字や表記ゆれなどの問題である。同音異字による人名の誤表記や送りがなのさまざまなパターンなどによる“表記ゆれ”があると、検索結果がユーザーが意図していたものにならないことがある。
 よって、日本語独自の表現や表記を踏まえ、入力されたキーワードの表記ゆれを自動補正したり、推薦ワードなどを表示したりすることで、ユーザーが本来望んでいた検索結果を表示できるような取り組みが求められている。以下、実際に進められている取り組みを紹介する。

@校正支援機能(推薦ワードの提示)
 同音異字による誤った表記や略称などで検索が行われた場合、正しい表記を提示する。
(例:「英和事典」という誤記に対し、「英和辞典」という正しい表記を推薦)

A表記ゆれの吸収
 「乗換え」「乗り換え」のような送りがなの違いや、ひらがな、カタカナの表記(日本語特有の表記ゆれ)を自動的に補正し、面倒な言いかえの手間を省くことで、送りがなや「ー」(長音符)の有無や書き間違いの問題を解決する。
 漢字/かな/カナ自動補正は、同義語の漢字、ひらがな、カタカナ表記も自動補正し、検索結果に提示する。
(例:「らーめん」→「ラーメン」「拉麺」も表示)
 送りがな自動補正は、「乗換え」に対し、「乗り換え」を含むWebの情報を自動的に検索結果に含める。

B「関連ワード」の提示機能
 検索キーワードと関連性が高いキーワードを提案する。欲しい情報を探す際のヒントとして使うことで、提示される情報の幅がいっそう広がる。

C追加キーワードや修正候補単語の自動表示
 日本語処理に関しては、さらにユーザー・インタフェースとして使いやすいものを用意することも重要である。例えば、「Google Suggest」では、ユーザーがある語句を入力すると、すぐにその追加・補正ワードを表示して、検索結果の絞り込みを支援している。また「goo キーワードアシスト」においても、過去の検索キーワード・データの統計的な分析により、追加すべき語句の候補を表示している。これらの入力支援機能は、基本的にこれまでユーザーが入力してきたキーワードや、検索結果のクリック・ログなどを分析して、よりユーザーの利便性が高いと思われるものを提示している。

日本語自然文検索による日本語処理の高度化

 前節でも述べたように、日本語による検索では、英語以上に“どういったキーワードを入力するか”が検索結果に影響を与えることになる。つまり、検索におけるキーワード選定がより重要なわけだ。
 キーワードの選定は、固有名詞のように単一の語句の場合は容易だが、検索対象を定義したり、検索対象の評判を聞いたりするために、キーワードを選んだり、より細かい単語に分割したりすることは、Web検索に慣れていないユーザーにとってはハードルが高く、Google Suggestやgooキーワードアシストなどが支援したとしても、最終的にはユーザーの想像力に依存することになる。
 現在の検索では、キーワードを単語ごとにスペースを区切ってこま切れに入力するものが主流だが、話し言葉のままで検索することができれば、ユーザーは日常の延長として検索サービスを利用できるようになるはずだ。例えば、gooラボの「日本語自然文検索実験(Web Answers)」では、“小泉首相のプロフィールを教えて”というような口頭での質問をそのまま文章にして入力することで、回答となる結果を抽出できる。さらに、用語の定義、評判に関する質問に対しても同様に、容易に情報抽出を行うことが可能である。
 これを実現するためにWeb Answersでは、インターネット上の技術文書や事典・用語集などのテキスト・データを言語学的に分析している。例えば、「MPEGとは、映像データの圧縮方式の1つである」における「〜とは〜である」のような、用語の説明(人物のプロフィールも同様)を記述する表現(定義表現)に関する言語知識データベースを構築し、このデータベースと“定義らしさ”を判定する統計的な手法を組み合わせることにより、定義表現抽出を実現しているのである。
 また、インターネット上のブログや掲示板などのテキスト・データを言語学的に分析して、「絶品(名詞)」「しんみり(副詞)」「分かりやすい(形容詞)」「役立つ(動詞)」など、事物に対する意見や評価を記述する表現(評価表現)に関する言語知識データベースを構築し、このデータベースと“評判らしさ”を判定する統計的な手法を組み合わせることにより、評価表現抽出を実現している。
 さらにユーザーの質問文に対する回答として適切かどうかを、回答候補が出現する文脈に基づいて統計的に判定し、それをランキングすることにより、回答を含んでいると考えられるWebページを上位に表示することも可能となっている。

Webで「探す」からWebで「教わる」へ

 以上、本稿では、次世代の検索テクノロジーのさまざまな方向性とそれを実現する技術、サービスについて述べた。ユーザーからの「検索してもなかなか欲しい情報が見つからない」といった不満の声に対して、本稿で紹介してきた技術以外にも、長期的な視点で見れば、W3C(World Wide Web Consortium)が提唱する「セマンティックWeb」(注5)によって実現されるようなものがその不満を解消してくれることになるかもしれない。だが、ドッグ・イヤー、フリー・イヤーと言われるほど進歩の速いインターネットでは、そんな先の技術など待っていられないかもしれない。
 そうしたユーザーの要望にこたえて、短期的に検索の質を上げてくれそうなのが、フリー百科事典「ウィキペディア(Wikipedia)」、あるいはユーザー同士がお互いに質問への回答を寄せ合うQ&Aコミュニティ(例えば、「教えてgoo」、「NAVER 知識plus」など)である。
 こうしたサービスをうまく活用することにより、たとえWeb上にはない情報でもポータル・サイトを通じてだれかが教えてくれることになる。このWebで「探す」からWebで「教わる」への転換が、今後の検索テクノロジーの新たな方向性になるかもしれない。


注5:Web上のコンテンツに関する情報である「メタデータ」の内容を、コンピュータなどの情報機器に理解させ、情報を自動的に処理させようとするもの


前のページへ < 1234| 



関連記事

▲ページの先頭へ戻る


スポットライト「Google Chrome」

Google Chromeの利用率が早くも下降曲線――先週のWebブラウザ市場

IEやFirefoxは逆にシェア回復へ

Google Chromeが“Windowsの次”を担うキラー・アプリとなる可能性は?

「Internet Explorerのシェアを奪うことすら困難」と指摘する専門家も

企業はIEからGoogle Chromeに乗り換えるか――最大の懸念は既存アプリとの連携

「企業のブラウザ選定はすでに終わっている」との声も

Google Chromeに早くもセキュリティ不安――研究者が複数の脆弱性を指摘

ファイルのダウンロードに注意。悪意あるコードを勝手に実行してしまう可能性も

グーグルのブラウザ市場参入は脅威ではない――モジラら競合各社は表向き平静

一様に歓迎の意を示しつつ、自社ブラウザの優位点をアピール

グーグル幹部、新ブラウザ「Google Chrome」への注力姿勢を鮮明に

「次世代Webアプリにはすぐれたブラウザが必要」と指摘

“グーグル・ブラウザ”がついに登場――9月2日にリリースされる「Google Chrome」

HTMLレンダリング・エンジンに「WebKit」を採用したオープンソース・ブラウザ

スポットライト「Google Street View」

Google Street Viewの「日本の風景」が投じた波紋

技術進化とプライバシー保護のはざまでわき起こった論争から、地図情報サービスの将来を考える

グーグル、モバイル版Google Mapsに「Street View」を追加

歩行者向け道案内「Walking Direction」も新設

グーグル、「Street View」フランス版に着手――パリ市街を撮影開始

ただしプライバシー保護の観点からサービス開始は困難との声も

キーパーソン

政府保有の無線周波数帯を民間企業に開放せよ――グーグル創業者のペイジ氏

大統領選前の開放を迫る。開放慎重派は氏の見解に反論

「OHAへの共通理解があるから、技術的な細分化は生じない」――グーグルのAndroid担当者

「OHA各社独自のアプリケーションや機能の乱立」という懸念に答える

次世代の検索技術においても“主役の座”は渡さない

グーグル幹部、ビデオ/セマンティック/ユニバーサル検索の現状と問題点を語る

グーグル幹部、R&Dセンターの国際展開構想を語る

「グーグルは、R&Dもグローバルに考える」

「ニュースの収集・インデックス化は公正利用の範囲内」

グーグル幹部が語るGoogle Newsのポリシー

グーグル幹部、エンタープライズ分野への意気込みを語る

「ITマネジャーやCIOにも十分食い込める」

「auとの提携で何を目指すのか」

グーグルのモバイル担当責任者に聞く

「検索は引き続き事業の中核」

グーグルCEOのシュミット氏が強調

キャッチアップ

アプリ開発者がグーグルに突きつけた「Google App Engine」への要望と期待

注目のクラウド開発環境に対する“熱き思い”にグーグルはどう応えるのか

「Gmail障害」の対処に奔走するグーグル――なお残る不透明感

可用性への懸念高まるなか、Google Appsは引き続き企業に受け入れられるか

グーグル、豪華な福利厚生の大半を廃止へ――同社を去る従業員が増加

厚遇を当然と考える従業員の“あつかましさ”に対する経営陣の結論

「Gmail」が2週間で3回のサーバ・エラーに見舞われる

度重なる「502 Server Error」に、ユーザーから不満噴出

「Google Gadgetsを悪用すれば、マルウェアを強制インストールできる」――専門家が警鐘

パスワードの盗難や検索履歴が読み取られるおそれも

グーグルが「Google Search Appliance」を強化、検索文書数を1,000万に拡張

検索結果の制御もより細分化

グーグル、Wikipedia対抗の知識共有サイト「Knol」を一般公開

記事投稿は実名で。読者はコメントやレビューを記入可能

グーグル、プライバシー擁護団体の要請に対応――ホームページの「総ワード数」を変えずにリンクを追加

SEO専門家を悩ませるトップ検索エンジンの謎

“Microhoogle熱”の終焉――ヤフー争奪戦の成れの果て

イノベーション創出のため、Web 2.0を製品戦略に取り入れるベンダー各社

Google Miniが機能強化、文書の重み付けなどが可能に

「検索市場で勝ち続けるというグーグルの意欲の表れ」とアナリスト

エンタープライズ検索テクノロジーの「着眼点」

企業ITインフラ上での位置づけを押さえ、導入に備えよう

エンタープライズGoogle「期待の声」と「死角」

Web検索エンジンの覇者、“ファイアウォールの内側”に挑む

トレンド・ウォッチ

創業10周年のグーグル、エンタープライズ事業への注力をあらためて明言

「クラウド・コンピューティング・モデルでエンタープライズ市場を変革する」(2008年09月09日)

グーグル、「Google Apps」の機能拡充を表明――ただし詳細は語らず

サービス拡充に伴う料金引き上げはないもよう(2008年08月06日)

グーグル、Web上のユニークURL数が1兆を突破したと報告

「世界中の全データをインデックス化するのが目標」――原点の検索エンジンに注力(2008年07月28日)

マイクロソフト、ヤフーとグーグルの提携を「反競争的行為」と批判

「提携は市場競争の後退招く」と反トラスト法小委員会へ訴え(2008年07月16日)

開発者ブログで明かされた、ノキア製デバイスに「Android」を搭載する“ワザ”

開発者らは「Androidの実用化に大きく貢献した」と評価(2008年07月08日)

グーグル vs. ルイ・ヴィトン、AdWordsを巡る商標権侵害裁判は欧州裁判所へ

各種データをローカルDBに保存(2008年06月05日)

グーグルがカスタム検索サービスを強化、名称も「Site Search」に変更

検索オプションや詳細インデックス機能を改良(2008年06月04日)

グーグル、Android搭載携帯電話のデモを披露――お手本はiPhone?

「iPhoneのようにすぐれたWebブラウザ機能を組み込むことが目標」(2008年05月29日)

グーグル、健康記録管理サービス「Google Health」の一般提供を開始

患者がみずからの記録をオンラインで一括管理可能に(2008年05月20日)

グーグル、Webサイトにソーシャル機能を追加する「Friend Connect」を発表

OpenSocialの採用によりSNS間のデータ・ポータビリティに対応(2007年04月17日)

グーグル、企業向けWebセキュリティ・ホスティング・サービスを発表

Google Appsの1サービスとして、年額36ドルから提供(2008年05月09日)

「ベライゾンを信用するな」――グーグル、無線700MHz帯でFCCに申し立て

オープン・アクセス条項を順守するようベライゾンへの“指導”を要請(2008年05月07日)

グーグル、モバイル・バナー広告市場に参入

バナーのクリック数に応じた広告料設定でライバルより優位に(2008年04月24日)

世界の企業ブランド・ランキング、グーグルが3年連続で首位を堅持

マイクロソフトは3位、ヤフーはトップ10圏外(2008年04月22日)

グーグルのWebアプリ、XSS攻撃のターゲットに

サイト管理者によるコンテンツ情報の提供を容易に(2008年04月17日)

グーグル、Web解析ソフト新版「Urchin 6」をようやく出荷――予定より3年半の遅れ

扱いに困窮? ユーザーには「Google Analytics」のほうを推奨(2008年04月17日)

セールスフォース、SalesforceにGoogle Appsを統合

Salesforce上でGmailなどがシームレスに利用可能に(2008年04月14日)

グーグル、ラジオ広告事業の強化に向け「Google Radio Automation」を発表へ

ラジオ局業務の自動化ソフトを機能拡張(2008年04月14日)

グーグル、クラウド開発ツール「Google App Engine」をリリース

購入情報を保存・管理し、電子商取引を効率化(2008年04月09日)

Weekly Ranking

集計期間:01/02〜01/08



Computerworld Global
米国
英国
中国
ドイツ
オーストラリア
シンガポール
その他の国