【 ここから本文 】
[特集]Webブラウザ
ソーシャルブックマークに登録 :
印刷用ページの表示
検索テクノロジーの未来を探る
Google、Yahoo!、MSN、goo……次世代の高機能検索エンジンで、どのようなサービスが実現するのか?
(2005年08月15日)
進化する日本語検索テクノロジー
ここまでに述べてきたように、現在、米国発のさまざまな次世代検索テクノロジーが登場しており、それらを単純に国内に導入するだけでも、利便性の高い検索サービスを展開することは可能であろう。
しかし、単に米国発の技術を日本語にローカライズして導入するだけでは、本当の意味で日本人に最適な検索サービスとはなりえない。では、現在、日本語検索機能の向上を実現するために、どのようなテクノロジーが登場しているのだろうか。その最新動向を、日本語処理に力を入れているgooにおける取り組みを中心に紹介したい。
日本語の特性に応じた最適結果への誘導
通常、Web検索では入力されたキーワードを忠実に検索結果に反映させるが、日本語には英語などにはない固有の問題がある。それは、同音異字や表記ゆれなどの問題である。同音異字による人名の誤表記や送りがなのさまざまなパターンなどによる“表記ゆれ”があると、検索結果がユーザーが意図していたものにならないことがある。
よって、日本語独自の表現や表記を踏まえ、入力されたキーワードの表記ゆれを自動補正したり、推薦ワードなどを表示したりすることで、ユーザーが本来望んでいた検索結果を表示できるような取り組みが求められている。以下、実際に進められている取り組みを紹介する。
@校正支援機能(推薦ワードの提示)
同音異字による誤った表記や略称などで検索が行われた場合、正しい表記を提示する。
(例:「英和事典」という誤記に対し、「英和辞典」という正しい表記を推薦)
A表記ゆれの吸収
「乗換え」「乗り換え」のような送りがなの違いや、ひらがな、カタカナの表記(日本語特有の表記ゆれ)を自動的に補正し、面倒な言いかえの手間を省くことで、送りがなや「ー」(長音符)の有無や書き間違いの問題を解決する。
漢字/かな/カナ自動補正は、同義語の漢字、ひらがな、カタカナ表記も自動補正し、検索結果に提示する。
(例:「らーめん」→「ラーメン」「拉麺」も表示)
送りがな自動補正は、「乗換え」に対し、「乗り換え」を含むWebの情報を自動的に検索結果に含める。
B「関連ワード」の提示機能
検索キーワードと関連性が高いキーワードを提案する。欲しい情報を探す際のヒントとして使うことで、提示される情報の幅がいっそう広がる。
C追加キーワードや修正候補単語の自動表示
日本語処理に関しては、さらにユーザー・インタフェースとして使いやすいものを用意することも重要である。例えば、「Google Suggest」では、ユーザーがある語句を入力すると、すぐにその追加・補正ワードを表示して、検索結果の絞り込みを支援している。また「goo キーワードアシスト」においても、過去の検索キーワード・データの統計的な分析により、追加すべき語句の候補を表示している。これらの入力支援機能は、基本的にこれまでユーザーが入力してきたキーワードや、検索結果のクリック・ログなどを分析して、よりユーザーの利便性が高いと思われるものを提示している。
日本語自然文検索による日本語処理の高度化
前節でも述べたように、日本語による検索では、英語以上に“どういったキーワードを入力するか”が検索結果に影響を与えることになる。つまり、検索におけるキーワード選定がより重要なわけだ。
キーワードの選定は、固有名詞のように単一の語句の場合は容易だが、検索対象を定義したり、検索対象の評判を聞いたりするために、キーワードを選んだり、より細かい単語に分割したりすることは、Web検索に慣れていないユーザーにとってはハードルが高く、Google Suggestやgooキーワードアシストなどが支援したとしても、最終的にはユーザーの想像力に依存することになる。
現在の検索では、キーワードを単語ごとにスペースを区切ってこま切れに入力するものが主流だが、話し言葉のままで検索することができれば、ユーザーは日常の延長として検索サービスを利用できるようになるはずだ。例えば、gooラボの「日本語自然文検索実験(Web Answers)」では、“小泉首相のプロフィールを教えて”というような口頭での質問をそのまま文章にして入力することで、回答となる結果を抽出できる。さらに、用語の定義、評判に関する質問に対しても同様に、容易に情報抽出を行うことが可能である。
これを実現するためにWeb Answersでは、インターネット上の技術文書や事典・用語集などのテキスト・データを言語学的に分析している。例えば、「MPEGとは、映像データの圧縮方式の1つである」における「〜とは〜である」のような、用語の説明(人物のプロフィールも同様)を記述する表現(定義表現)に関する言語知識データベースを構築し、このデータベースと“定義らしさ”を判定する統計的な手法を組み合わせることにより、定義表現抽出を実現しているのである。
また、インターネット上のブログや掲示板などのテキスト・データを言語学的に分析して、「絶品(名詞)」「しんみり(副詞)」「分かりやすい(形容詞)」「役立つ(動詞)」など、事物に対する意見や評価を記述する表現(評価表現)に関する言語知識データベースを構築し、このデータベースと“評判らしさ”を判定する統計的な手法を組み合わせることにより、評価表現抽出を実現している。
さらにユーザーの質問文に対する回答として適切かどうかを、回答候補が出現する文脈に基づいて統計的に判定し、それをランキングすることにより、回答を含んでいると考えられるWebページを上位に表示することも可能となっている。
Webで「探す」からWebで「教わる」へ
以上、本稿では、次世代の検索テクノロジーのさまざまな方向性とそれを実現する技術、サービスについて述べた。ユーザーからの「検索してもなかなか欲しい情報が見つからない」といった不満の声に対して、本稿で紹介してきた技術以外にも、長期的な視点で見れば、W3C(World Wide Web Consortium)が提唱する「セマンティックWeb」(注5)によって実現されるようなものがその不満を解消してくれることになるかもしれない。だが、ドッグ・イヤー、フリー・イヤーと言われるほど進歩の速いインターネットでは、そんな先の技術など待っていられないかもしれない。
そうしたユーザーの要望にこたえて、短期的に検索の質を上げてくれそうなのが、フリー百科事典「ウィキペディア(Wikipedia)」、あるいはユーザー同士がお互いに質問への回答を寄せ合うQ&Aコミュニティ(例えば、「教えてgoo」、「NAVER 知識plus」など)である。
こうしたサービスをうまく活用することにより、たとえWeb上にはない情報でもポータル・サイトを通じてだれかが教えてくれることになる。このWebで「探す」からWebで「教わる」への転換が、今後の検索テクノロジーの新たな方向性になるかもしれない。
注5:Web上のコンテンツに関する情報である「メタデータ」の内容を、コンピュータなどの情報機器に理解させ、情報を自動的に処理させようとするもの



