【 ここから本文 】

[特集]Webブラウザ

ソーシャルブックマークに登録 : Yahoo!ブックマークに登録 はてなブックマークに登録 del.icio.usに登録 newsing it!に登録 Buzzurlにブックマーク livedoorクリップに登録 Slashdotにタレコむ イザ!ブックマークに登録 Twitterでつぶやく
print 印刷用ページの表示


検索テクノロジーの未来を探る

Google、Yahoo!、MSN、goo……次世代の高機能検索エンジンで、どのようなサービスが実現するのか?

(2005年08月15日)

前のページへ < 1234| 

進化する日本語検索テクノロジー

 ここまでに述べてきたように、現在、米国発のさまざまな次世代検索テクノロジーが登場しており、それらを単純に国内に導入するだけでも、利便性の高い検索サービスを展開することは可能であろう。
 しかし、単に米国発の技術を日本語にローカライズして導入するだけでは、本当の意味で日本人に最適な検索サービスとはなりえない。では、現在、日本語検索機能の向上を実現するために、どのようなテクノロジーが登場しているのだろうか。その最新動向を、日本語処理に力を入れているgooにおける取り組みを中心に紹介したい。

日本語の特性に応じた最適結果への誘導

 通常、Web検索では入力されたキーワードを忠実に検索結果に反映させるが、日本語には英語などにはない固有の問題がある。それは、同音異字や表記ゆれなどの問題である。同音異字による人名の誤表記や送りがなのさまざまなパターンなどによる“表記ゆれ”があると、検索結果がユーザーが意図していたものにならないことがある。
 よって、日本語独自の表現や表記を踏まえ、入力されたキーワードの表記ゆれを自動補正したり、推薦ワードなどを表示したりすることで、ユーザーが本来望んでいた検索結果を表示できるような取り組みが求められている。以下、実際に進められている取り組みを紹介する。

@校正支援機能(推薦ワードの提示)
 同音異字による誤った表記や略称などで検索が行われた場合、正しい表記を提示する。
(例:「英和事典」という誤記に対し、「英和辞典」という正しい表記を推薦)

A表記ゆれの吸収
 「乗換え」「乗り換え」のような送りがなの違いや、ひらがな、カタカナの表記(日本語特有の表記ゆれ)を自動的に補正し、面倒な言いかえの手間を省くことで、送りがなや「ー」(長音符)の有無や書き間違いの問題を解決する。
 漢字/かな/カナ自動補正は、同義語の漢字、ひらがな、カタカナ表記も自動補正し、検索結果に提示する。
(例:「らーめん」→「ラーメン」「拉麺」も表示)
 送りがな自動補正は、「乗換え」に対し、「乗り換え」を含むWebの情報を自動的に検索結果に含める。

B「関連ワード」の提示機能
 検索キーワードと関連性が高いキーワードを提案する。欲しい情報を探す際のヒントとして使うことで、提示される情報の幅がいっそう広がる。

C追加キーワードや修正候補単語の自動表示
 日本語処理に関しては、さらにユーザー・インタフェースとして使いやすいものを用意することも重要である。例えば、「Google Suggest」では、ユーザーがある語句を入力すると、すぐにその追加・補正ワードを表示して、検索結果の絞り込みを支援している。また「goo キーワードアシスト」においても、過去の検索キーワード・データの統計的な分析により、追加すべき語句の候補を表示している。これらの入力支援機能は、基本的にこれまでユーザーが入力してきたキーワードや、検索結果のクリック・ログなどを分析して、よりユーザーの利便性が高いと思われるものを提示している。

日本語自然文検索による日本語処理の高度化

 前節でも述べたように、日本語による検索では、英語以上に“どういったキーワードを入力するか”が検索結果に影響を与えることになる。つまり、検索におけるキーワード選定がより重要なわけだ。
 キーワードの選定は、固有名詞のように単一の語句の場合は容易だが、検索対象を定義したり、検索対象の評判を聞いたりするために、キーワードを選んだり、より細かい単語に分割したりすることは、Web検索に慣れていないユーザーにとってはハードルが高く、Google Suggestやgooキーワードアシストなどが支援したとしても、最終的にはユーザーの想像力に依存することになる。
 現在の検索では、キーワードを単語ごとにスペースを区切ってこま切れに入力するものが主流だが、話し言葉のままで検索することができれば、ユーザーは日常の延長として検索サービスを利用できるようになるはずだ。例えば、gooラボの「日本語自然文検索実験(Web Answers)」では、“小泉首相のプロフィールを教えて”というような口頭での質問をそのまま文章にして入力することで、回答となる結果を抽出できる。さらに、用語の定義、評判に関する質問に対しても同様に、容易に情報抽出を行うことが可能である。
 これを実現するためにWeb Answersでは、インターネット上の技術文書や事典・用語集などのテキスト・データを言語学的に分析している。例えば、「MPEGとは、映像データの圧縮方式の1つである」における「〜とは〜である」のような、用語の説明(人物のプロフィールも同様)を記述する表現(定義表現)に関する言語知識データベースを構築し、このデータベースと“定義らしさ”を判定する統計的な手法を組み合わせることにより、定義表現抽出を実現しているのである。
 また、インターネット上のブログや掲示板などのテキスト・データを言語学的に分析して、「絶品(名詞)」「しんみり(副詞)」「分かりやすい(形容詞)」「役立つ(動詞)」など、事物に対する意見や評価を記述する表現(評価表現)に関する言語知識データベースを構築し、このデータベースと“評判らしさ”を判定する統計的な手法を組み合わせることにより、評価表現抽出を実現している。
 さらにユーザーの質問文に対する回答として適切かどうかを、回答候補が出現する文脈に基づいて統計的に判定し、それをランキングすることにより、回答を含んでいると考えられるWebページを上位に表示することも可能となっている。

Webで「探す」からWebで「教わる」へ

 以上、本稿では、次世代の検索テクノロジーのさまざまな方向性とそれを実現する技術、サービスについて述べた。ユーザーからの「検索してもなかなか欲しい情報が見つからない」といった不満の声に対して、本稿で紹介してきた技術以外にも、長期的な視点で見れば、W3C(World Wide Web Consortium)が提唱する「セマンティックWeb」(注5)によって実現されるようなものがその不満を解消してくれることになるかもしれない。だが、ドッグ・イヤー、フリー・イヤーと言われるほど進歩の速いインターネットでは、そんな先の技術など待っていられないかもしれない。
 そうしたユーザーの要望にこたえて、短期的に検索の質を上げてくれそうなのが、フリー百科事典「ウィキペディア(Wikipedia)」、あるいはユーザー同士がお互いに質問への回答を寄せ合うQ&Aコミュニティ(例えば、「教えてgoo」、「NAVER 知識plus」など)である。
 こうしたサービスをうまく活用することにより、たとえWeb上にはない情報でもポータル・サイトを通じてだれかが教えてくれることになる。このWebで「探す」からWebで「教わる」への転換が、今後の検索テクノロジーの新たな方向性になるかもしれない。


注5:Web上のコンテンツに関する情報である「メタデータ」の内容を、コンピュータなどの情報機器に理解させ、情報を自動的に処理させようとするもの


前のページへ < 1234| 



▲ページの先頭へ戻る


注目のリポート/ホワイトペーパー

フレームワーク化されたサプライ・チェーン・プロセスを導入すれば、ビジネス・パフォーマンスはさらに向上する

フレームワーク化されたサプライ・チェーン・プロセスを導入すれば、ビジネス・パフォーマンスはさらに向上する

企業の持続的な成長のためには、サプライ・チェーンの最適化が不可欠

調達から支払いまでのプロセスを“見える化”し、財務サプライチェーンを合理化する

調達から支払いまでのプロセスを“見える化”し、財務サプライチェーンを合理化する

現在のプロセス状況を可視化し、改善ポイントを見つけることがカギ

「UTM」実践導入ガイド

「UTM」実践導入ガイド

巧妙化するあらゆる攻撃からネットワークを守る

「リアルタイムLANアナライザ」とは?

ネットワーク・トラブルにまつわる諸問題を解決する「リアルタイムLANアナライザ」とは?

高いコスト・パフォーマンスと操作性――最新製品に備わる特徴と機能

Windows Server 2008 対応製品(ソフトウェア関連)

SOA/BPM 関連製品

注目のトピック

ワークスタイル革新[New]
業務生産性の向上とワーク・ライフ・バランスの実現を目指して
事業継続マネジメント(BCM/DR)[Update]
万全のBC/DR基盤を構築し企業の信頼を高める
マルチコア・コンピューティング[Update]
ITインフラを最適化しパワーを最大限に生かす
グリーンITの戦略的価値
“環境マネジメント”の視点でITを最適化する
仮想化の“真実”
IT革命を支えるテクノロジー
データセンター革新
次世代ITインフラをいかに構築すべきか
ビジネス・インテリジェンス最新事情
組織と“個”の知的生産性を高める
セキュリティ・マネジメント[戦略と実践]
内外の脅威から企業を守る
Windows Server 2008 World
新世代プラットフォームの実力を探る
コンプライアンス総点検
法令順守の実態を把握し、万全の対策を!
SOAがITを変える
企業はどう備えるべきか
ITIL活用最前線
ITILでビジネスとITを変える
データ・マネジメント
新時代の情報/データ管理基盤を構築するために

Weekly Ranking

集計期間:11/25〜12/01


トピック一覧

ニュース特集

セキュリティ

ソフトウェア&サービス

経営/業務改革

ITマネジメント

データ・マネジメント

プラットフォーム

IT基盤技術

ハードウェア

ネットワーキング

トレンド

IT業界動向


Computerworld Global
米国
英国
中国
ドイツ
オーストラリア
シンガポール
その他の国