【 ここから本文 】
データ・マネジメント
ソーシャルブックマークに登録 :
印刷用ページの表示
【XML DB プロダクト・レビュー】
「TX1」(東芝ソリューション)
(2007年09月28日)
大量XMLデータの検索を高速化する独自技術を搭載
東芝ソリューションの「TX1」は、大量のXMLデータに対する検索の高速化を図る各種の機能を備えたネーティブXML DBである。現行バージョンは「V2」で、日本語を対象とする「自然言語処理機能」を搭載したことが大きな強化ポイントだ。
XML検索の高速化のために、TX1では、「構造自動抽出技術」と「問い合わせ最適化技術」という同社独自の技術を実装している。前者により、登録されたXMLデータの構造を自動抽出してインデックスを作成し、後者では、抽出した構造と語彙を統計的に分析して最適なクエリ実行プランを生成する。加えて、全文検索のためのインデックスを作成する機能も搭載している。これらの機能群により、検索対象となるXMLデータへの参照回数を低減し、検索速度の高速化を実現している。
検索の実行には、XML向けの問い合わせ言語であるXQueryを利用することができる。また、検索で得られたXMLデータが大容量となる場合でも、メモリの消費量を抑えることが可能になっている。
XMLデータの登録の際には、データベース構造の定義が不要で、構造の異なるXMLデータもそのまま格納することができる。そのため、データ構造が変更されたときにも柔軟な対応が可能だ。
新たな自然言語処理機能で検索精度・速度が向上
TX1の現行バージョンは、2006年11月に販売開始された「V2」となる。同バージョンでは、日本語を対象とする「自然言語処理機能」を搭載したことが大きな強化ポイントだ。具体的には、従来からの「Nグラム方式」に加えて、「形態素解析方式」による自然言語検索機能をサポートした。
Nグラム方式は、隣接する文字列でインデックスを切り出す手法。例えば、「東京都港区」という文字列に対しては、「東京/京都/都港/港区」というインデックスを作成する。同方式は、漏れのない検索が可能なため、型番のような英数文字列の検索には適しているが、この例で言えば、「京都」で検索した場合でも、東京都港区が検索結果に含まれてしまうことになる。
これに対して形態素解析方式は、言語の規則や辞書に従い、意味のある単語でインデックスを切り出す。前述の例では、「東京/都/港区」という形でインデックスを作成する。これらの2種類の検索手法を使い分けることで、検索時の速度および精度を向上させることができる。
また、新バージョンでは、さまざまなデータをXML形式に変換して登録する「データ連携機能」も追加された。この機能により、さまざまな種類の元データのXML化とTX1への登録が容易になり、複数のシステム/アプリケーションを横断した検索や分析を迅速に行うことが可能となる。
| XML DB「TX1」によるXMLデータの登録と検索 |
- 製品名
- TX1
- 開発元
- 東芝ソリューション
- 稼働環境
- Windows 2000 Server/Server 2003、Solaris 9/10
- Red Hat Enterprise Linux AS 4
- URL
- http://xml.toshiba-sol.co.jp/
(Computerworld.jp)

































