リーダー  大川剛直 (大阪大学大学院情報科学研究科 マルチメディア工学専攻 助教授)

 近年、多数のバイオ情報データが、公共データベースとしてインターネットを利用して公開されている。しかしながら、これらの公共データベースが提供するデータの外部インタフェースに関しては、提供元である各研究機関などが独自にスキーマを設計・構築していることが多く、書式、項目、表記の揺らぎなどに関する曖昧性が存在するため、これらを相互に連携して利用することが非常に困難な状況にある。
 そこで本研究開発では、テキスト処理技術、知識処理技術、マンマシンインタフェース技術などを駆使することで、公共データベースの内容を、本データグリッド技術グループにおいて別途設計するXMLベースのデータ標準形式に基づいて半自動的に変換するためのシステムを開発することを考えた。変換後、出力されるXMLデータには、オリジナルのデータベースに記載されている全ての情報が欠落することなく網羅されるように留意するとともに、変換結果の良否を容易に判断でき、その結果を変換処理部に、適宜、フィードバックできるようなシステムの開発を目指す。そして、異種データベースに対する共通ビューを提供することで、データベースの異種性を意識せずに横断的な検索を可能にするデータグリッド技術を開発することを目標とする。
本研究開発により、独自開発されている各種公共データベースを論理的に統合した巨大バイオレポジトリの仮想的な構築が可能となる。さらに、このような構築事例を通して、多数のデータベースを有機的に連携利用するための基盤となる新しいデータグリッド技術の創出が見込まれる。

2002年度の研究計画と研究成果(PDF)

データの種類や表現形式の異なる多数のデータベースに対して、XMLベースの標準データ形式へのデータの動的な変換により、異種データベースに対する共通ビューを提供することで、データベースの異種性を意識せずに横断的な検索を可能にする技術を開発する。開発項目は以下の通りである。
  1. 表現の揺らぎなどを解決するアルゴリズムの検討
    同一データベース内でも記述形式が違うため変換エラーとなっている情報を正確に抽出できるアルゴリズムを検討する。また、異種データベース間の連携を可能とするため、表現は異なるが同一の内容を表す要素の同一性を識別できるように、表現の揺らぎを吸収するアルゴリズムについて検討する。

  2. 多数のバイオデータベースへ対応可能なシステム構築
    500種類以上ともいわれているバイオデータベースに対して変換が可能なように、XML形式以外のデータベースに対してもXML標準形式への変換が可能なシステムを開発する。

  3. 変換エラー情報の自動フィードバックシステム構築
    変換の際に必要な変換定義ファイルを変換エラー情報から自動的に更新し、自動的に変換精度を上げていくシステムを開発する。

  4. 異種データベースの連携利用インタフェースの開発
    表現の揺らぎを吸収することにより、同一性が識別できる形で異種データベースを連携したデータ表示システムを開発する。また、外部プログラムに対して、異種データベースの共通ビューを提供するインタフェースを開発する。

| Top | プロジェクト概要 | 研究内容 | 公開資料 | イベント | リンク |
     Copyright(c) Cybermedia Center, Osaka University