English|Japanese  

プロジェクト

特別推進研究「高度言語理解のための意味・知識処理の基盤技術に関する研究.」

特別推進研究「高度言語理解のための意味・知識処理の基盤技術に関する研究.」(代表:辻井)は、5年のプロジェクトで2006年より開始された。このプロジェクトは、文解析の記号処理と確率モデルの融合枠組みを意味・知識処理へと拡張し、次世代言語処理の基盤を構築することを目的とする。また、研究成果を、生命科学におけるテキストマイニング、知識と意味に基づく機械翻訳に適用することで、その有効性を確認するとともに、高度言語処理のための分野適応型言語処理の汎用ツールを開発し、公開する。


GENIAプロジェクト

GENIAプロジェクトは、科学技術分野における情報の洪水を克服するために科学者の書いた文章から有用な情報を抽出することを目的としたプロジェクトです。

現在、分子生物学論文からのタンパク質反応イベントの抽出をタスクとしたシステムと、その構築に必要なリソース(コーパス、辞書)の開発を行っています。アプリケーションは分子生物学分野に特化していますが、開発する手法はより一般的な科学技術分野の文章に応用できるものを目指します。


U-Compare

U-Compare Initiative では、UIMA に準拠したコンポーネントで、かつ U-Compare の提供する type system に互換なものを収集・配布しています。そのような互換コンポーネントであれば、ユーザの与える work flow に対して可能なコンポーネントの組み合わせを自動生成し、結果を比較することが可能です。

UIMA, Unstructured Information Management Architecture, とは、ツール間の相互運用性(interoperability)の向上を目指して IBM の開発したフレームワークです。現在ではオープンプロジェクトになっており、仕様は OASIS UIMA 委員会にて策定、参照実装は Apache UIMA としてオープンソースで提供されています。

UIMA は堅実な基盤と豊富な機能を持つフレームワーク・実装ですが、UIMA 準拠であるだけではコンポーネント間の意味ある接続や比較は困難です。U-Compare では 共有可能かつ自動組み合わせ・比較可能な type system を提供することで、解決策を提供します。同時に、エンドユーザと開発者の利便性向上のため、ワンクリックで起動可能なシステムやオリジナル GUI 等を提供しています。

U-Compare は東京大学 辻井研究室、コロラド大学Computational Pharmacology センター英国国立テキストマイニングセンター(NaCTeM)の共同プロジェクトです。現在のところ、U-Compare では英語を対象とした各種自然言語処理ツール、および医学生物学論文からの情報抽出分野などを中心に、各分野の著名なツール・コーパスを収集しており、世界最大の UIMA コンポーネントリポジトリです。UIMA および U-Compare の基盤システムは汎用であり、随時他分野・多言語への type system 拡張とツール収集を行っています。


Kototoiプロジェクト(2000-2005)

このプロジェクトでは、web上に広く分散された一般分野のテキストから一般ユーザーが情報抽出を行うためのシステムの基本技術の研究を行っています。

本プロジェクトでは、個別的な情報要求に依存しないテキスト集合の構造化と、情報要求者と発信者の個別的な状況に依存する処理 (オントロジー変換、情報提示の形態) とを分離し、前者の事前の構造化を活用することで、知的で柔軟な後者の処理を行う枠組に関する研究を行っています。

具体的には、型付き素性構造を利用したテキスト構造、間テキスト構造のデータベース化手法、ウェブクローラー等の広域分散ソフトウェア、複数オントロジーの相互変換手法、情報要求者の状況を考慮した情報提示の手法の研究を行っています。