第9回助教の会では、東京大学 情報基盤センターの吉田稔さんに「接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング」というタイトルで話していただきました。吉田さんは、東京大学の元辻井研で博士号を取得しており、主にテキストマイニングの研究をしています。
今回の発表では、「テキストマイニング」についての説明から始まり、東京大学中川研で公開しているテキストマイニングツールの説明とご自身が取り組んでいる数値情報と言語情報を解析する研究について、説明をしていただきました。
吉田さんの説明によると
「テキストマイニングとは、テキストデータを統計的に処理し、自明でない知見を発見する技術」のことを言います。
発表中には、「自然言語処理」と「テキストマイニング」の関係についての議論が為されました。吉田さんの認識では、自然言語処理を基礎技術として応用したのがテキストマイニングである一方で、テキストマイニングで得られた知見を自然言語処理へと活かすという相補的な関係にあるようです。
吉田さんの現在の研究テーマは、「テキスト中に含まれる数値表現をデータベースとして扱う研究」です。
テキスト中に含まれる数値表現を陽にデータベース化することなく、テキストのままデータベースとして扱うことで、言語と数値の関係を抽出する研究を行っています。
言語と数値の関係では、
例えば、年齢ごとに「人」に関する呼び名が変わる現象が挙げられます。
[12〜19]歳という数値表現で表された「男性/女性」は「少年/少女」という単語に関係しており、
[65〜歳]という数値表現で表された人間は、「高齢者」という単語に関係しています。
このような関係をテキストデータから自動で抽出することができるシステムの開発をしているそうです。
また、「75歳男性が脳梗塞で死亡」などのテキストデータが大量にある場合に
「男性」,「脳梗塞」という単語から、[60-75]歳という統計処理された数値表現データを抽出することも可能になります。
実際にシステムで使われている技術は、suffix arrayを数値データを扱いやすいように改良したデータ構造や、数値表現から抽出した数値データを統計処理するためにディリクレ過程混合モデルを検索時にリアルタイムに用いるなど、データ構造と機械学習技術の実践的な融合がなされていると感じました。
0 件のコメント:
コメントを投稿