2011年7月26日火曜日

第7回助教の会


第7回目となる今回の数理助教の会は,情報基盤センターの佐藤一誠さんに「Quantum Annealing in Statistical Machine Learning - 統計的機械学習における量子アニーリング -」というタイトルで発表していただきました.佐藤さんはこの3月に博士号を取得され,4月から情報基盤センターで助教として勤務している若手研究者です.統計的機械学習の研究をされており,特に自然言語処理に興味をお持ちとのことです.

タイトルにもある「統計的機械学習」とは,多くののデータが与えられたときに,これらのデータがどのような過程で生成されたのかを統計的に記述することを目的としています.例えば,数値データが与えられたときに,似たデータ同士をグループ分けする(クラスタリングする)といったことが代表的な問題になります.対象とするデータは数値データに限らず,例えば多くの文書をクラスタリングする手法も研究されており,Latent Dirichlet Allocation と呼ばれる手法では単語の出現頻度に注目することで文書をトピックごとにクラスタリングしています.文書のクラスタリングは,文書要約や翻訳の性能向上,評判分析などに用いられており,実用上重要な問題となっています.


「統計的機械学習」という用語自体は非常に広い意味を持っていますが,今回は,確率的潜在変数モデルを用いた統計的機械学習について講演して頂きました.これは,与えられたデータが「未知の変数(潜在変数)によって定まる確率過程から生成される」というモデルであり,研究の目的はいかにこの潜在変数を推定するかということになります.上のクラスタリングの例であれば,「どのグループに入っているのかを表す変数」と「各グループ内の分布を表す変数」が潜在変数となります.潜在変数の推定には,事前分布に基づいた MLもしくは MAP といった各点ごとに値を推定する方法もありますが,より良い推定をする際には,多くの場合事後分布を用いる必要があります.事後分布の計算には積分が必要なため,事後分布(の近似)をいかに効率的に計算するかが重要な問題となってきます.

事後分布の近似には様々な手法が研究されており,それらはサンプリング(MCMC)を用いる手法と変分ベイズ法(Variational Bayes) を用いる手法に大別されます.サンプリングは,多くのサンプル点を選ぶことで積分計算を近似する手法であり,容易なアルゴリズムを構成できる汎用的な手法なのですが,時間のかかるランダムなアルゴリズムとなっています.一方,変分ベイズ法は,計算しやすい関数クラスの中で真の関数に近いものを求める手法であり,最適化問題として定式化できます.この手法は高速で決定的なアルゴリズムですが,求めている関数自体が近似関数となっています.佐藤さんは,さらにこれらの手法を No interaction と Interaction という視点から分類し,今まで手法が提案されていなかった,Interaction タイプの最適化型の手法(ML/MAP, 変分ベイズ法)を提案しています.Interaction タイプとは複数の初期値から過程を計算していく際に,単純に複数回計算を繰り返して行うのとは異なり,それぞれの過程が相互に影響することを用いた手法を指しています.


本講演では,分割数が未知の場合のクラスタリングの問題(無限混合モデル)に対する Interaction タイプの最適化型の手法(ML/MAP)を説明して頂きました.無限混合モデルにおいては分割数が未知のため,Chinese Restaurant Process (CRP) と呼ばれる過程を用いて探索を行います.この過程はランダムな過程なのですが,Simulated Annealing 法を用いて,徐々に決定的な探索に近づけていく手法が既に知られていました.佐藤さんが提案した手法では,Simulated Annealing の代わりに,物理において量子系の解析で発展してきた Quantum Annealing (量子アニーリング)という手法を用いています.この手法では,複数の過程を同時に計算していく際に,個々の過程を別々に扱うのではなく,それぞれの過程における離散状態の重ね合わせを一つの状態と見て操作を加えていきます.離散状態を重ね合わせたものを一つの状態を見るというのが,物理の意味での量子揺らぎと対応しています.量子系における手法を機械学習に適用した,という発想自体が佐藤さんの大きな貢献ですが,実際のアルゴリズムの構成のためには更なる工夫が必要となります.単純に量子アニーリング法を適用するだけでは,非常に大きな行列の固有値分解を扱うことになってしまうのですが,佐藤さんのアルゴリズムは大きな行列の出現を避けた,高速なアルゴリズムとなっています.

今回の講演の中では,線形代数,確率,微積分,最適化,から物理に至るまで,数学の様々な分野が登場しました.機械学習という応用のはっきりした研究の中で,これだけ様々な分野の道具が使われているということに驚かされました.幅広い分野の知識が必要とされるので大変だとは思いますが,様々な分野と関連してくる活発で魅力的な研究だと感じました.

数理第二研究室 小林 佑輔

0 件のコメント:

コメントを投稿