2018.07.19 A.I.

「正解」を示さなくてもなぜAIが学べるのか

現在の人工知能(AI、Artificial Intelligence)は、人間の脳のしくみを模倣した数学モデルのソフトウェア(アルゴリズム)である。うまく活用すれば、今までコンピュータや機械ではできなかったことを実現可能にする。だからこそ様々な分野で注目され、導入がはじまっている。

前回はAIの“正体”として、「ニューラルネットワーク」と「ディープラーニング(深層学習)」について解説した。

(前回の記事)
AIを賢くするニューラルネットワークの仕組み
http://jbpress.ismedia.jp/articles/-/53337

ニューラルネットワークは学習によって賢くなる。この学習のことを「機械学習(マシンラーニング)」と呼び、具体的な学習方法のひとつが、前回紹介した「教師あり学習」である。これは正解を付けたデータ(教師データ)をコンピュータに与えて学ばせる学習方法で、イヌとネコを見分けるといった、正解を判断するための教育をAIに実施するのに向いている。

しかし、達人を倒すほどの強力な囲碁AI、ゲームを楽しむAI、自転車に乗るロボットに組み込むためのAIなどは、ある意味で正解がない。そのため教師あり学習とは異なる学習方法が求められる。それが今回紹介する「強化学習」、「予測学習」、「模倣学習」である。

■TVゲームが上級者を超えるまでに上達

AI対人間の囲碁対決で有名になったAIシステム「アルファ碁」は、Google傘下のディープマインドが開発した。同社はアルファ碁を開発する前に、単純だが驚くべき内容の発表を行って大きな話題となった。2015年2月、科学誌「ネイチャー」に発表された論文でTVゲームをするAIシステム基盤「DQN(deep Q-network)」の研究結果を詳述したのである。とりわけ注目を集めたのは、人間が教えることなくAIが自律学習して賢くなっていく点だった。

ディープマインドはDQNに対し、米アタリが開発した家庭用ゲーム機「Atari 2600」で昔から人気のあるゲームをやらせた。その中には、日本でも知られている「ブロック崩し」や「パックマン」などが含まれる。ディープマインドは49種類のゲームをDQNにプレーさせ続け、上達する様子を記録して論文にまとめた。ゲームによって成果は異なるものの、多くの場合、DQNは数日間で人間の上級者より上手にゲームをプレーできるようになったという。

DQNはどのように学習していったのか。ディープマインドはDQNがブロック崩しゲームに挑戦した様子をデモンストレーションで紹介し、上達の経緯も公開している。

ブロック崩しゲームを始めたばかりのDQNはボールを打ち返せず、何度も失敗を繰り返した。ところが、偶然にボールを打ち返したとき、ブロックが崩れて得点できることを学習する。するとDQNは次からボールを打ち返すように努力し、みるみる上達し始めた。そしてプレー回数が200回を数えるころには、ボールを打ち返す確率を34%に高めた。

■報酬を得ることでルールを自ら覚え、技量を高める

ブロック崩しのように単純で正確性が求められるゲームなら、人間よりコンピュータのほうが上達して当然だと感じるかもしれない。だが、ここで見るべきポイントは、ゲームの単純さやプレーの正確性ではない。

多くの注目を集めた理由は、DQNがブロックくずし専用にプログラミングされたものではなく、ゲーム全般を対象に「汎用的」に開発されたものだったこと。そしてブロック崩しのルールすら教わっていなかったことである。DQNは自ら試行錯誤しながら「ボールを打ち返してブロックにあたると点がもらえる」というルールを理解し、攻略方法を自律的に学びながら着実に技量を高めていったのだ。

このようにAIにひたすら多くの経験を積ませて学習させ、自律的に上達させる方法を「強化学習」と呼ぶ。「教師あり学習」を適用しにくい正解のないことを学習するのに向いている。

DQNに施した強化学習で重要な肝のひとつが、ゲーム上達のためにAIに対して明確で適切な「報酬」を与えるということだ。ブロック崩しの例でいえば、ブロックを崩すことで得られるスコア(得点)が「報酬」に相当する。

コンピュータは自分が下した判断や自分で行った作業が、正しかったのか間違っていたのかを判断できない。このため、正しかったときに適切に「報酬」を与えることで、報酬が得られた際の自身の判断や作業が正しかったことを学ぶ。反対に報酬が得られないケースは間違い、あるいはやってはならないことと理解する。

このように強化学習により自らルールや攻略方法を学べるようになったDQNの技術は後に、囲碁AIで知られる「アルファ碁」へと発展。本連載の第1回「「AIの民主化」がもたらした第3次AIブーム到来」(http://jbpress.ismedia.jp/articles/-/53081)で紹介したとおり、大舞台でプロ囲碁棋士を下し、世界中の注目を浴びることになった。

■完成イメージやお手本を基に動作を学ぶ

2017年11月~12月に開催された「2017国際ロボット展」に出展したデンソーのブースには、新しいロボットをひと目見ようと多くの人が集まっていた。お目当ては、ディープラーニングと予測学習を使った双腕の「マルチモーダルAIロボットアーム」だ。プロトタイプとしてお披露目されたロボットが、タオルを畳んだり、サラダの盛り付けをしたりしていた。

人間にとって、これらはとても簡単な作業である。しかし、決められたことを正確に行うことが得意な今までのロボットにとって、形状が一定ではないタオルや野菜をつかんだり、思い通りに配置したりすることは困難を極める。

ロボットに動作を教える作業を「ティーチング」と呼ぶ。マルチモーダルAIロボットアームは、AIロボットの研究で知られる早稲田大学理工学術院の尾形哲也教授の研究を活用した「予測学習」をティーチングに用いた。

まずAIは、ロボットに装着したカメラを通して机上に置かれた(畳まれていない)タオルを見て、「このように畳めば良いだろう」という畳み方を予測する。そして、タオルを畳んだ後の形、すなわち完成イメージをCGで描く。ロボットは、カメラでタオルの状態を確認しながらタオルを動かすとともに、動かしたあとの予測画像を作る。それが完成イメージに近づくように動作を調整する。

このマルチモーダルAIロボットアームには、もうひとつ面白い学習方法が使われている。サラダの盛り付けをティーチングするのに用いた「模倣学習」だ。

サラダの盛り付けのティーチングは、VR(仮想現実)ゴーグルとセンサーを装着した人間が行う。人間が実際にサラダを盛り付ける動きの映像を見てロボットがそのまま真似をする。こうすることで柔らかい野菜を状況に応じて手加減しながら持つことが要求される繊細な作業を、ロボットが学んでいく。

予測学習と模倣学習は、次の瞬間の画像がどうなっているべきか、そのためにどう動くべきか、をロボットが自律的に判断している点が面白い。人間が何かに挑戦するとき、成功したときのイメージやお手本を思い浮かべてやるとうまくいくという話があるが、予測学習や模倣学習はそれに似ている。

今回紹介したように、ひとくちに機械学習といっても、その方法はいろいろとある。AIは、何はともあれ導入して機械学習を取り入れればうまくいくほど単純なものではない。「適した領域」に「適したデータ」と「適した学習方法」を用いて機械学習させなければ、AIは賢く成長しない。

 

記事引用元:JBPRESS