確率的環境における最適政策探索の効率化

佐藤和宏の研究内容

●研究テーマ名
「確率的環境における最適政策探索の効率化」

●研究内容
人工知能の学習の一分野、強化学習について研究を行っています。

強化学習とは人間や動物が試行錯誤を繰り返しながら一人で行うような学習を人工知能の分野に応用したものです。
たとえば人間の赤ちゃんが二足歩行を学習する場合を考えましょう。
赤ちゃんは足の動かし方、手の動かし方を誰かに教わるのではなく、試行錯誤を繰り返し、一人で歩く方法を学習していきます。
このように強化学習では人間が教えなくても目的だけ与えておけばロボットが一人で学習を行うことが出来ます。

私の研究では強化学習でいかに効率よく学習するかについて研究しています。

●リンク
強化学習システムの設計指針，計測と制御