student_presentation_abstract2001 Page

山口研究室の学生研究発表のアブストラクト２００１のページ
Yamaguchi Lab's student_presentation_abstract2001 page

, , updated

Tomo's publication index Page へ戻る

Tomo's research Page へ戻る

Tomo's Top Page へ戻る

2001

２００１年３月８日(木) １０：００～１７：００，中央電気倶楽部，
電気学会関西支部，平成１２年度(第８回)高専卒業研究発表会,
大阪中央電気倶楽部５１１会議室
　　　　(大阪市北区堂島浜2-1-25)
　　　（堂島地下街南詰を右に上がり、右へ５０ｍ、左側の煉瓦造り建物）

弦川浩尚，山口智浩，POMDPモデルによる大規模MDP環境の近似的な強化学習法，
電気学会関西支部平成１２年度(第８回)高専卒業研究発表会, pp.-, 2001.3.8

丸川亨，山口智浩，動機付けルールを用いた相互作用的マルチエージェント強化学習，
電気学会関西支部平成１２年度(第８回)高専卒業研究発表会, pp.-, 2001.3.8

２００１年３月６日(火)　９：００～１７：００，大阪大学工学部吹田キャンパス，
電子情報通信学会　関西支部　学生会，学生研究発表講演会


北村 由紀，山口　智浩，
r-確実探査法：学習環境の変動点推定による最近データでの強化学習，

 アブストラクト-------------------------------------------
 強化学習における従来の環境同定手法では，学習途中に環境の性
 質が変化すると，モデルの同定精度が悪化する，という問題点が
あった． そこで，学習環境の変動点を推定し，変動後，最近r回の
サンプリングデータのみを用いてモデルの同定精度同定精度の悪化
を防ぐアルゴリズム： r-確実探査法を提案する．本研究では，最
尤推定確率の逐次差分 を定義し，この性質を利用して，r-確実探
査法における変動点検出を行なった．   
-----------------------------------------------------------

石村 健二，山口 智浩，
RAE-PIA: 複数報酬環境下における最適政策の効率的強化学習，

アブストラクト---------------------------------------------

最適政策を求める大半の強化学習研究は，割引期待報酬和の最大化
を学習基準としている．しかしながら，割引率を用いる従来手法で
は，最適政策の質と学習速度とが両立しないという問題点があった．
そこで本研究では，非割引型最適化手法として，報酬の大きさと報
酬からの期待距離を用いて報酬獲得効率:RAEを定義し，RAEを最大
化する最適政策を効率的に学習するRAE-PIA手法を提案し，割引型
PIA手法との比較学習実験を行う．
------------------------------------------------------------

天正　新二郎，山口　智浩，
優先掃き出し法による最適政策の効率的な強化学習，

アブストラクト---------------------------------------------
強化学習の分野において，最適政策を求める手法に政策反復アルゴ
リズム（PIA）がある．しかしながら，PIAは問題とする環境が大き
くなると学習コストが増大する，という問題点があった．そこで本
研究では，最適政策を効率的に求める手法である優先掃き出し法を
実装し，PIAとの比較学習実験を行い，優先掃き出し法の有効性，
問題点について考察・検討する． 
------------------------------------------------------------

渡辺  亮介，山口　智浩，
同型POMDP学習エージェント集団による大規模離散MDP問題の強化学習，

アブストラクト---------------------------------------------
一般に強化学習研究は多くの場合MDP環境を仮定するが，大規模な
問題は，状態数及び状態遷移数が組合せ的に増加するため，現実的
にはMDPモデル化が困難である．そこで本研究では，大規模な決定
的MDP環境を同型性を用いて部分観測し，現実的な大きさに圧縮し
てPOMDPモデル化する強化学習手法を提案する．４x４オセロゲーム
環境の強化学習問題において，本手法と既存のMDPモデルによる手
法とを実験的に比較する． 
------------------------------------------------------------

堀口  正一，山口　智浩
ミラーエージェント:ユーザの行動履歴を可視化するユーザ支援システムの提案

アブストラクト---------------------------------------------
現在，ユーザとコンピュータとのインタフェースを支援するインタ
フェースエージェント技術の必要性が増している．しかしながら既
存の拡張現実感技術によるシステムは，既知の情報をユーザに提供
することが目的であった．そこで本研究では，ユーザの行動履歴を
鏡に映してユーザに提示するミラーエージェントを提案し，ユーザ
の行動履歴からエージェントが学習した結果をユーザに提示し，ユー
ザに新たな発想を促す手法を実験する．     
------------------------------------------------------------

2001年度人工知能学会全国大会（第15回），2001.5.26


渡辺, 亮介，堀口, 正一，山口, 智浩，
同型POMDPエージェント集団による大規模MDPの強化学習


2001年度人工知能学会全国大会（第15回），2001.5.26


アブストラクト----------------------------------------------
一般に強化学習研究は多くの場合MDP環境を仮定するが，大規模な
問題は，状態数及び状態遷移数が組合せ的に増加するため，現実
的にはMDPモデル化が困難である．そこで本研究では，大規模な決
定的MDP環境を部分観測化し，現実的な大きさに圧縮してモデル化
する強化学習手法を提案する．まず，問題全体の対称性を利用して，
複数の同型な部分観測MDP(POMDP)環境に分割してモデル化して１モ
デル当たりの大きさを圧縮し，各同型POMDP環境下での強化学習エー
ジェントを協調させて，全体を近似的に学習する手法を提案する．
４x４オセロゲーム環境の強化学習問題において，本手法と既存の
MDPモデルによる手法とを実験的に比較する． 
----------------------------------------------------------

石村, 健二，天正, 新二郎，山口, 智浩，
RAE-PIA: 複数報酬環境下における最適政策の効率的強化学習


2001年度人工知能学会全国大会（第15回），2001.5.26


アブストラクト----------------------------------------------
最適政策を求める大半の強化学習研究は，割引期待報酬和の最大化
を学習基準としている．しかしながら，割引率を用いる既存手法は，
収束する政策が割引率に左右され，しかも割引率を１に近づけると
学習コストが増大する，つまり最適政策の質と学習速度とが両立し
ないという問題点があった．そこで本研究では，非割引型最適化の
新手法として，報酬からの期待距離を用いて報酬獲得効率:RAEを定
義し，RAEを最大化する最適政策を効率的に学習するRAE-PIA手法に
ついて述べる．今回は，複数報酬環境で最適政策を効率的に学習す
る手法を提案し，割引型PIAの近似高速化手法である優先掃き出し
法との比較学習実験を行い，本手法の有効性を検証する．    
----------------------------------------------------------

yamaguch@info.nara-k.ac.jp

Tomo's publication index Page へ戻る

Tomo's research Page へ戻る

Tomo's Top Page へ戻る