山口研究室の学生研究発表のアブストラクト2001のページ
Yamaguchi Lab's student_presentation_abstract2001 page

, , updated


Tomo's publication index Page へ戻る

Tomo's research Page へ戻る

Tomo's Top Page へ戻る
2001

2001年3月8日(木) 10:00〜17:00, 中央電気倶楽部
電気学会関西支部,平成12年度(第8回)高専卒業研究発表会,
大阪中央電気倶楽部511会議室
    (大阪市北区堂島浜2-1-25)
   (堂島地下街南詰を右に上がり、右へ50m、左側の煉瓦造り建物)

弦川 浩尚,山口 智浩,POMDPモデルによる大規模MDP環境の近似的な強化学習法,
電気学会関西支部 平成12年度(第8回)高専卒業研究発表会, pp.-, 2001.3.8

丸川 亨,山口 智浩,動機付けルールを用いた相互作用的マルチエージェント強化学習,
電気学会関西支部 平成12年度(第8回)高専卒業研究発表会, pp.-, 2001.3.8


2001年3月6日(火) 9:00〜17:00, 大阪大学工学部 吹田キャンパス,
電子情報通信学会 関西支部 学生会, 学生研究発表講演会


北村 由紀,山口 智浩,
r-確実探査法:学習環境の変動点推定による最近データでの強化学習,

 アブストラクト-------------------------------------------
 強化学習における従来の環境同定手法では,学習途中に環境の性
 質が変化すると,モデルの同定精度が悪化する,という問題点が
あった. そこで,学習環境の変動点を推定し,変動後,最近r回の
サンプリングデータのみを用いてモデルの同定精度同定精度の悪化
を防ぐアルゴリズム: r-確実探査法を提案する.本研究では,最
尤推定確率の逐次差分 を定義し,この性質を利用して,r-確実探
査法における変動点検出を行なった.   
-----------------------------------------------------------

石村 健二,山口 智浩,
RAE-PIA: 複数報酬環境下における最適政策の効率的強化学習,

アブストラクト---------------------------------------------

最適政策を求める大半の強化学習研究は,割引期待報酬和の最大化
を学習基準としている.しかしながら,割引率を用いる従来手法で
は,最適政策の質と学習速度とが両立しないという問題点があった.
そこで本研究では,非割引型最適化手法として,報酬の大きさと報
酬からの期待距離を用いて報酬獲得効率:RAEを定義し,RAEを最大
化する最適政策を効率的に学習するRAE-PIA手法を提案し,割引型
PIA手法との比較学習実験を行う.
------------------------------------------------------------

天正 新二郎,山口 智浩,
優先掃き出し法による最適政策の効率的な強化学習,

アブストラクト---------------------------------------------
強化学習の分野において,最適政策を求める手法に政策反復アルゴ
リズム(PIA)がある.しかしながら,PIAは問題とする環境が大き
くなると学習コストが増大する,という問題点があった.そこで本
研究では,最適政策を効率的に求める手法である優先掃き出し法を
実装し,PIAとの比較学習実験を行い,優先掃き出し法の有効性,
問題点について考察・検討する. 
------------------------------------------------------------

渡辺  亮介,山口 智浩,
同型POMDP学習エージェント集団による大規模離散MDP問題の強化学習,

アブストラクト---------------------------------------------
一般に強化学習研究は多くの場合MDP環境を仮定するが,大規模な
問題は,状態数及び状態遷移数が組合せ的に増加するため,現実的
にはMDPモデル化が困難である.そこで本研究では,大規模な決定
的MDP環境を同型性を用いて部分観測し,現実的な大きさに圧縮し
てPOMDPモデル化する強化学習手法を提案する.4x4オセロゲーム
環境の強化学習問題において,本手法と既存のMDPモデルによる手
法とを実験的に比較する. 
------------------------------------------------------------

堀口  正一,山口 智浩
ミラーエージェント:ユーザの行動履歴を可視化するユーザ支援システムの提案

アブストラクト---------------------------------------------
現在,ユーザとコンピュータとのインタフェースを支援するインタ
フェースエージェント技術の必要性が増している.しかしながら既
存の拡張現実感技術によるシステムは,既知の情報をユーザに提供
することが目的であった.そこで本研究では,ユーザの行動履歴を
鏡に映してユーザに提示するミラーエージェントを提案し,ユーザ
の行動履歴からエージェントが学習した結果をユーザに提示し,ユー
ザに新たな発想を促す手法を実験する.     
------------------------------------------------------------

2001年度人工知能学会全国大会(第15回),2001.5.26
渡辺, 亮介,堀口, 正一,山口, 智浩, 同型POMDPエージェント集団による大規模MDPの強化学習
2001年度人工知能学会全国大会(第15回),2001.5.26
アブストラクト---------------------------------------------- 一般に強化学習研究は多くの場合MDP環境を仮定するが,大規模な 問題は,状態数及び状態遷移数が組合せ的に増加するため,現実 的にはMDPモデル化が困難である.そこで本研究では,大規模な決 定的MDP環境を部分観測化し,現実的な大きさに圧縮してモデル化 する強化学習手法を提案する.まず,問題全体の対称性を利用して, 複数の同型な部分観測MDP(POMDP)環境に分割してモデル化して1モ デル当たりの大きさを圧縮し,各同型POMDP環境下での強化学習エー ジェントを協調させて,全体を近似的に学習する手法を提案する. 4x4オセロゲーム環境の強化学習問題において,本手法と既存の MDPモデルによる手法とを実験的に比較する. ---------------------------------------------------------- 石村, 健二,天正, 新二郎,山口, 智浩, RAE-PIA: 複数報酬環境下における最適政策の効率的強化学習
2001年度人工知能学会全国大会(第15回),2001.5.26
アブストラクト---------------------------------------------- 最適政策を求める大半の強化学習研究は,割引期待報酬和の最大化 を学習基準としている.しかしながら,割引率を用いる既存手法は, 収束する政策が割引率に左右され,しかも割引率を1に近づけると 学習コストが増大する,つまり最適政策の質と学習速度とが両立し ないという問題点があった.そこで本研究では,非割引型最適化の 新手法として,報酬からの期待距離を用いて報酬獲得効率:RAEを定 義し,RAEを最大化する最適政策を効率的に学習するRAE-PIA手法に ついて述べる.今回は,複数報酬環境で最適政策を効率的に学習す る手法を提案し,割引型PIAの近似高速化手法である優先掃き出し 法との比較学習実験を行い,本手法の有効性を検証する. ----------------------------------------------------------



yamaguch@info.nara-k.ac.jp

Tomo's publication index Page へ戻る
Tomo's research Page へ戻る
Tomo's Top Page へ戻る