どうやって学習するか?
1) 実行すべき正しい行動を直接教えない → 教示との違い
させたいタスクをエージェントに(ゴールとして)指示しておけば, ゴールへの到達方法は,エージェントの試行錯誤学習によって 自動的に獲得される
2) how ではなく,what でゴール(目標)を指示する.
設計者がエージェントに「何をすべきか」を指示
3) 試行錯誤のうち,ゴールを達成する行動を強化する.
「どのように実現するか」をエージェントが学習で自動的に獲得
前のスライド
次のスライド
最初のスライドに戻る
グラフィックスの表示