logo
Loading...

Proximal Policy Optimization (PPO) - 李宏毅_強化學習(Reinforce Learning) - Cupoy

兩種策略:on-policy 和 off-policy: 所謂 on-policy 指學習的 agent(即actor) 和與環境交互的 agent 是相同的,即 agent 一邊和環境互動,一邊學習...

兩種策略:on-policy 和 off-policy: 所謂 on-policy 指學習的 agent(即actor) 和與環境交互的 agent 是相同的,即 agent 一邊和環境互動,一邊學習; 而 off-policy 指學習的 agent 與環境交互的 agent 是不同的,即 agent 通過看別人玩遊戲來學習。 注:RL 中的 actor/agent 概念和 policy 概念其實有時候會指代同一個東西。 因為 policy 即是 actor 要學習的策略,並在是在學習以後用來生成 action 的依據。 actor/policy 都可以代表一個網絡/函數,一個用來生成 action 的網絡/函數。 所以有時對二者不加以嚴格區分。 影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf