兩種策略:on-policy 和 off-policy:
所謂 on-policy 指學習的 agent(即actor) 和與環境交互的 agent 是相同的,即 agent 一邊和環境互動,一邊學習;
而 off-policy 指學習的 agent 與環境交互的 agent 是不同的,即 agent 通過看別人玩遊戲來學習。
注:RL 中的 actor/agent 概念和 policy 概念其實有時候會指代同一個東西。
因為 policy 即是 actor 要學習的策略,並在是在學習以後用來生成 action 的依據。
actor/policy 都可以代表一個網絡/函數,一個用來生成 action 的網絡/函數。
所以有時對二者不加以嚴格區分。
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf