PPO是 Policy Gradient 的變形,先複習 Policy Gradient。
policy gradient的基本組成:
Policy Gradient 中的 Basic Components 有三個:actor、environment、reward function。
其中 env 和 reward function 是你不能控制的,你只能控制actor。
Policy of Actor:
actor 的 policy 決定了 actor 的行為,policy 是一個由參數 表示的網絡。
網絡的輸入是 machine 的所見(observation),用vector 或 matrix 表示。
網絡的輸出是 machine 採取的行為。
影片內容 pdf:http://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/PPO%20(v3).pdf