PPO¶

class PPO(model, act_dim=None, policy_lr=None, value_lr=None, epsilon=0.2)[源代码]¶

基类：parl.core.fluid.algorithm.Algorithm

__init__(model, act_dim=None, policy_lr=None, value_lr=None, epsilon=0.2)[源代码]¶

PPO algorithm

参数

policy_learn(obs, actions, advantages, beta=None)[源代码]¶

Learn policy model with:

CLIP loss: Clipped Surrogate Objective

KLPEN loss: Adaptive KL Penalty Objective

参数

predict(obs)[源代码]¶: Use the policy model of self.model to predict means and logvars of actions

sync_old_policy()[源代码]¶: Synchronize weights of self.model.policy_model to self.old_policy_model

value_learn(obs, val)[源代码]¶: Learn the value model with square error cost

value_predict(obs)[源代码]¶: Use value model of self.model to predict value of obs