PPO¶

class PPO(model, act_dim=None, policy_lr=None, value_lr=None, epsilon=0.2)[source]¶

Bases: parl.core.fluid.algorithm.Algorithm

__init__(model, act_dim=None, policy_lr=None, value_lr=None, epsilon=0.2)[source]¶

PPO algorithm

Parameters

policy_learn(obs, actions, advantages, beta=None)[source]¶

Learn policy model with:

CLIP loss: Clipped Surrogate Objective

KLPEN loss: Adaptive KL Penalty Objective

Parameters

predict(obs)[source]¶: Use the policy model of self.model to predict means and logvars of actions

sample(obs)[source]¶: Use the policy model of self.model to sample actions

sync_old_policy()[source]¶: Synchronize weights of self.model.policy_model to self.old_policy_model

value_learn(obs, val)[source]¶: Learn the value model with square error cost

value_predict(obs)[source]¶: Use value model of self.model to predict value of obs