框架结构¶
PARL的目标是构建一个可以完成复杂任务的智能体。
以下是用户在逐步构建一个智能体的过程中需要了解到的结构:
Model
用来定义前向 (Forward
)网络,这通常是一个策略网络 (Policy Network
)或者一个值函数网络 (Value Function
),输入是当前环境状态 (State
)。Algorithm
定义了具体的算法来更新前向网络 (Model
),也就是通过定义损失函数来更新Model
。一个Algorithm
包含至少一个Model
。Agent
负责算法与环境的交互,在交互过程中把生成的数据提供给Algorithm
来更新模型 (Model
),数据的预处理流程也一般定义在这里。