Python-深度增强学习算法的PyTorch实现策略梯度生成对抗模仿学习

大小: 5.41MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-11-18
语言: Python
标签:

高速下载

资源简介

深度增强学习算法的PyTorch实现(策略梯度/生成对抗模仿学习)

资源截图

小图大图

代码片段和文件信息

import torch


def a2c_step（policy_net value_net optimizer_policy optimizer_value states actions returns advantages l2_reg）:

    “““update critic“““
    values_pred = value_net（states）
    value_loss = （values_pred - returns）.pow（2）.mean（）
    # weight decay
    for param in value_net.parameters（）:
        value_loss += param.pow（2）.sum（） * l2_reg
    optimizer_value.zero_grad（）
    value_loss.backward（）
    optimizer_value.step（）

    “““update policy“““
    log_probs = policy_net.get_log_prob（states actions）
    policy_loss = -（log_probs * advantages）.mean（）
    optimizer_policy.zero_grad（）
    policy_loss.backward（）
    torch.nn.utils.clip_grad_norm_（policy_net.parameters（） 40）
    optimizer_policy.step（）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-04-25 22:23  PyTorch-RL-master\
     文件        2291  2019-04-25 22:23  PyTorch-RL-master\README.md
     目录           0  2019-04-25 22:23  PyTorch-RL-master\assets\
     目录           0  2019-04-25 22:23  PyTorch-RL-master\assets\expert_traj\
     文件     5600610  2019-04-25 22:23  PyTorch-RL-master\assets\expert_traj\Hopper-v2_expert_traj.p
     目录           0  2019-04-25 22:23  PyTorch-RL-master\assets\learned_models\
     文件      298897  2019-04-25 22:23  PyTorch-RL-master\assets\learned_models\Hopper-v2_ppo.p
     目录           0  2019-04-25 22:23  PyTorch-RL-master\core\
     文件         729  2019-04-25 22:23  PyTorch-RL-master\core\a2c.py
     文件        5430  2019-04-25 22:23  PyTorch-RL-master\core\agent.py
     文件         841  2019-04-25 22:23  PyTorch-RL-master\core\common.py
     文件        1032  2019-04-25 22:23  PyTorch-RL-master\core\ppo.py
     文件        4672  2019-04-25 22:23  PyTorch-RL-master\core\trpo.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\examples\
     文件        5294  2019-04-25 22:23  PyTorch-RL-master\examples\a2c_gym.py
     文件        6590  2019-04-25 22:23  PyTorch-RL-master\examples\ppo_gym.py
     文件        5406  2019-04-25 22:23  PyTorch-RL-master\examples\trpo_gym.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\gail\
     文件        7699  2019-04-25 22:23  PyTorch-RL-master\gail\gail_gym.py
     文件        2531  2019-04-25 22:23  PyTorch-RL-master\gail\save_expert_traj.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\models\
     文件         902  2019-04-25 22:23  PyTorch-RL-master\models\mlp_critic.py
     文件         905  2019-04-25 22:23  PyTorch-RL-master\models\mlp_discriminator.py
     文件        2426  2019-04-25 22:23  PyTorch-RL-master\models\mlp_policy.py
     文件        1702  2019-04-25 22:23  PyTorch-RL-master\models\mlp_policy_disc.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\utils\
     文件         139  2019-04-25 22:23  PyTorch-RL-master\utils\__init__.py
     文件         371  2019-04-25 22:23  PyTorch-RL-master\utils\math.py
     文件         862  2019-04-25 22:23  PyTorch-RL-master\utils\replay_memory.py
     文件         126  2019-04-25 22:23  PyTorch-RL-master\utils\tools.py
     文件        1949  2019-04-25 22:23  PyTorch-RL-master\utils\torch.py
............此处省略1个文件信息

共有条评论

Python-深度增强学习算法的PyTorch实现策略梯度生成对抗模仿学习

资源简介

资源截图

代码片段和文件信息

评论

相关资源