• 大小: 5.41MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-11-18
  • 语言: Python
  • 标签:

资源简介

深度增强学习算法的PyTorch实现(策略梯度/生成对抗模仿学习)

资源截图

代码片段和文件信息

import torch


def a2c_step(policy_net value_net optimizer_policy optimizer_value states actions returns advantages l2_reg):

    “““update critic“““
    values_pred = value_net(states)
    value_loss = (values_pred - returns).pow(2).mean()
    # weight decay
    for param in value_net.parameters():
        value_loss += param.pow(2).sum() * l2_reg
    optimizer_value.zero_grad()
    value_loss.backward()
    optimizer_value.step()

    “““update policy“““
    log_probs = policy_net.get_log_prob(states actions)
    policy_loss = -(log_probs * advantages).mean()
    optimizer_policy.zero_grad()
    policy_loss.backward()
    torch.nn.utils.clip_grad_norm_(policy_net.parameters() 40)
    optimizer_policy.step()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-04-25 22:23  PyTorch-RL-master\
     文件        2291  2019-04-25 22:23  PyTorch-RL-master\README.md
     目录           0  2019-04-25 22:23  PyTorch-RL-master\assets\
     目录           0  2019-04-25 22:23  PyTorch-RL-master\assets\expert_traj\
     文件     5600610  2019-04-25 22:23  PyTorch-RL-master\assets\expert_traj\Hopper-v2_expert_traj.p
     目录           0  2019-04-25 22:23  PyTorch-RL-master\assets\learned_models\
     文件      298897  2019-04-25 22:23  PyTorch-RL-master\assets\learned_models\Hopper-v2_ppo.p
     目录           0  2019-04-25 22:23  PyTorch-RL-master\core\
     文件         729  2019-04-25 22:23  PyTorch-RL-master\core\a2c.py
     文件        5430  2019-04-25 22:23  PyTorch-RL-master\core\agent.py
     文件         841  2019-04-25 22:23  PyTorch-RL-master\core\common.py
     文件        1032  2019-04-25 22:23  PyTorch-RL-master\core\ppo.py
     文件        4672  2019-04-25 22:23  PyTorch-RL-master\core\trpo.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\examples\
     文件        5294  2019-04-25 22:23  PyTorch-RL-master\examples\a2c_gym.py
     文件        6590  2019-04-25 22:23  PyTorch-RL-master\examples\ppo_gym.py
     文件        5406  2019-04-25 22:23  PyTorch-RL-master\examples\trpo_gym.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\gail\
     文件        7699  2019-04-25 22:23  PyTorch-RL-master\gail\gail_gym.py
     文件        2531  2019-04-25 22:23  PyTorch-RL-master\gail\save_expert_traj.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\models\
     文件         902  2019-04-25 22:23  PyTorch-RL-master\models\mlp_critic.py
     文件         905  2019-04-25 22:23  PyTorch-RL-master\models\mlp_discriminator.py
     文件        2426  2019-04-25 22:23  PyTorch-RL-master\models\mlp_policy.py
     文件        1702  2019-04-25 22:23  PyTorch-RL-master\models\mlp_policy_disc.py
     目录           0  2019-04-25 22:23  PyTorch-RL-master\utils\
     文件         139  2019-04-25 22:23  PyTorch-RL-master\utils\__init__.py
     文件         371  2019-04-25 22:23  PyTorch-RL-master\utils\math.py
     文件         862  2019-04-25 22:23  PyTorch-RL-master\utils\replay_memory.py
     文件         126  2019-04-25 22:23  PyTorch-RL-master\utils\tools.py
     文件        1949  2019-04-25 22:23  PyTorch-RL-master\utils\torch.py
............此处省略1个文件信息

评论

共有 条评论