SAC算法解析

如题所述

第1个回答 2022-06-16

上一篇文章介绍了利用确定策略来解决连续控制问题的DDPG，现在再来介绍一种非常牛的用随机策略来做连续控制的方法 Soft Actor Critic (SAC) 。它是一种以off-policy的方式来优化随机策略的算法，它的核心特点是 熵正则化 ，策略的训练在最大化预期回报和最大化熵之间作了个权衡，在这一点上实际也跟exploration还是exploitation有重大关系，增加熵会导致更多探索，这可以加速之后的学习，还可以防止策略过早地收敛到一个糟糕的局部最优。

为了防止有些人不太清楚熵的概念，在正式开始讲SAC之前，我稍微介绍一下熵的概念，以及随机策略的好处。

这里的熵指的是信息熵，它代表一个随机变量所有可能取值的自信息的加权求和:

正如上式所示，随机变量越是随机，熵就越大。根据热力学第二定律，自然界本身无时无刻不处在于一个熵增的过程之中，即不断走向混沌，而人类的奋斗进程则是对抗自然的熵减过程，他期望变得明确和有序，强化学习的过程也是如此。

一般的，强化学习的目标在于最大化奖励，即最大化动作状态价值 ,确定策略可以直接选择最大的来行动，但是这样就会使得操作模式是固化的，比如训练一个机械臂去捡东西，实际运动轨迹可以多种多样，而确定策略就会使这个动作变得很单调。并且如果是在对抗的环境中，这种固定化的操作也容易被对手利用而存在漏洞，而基于策略随机采样的动作来行动就可以有效避免这一点，并且的熵越大，也便代表动作越随机，越能在同一情况下做出不同的动作，让对手无法轻易预测，当然在训练时鼓励熵增带来的探索优化的好处也是不言而喻的。

actor-critic方法依赖于策略梯度，目标是利用梯度上升来让最大化，因为期望不好求，于是就用蒙特卡洛方法来近似：

假设动作是维的，那么策略使用个高斯分布连乘的方式来近似：

而其中的和使用神经网络来近似：

相对于A3C之类的算法只给策略网络增加了熵正则，SAC给价值网络也增加了熵正则，这样鼓励产生更多的状态空间，进一步增加了探索性，使得模型更具鲁棒性。它的做法是通过修改了普通策略学习的目标函数，在每一步的回报中增加了策略的熵，于是目标就变成了

于是策略梯度就变成了:

然后训练方式基本和普通的actor-critic架构一致...

如果只是像上面那样的网络来训练，很明显会存在高估的问题，在最大化Q值时会导致高估，而在通过自身网络来计算TD目标的时候又将高估无限传导进一步导致了高估。因此，为了解决高估问题，我们必须要斩断这种传导以及最大化带来的高估。SAC采用了一个一个类似TD3算法中的clipped double-Q 技巧。

如上图所示，SAC使用两个Q网络，并通过取最小的Q值的方式来避免最大化带来的高估，并且使用延迟的价值网络（通过Polyak平均）来缓解bootstraping带来的高估无限传递。具体是这样一个训练过程：

另外，注意一点，上面提到的那个策略熵平衡系数可以手工设置超参数，也可以使用自动的方式调整的，工业上倾向于自动的方式。

相似回答

SAC算法解析答：如果只是像上面那样的网络来训练，很明显会存在高估的问题，在最大化Q值时会导致高估，而在通过自身网络来计算TD目标的时候又将高估无限传导进一步导致了高估。因此，为了解决高估问题，我们必须要斩断这种传导以及最大化带来的高估。SAC采用了一个一个类似TD3算法中的clipped double-Q 技巧。如上图所示，...

sac传递变量答：SAC采用了一个一个类似TD3算法中的clippeddouble-Q技巧。SAC使用两个Q网络，通过取最小的Q值的方式来避免最大化带来的高估，使用延迟的价值网络。

论文解读:Policy Distillation and Value Matching in Multiagent Rein...答：SAC的actor输出的是随机变量,这也是本文为什么选择使用SAC框架的原因。接着,作者SAC扩展到多智能体,提出MA-SAC,同时加入前面提到的DVM。作者在文章中指出,这里使用Policy Distillation方法来训练策略网络,因此其actor网络输出的都是概率分布。对于MADDPG这样的确定性策略的算法,由于策略网络输出的是连续的动作值,因此无法...

SAC应用生态,相比于传统数据应用技术具有哪些优势?答：传统的数据应用技术可以说是存在一定的漏洞的，只要是企业的信息与网络连接就会被中心机构接收到，而中心机构为了赚取到更高的利益就会出卖企业的信息，进而损害企业的利益。SAC应用生态十分位应用链和数据链两种体系的，其中应用链采用的是DOCKER部署，能够有效的降低企业级应用的部署难度，基于SDK、接口、智能...

DMPO算法(实践向)答：DMPO算法的独特之处在于其设计了一个变分分布，巧妙地在约束条件下，与策略网络参数化的SAC方法相融合。策略优化的目标在于寻找一个既灵活又可控的策略，灵感源自于条件概率的深刻理解，它在策略的优化过程中扮演着重要角色。二、策略提升：E步与M步的精妙融合</ E步的核心任务是求解变分分布q，其目标可...

大学生搞定这几大算法你就是编程大佬答：1.A搜索算法 2.集束搜索 3.二分查找 4.分支界定算法 5.Buchberger算法 6.数据压缩 7.密钥交换算法 8.Djk stra算法 9.离散微分算 10.动态规划算法 11.欧几里得算法 12.期望最大算法 13.快速傅里叶变换 14.梯度下降 15.哈希算法 16.堆排序 17.牛顿法 18.LLL算法 19.合并排序 20.两次筛法 21.BANS AC...

大家正在搜

解析算法和枚举算法算法解析树解析算法 k中心点算法例题解析最短路线算法详细解析 vb解析算法正则表达式解析算法 A*算法算法