现代贝叶斯与多臂老虎机

如题所述

第1个回答 2022-06-22

多臂老虎机是一个在探索(exploration)和开发(exploitation)过程中寻找最高收益的问题。此类“实验”能力几乎已经成为了优秀实验平台的标配。
本篇是阅读《A modern Bayesian look at the multi-armed bandit》后结合个人理解的学习总结。它总结了基于贝叶斯的随机概率匹配法和其它相关方法。

定义代表t时为止的奖励序列，代表t时选择的臂，t时刻奖励，是一个未知向量。

情况下两种例子：

定义是的期望值，最佳策略应该一直选择最大的臂。
在伯努利分布下，。

定义是的先验概率密度，此时以产生，产生y，则0时刻选择a正确概率：

定义为指示函数，时：

如果没有关于的先验，则先验视为各个是一样的，是均匀分布。
观测到奖励情况后，通过贝叶斯方法进行更新，。t时刻：

随机概率匹配用来分配a的t+1时观测值，通过一种自然平衡探索与开发的方式。

如果是来自的独立抽样，则基于大数定理：

如果是指数族，而且是它的共轭分布，则可以独立的抽样，否则可以用马可夫相关的方法进行抽样模拟。

的后验抽样足够对概率匹配进行支持 。

（5）可以不用显式计算，从模拟，并选择

随机概率匹配自然的包含了不确定性，下图为两臂情况下的情况：

在(a)中，错误选中概率为18%；在(b)中，错误选中概率为0.8%。
这个例子说明，随着学习的进行，探索的占比会减少。

此方法假设单臂未来的奖励会与一个几何分布有关：，其中
基廷斯提供了一种计算各个臂价值的算法，得到的结果称为 基廷斯指数 。它在前提可保证时是最优方案。

这部分的数学相关很复杂先跳过，简单了解可参考《算法之美》第二章相关部分。

对基廷斯指数的三个问题：

计算每个手臂奖励均值及置信区间上限，然后选上限最高的手臂。
值得注意的是，此上限并不是常见的置信区间算法，而且比较难计算。

概率匹配结合了2.3中的多种好处。

定义，先验为，它们之间相互独立。
分别代表t时刻a的累计成功次数和观测次数。
则的后验为：

其中是贝塔分布。此时最佳概率为：

验证主要关注regret，最佳选择，手臂a在t时刻的观测次数为，则t时刻的regret为：

则T时段累计regret为。以下是一些模拟对比结果。

从测试数据看RPM会比后者好得多。

可发现在批量更新场景，两种贪心策略效果都是比RPM差的。

平均效果来看，RPM效果最差，但是它的标准差最小，最优解命中率最高；参数为0.999的Gittins index平均效果最好，标准差较大，且最优解的命中率低于RPM。

RPM可以用来解决多臂老虎机问题，它基于后验抽样，易于实现、健壮性好，且在批量更新场景表现更佳。
此外这是一篇学习记录，个人理解可能不够到位，任何问题欢迎留言。

相似回答

大家正在搜