多臂赌博机(Multi-Armed Bandit)问题与UCB

12 天前(已编辑)
3

多臂赌博机(Multi-Armed Bandit)问题与UCB

强化学习入门:理解 UCB 动作选择策略

前言:

最近在阅读强化学习导论,由于内容过于理论,看的有些迷茫。为了更好地理解相关知识,计划开始结合AI的回答来做一些笔记。

多臂赌博机(Multi-Armed Bandit)

想象一下你面前有很多台老虎机,每台老虎机吐钱的概率是不同的,但是你事先不知道哪台概率高,哪台概率低。你的目标是在有限的次数内,尽可能多地从这些老虎机里赢钱。这就是一个经典的多臂赌博机(Multi-Armed Bandit)问题。

在强化学习中,智能体(Agent)就像是玩老虎机的你,它需要在一个环境中做出动作(Action),比如选择拉哪一台老虎机的摇臂。每次动作之后,环境会给出一个奖励(Reward),比如老虎机吐出的钱。智能体的目标是学习一个策略(Policy),也就是选择动作的方法,来最大化它能获得的总奖励。

核心挑战:探索 (Exploration) vs. 利用 (Exploitation)

智能体如何选择动作呢?

  1. 利用 (Exploitation):

    • 做法: 坚持选择当前已知能够带来最高平均奖励的动作(比如一直玩那台看起来最容易出钱的老虎机)。
    • 好处: 能稳定地获得当前已知的最好奖励。
    • 坏处: 可能错过一个实际上更好但尚未充分尝试的动作。
  2. 探索 (Exploration):

    • 做法: 尝试不同的动作,包括那些目前看起来不是最优的,目的是收集更多关于它们的信息(比如试试别的老虎机)。
    • 好处: 有机会发现比当前已知最优动作更好的新动作。
    • 坏处: 可能会在效果不佳的动作上浪费尝试次数和时间。

简单的动作选择策略及其局限

  • 贪心策略 (Greedy): 永远选择当前看起来最好的动作。
    • 问题: 纯粹利用,容易陷入局部最优解,无法发现潜在的更好选择。
  • ε-贪心策略 (Epsilon-Greedy): 大部分时间选择当前最好的动作(利用),但有 ε 的小概率随机选择一个动作(探索)。
    • 问题: 探索是完全随机的,不够智能,没有优先考虑那些“更有探索价值”的动作。

UCB (Upper Confidence Bound - 置信区间上界) 策略

  • 优先考虑:
    • 已被证明效果好的动作(高平均奖励)。
    • 尚未充分尝试,但潜力巨大(因为不确定性高而被赋予乐观估计)的动作。
  • 效果: 它鼓励智能体尝试那些“知之甚少”的选项,有效避免过早收敛到次优动作,并随着信息积累逐渐聚焦于最优动作。

它不仅考虑一个动作过去的平均奖励,还考虑我们对这个动作估计的 不确定性。对于每个可能的动作,UCB 会计算一个分数:

UCB 分数 = (当前估计的平均奖励) + (不确定性奖励加成)

  1. 当前估计的平均奖励 (Exploitation Part):

    • 计算方式:该动作迄今为止获得的总奖励 / 该动作被选择的总次数。
    • 作用:反映了该动作基于历史数据的表现,数值越高,越倾向于被“利用”。
  2. 不确定性奖励加成 (Exploration Part):

    • 这是 UCB 的关键,用于量化对动作估计的不确定程度。
    • 特点:
      • 一个动作被选择的 次数越少,我们对它的了解就越少,不确定性越高,这个 加成项就越大,鼓励探索。
      • 一个动作被选择的 次数越多,我们对它的估计就越自信,不确定性越低,这个 加成项就越小
    • 依赖关系: 这个加成项通常与总尝试次数()和该特定动作被尝试的次数()有关。一个常见的形式是 ,其中 是一个超参数,用于控制探索的程度。

UCB 的工作流程

在每个决策点:

  1. 智能体为每一个可以采取的动作计算其当前的 UCB 分数。
  2. 智能体选择那个 UCB 分数最高的动作 执行。

这样如何平衡探索与利用?

  • 高平均奖励 + 低不确定性: 如果一个动作历史表现很好且被尝试多次(不确定性加成小),它的高平均奖励仍然可能使其 UCB 分数最高(倾向于利用)。
  • 中等/低平均奖励 + 高不确定性: 如果一个动作历史表现一般或较差,但被尝试的次数很少(不确定性加成很大),这个巨大的加成可能使其总 UCB 分数超过其他动作,从而被选中(倾向于探索)。
  • 动态调整: 随着某个动作被选择次数增多,其不确定性加成会下降。
    • 如果它确实是好动作,其平均奖励会保持或升高,继续被选中。
    • 如果它是不好的动作,其平均奖励会下降,即使不确定性降低,总分也会下降,被选中的概率降低。
  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...