AI学习笔记之——多臂老虎机(Multi

  • 时间:
  • 浏览:1
  • 来源:万人炸金花_万人炸金花官网

上文我试图用最简单的语言和合适的公式解释强化学习中的有几个多多 经典现象和有几个经典算法,当然还有有几个多多 更好的算法叫贝叶斯法律妙招 ,会用到过后介绍的贝叶斯定理以及Bernoulli likeihood 的更多数学知识,我会找将会单独来讲讲。

将会有几个多多 拉杆都都都可不都可以 了 被拉到,都都都可不都可以 了 你是什么拉杆的预估中奖概率就不多再改变。然而通过直觉就都都都可不都可以 理解,有几个多多 拉杆的预估概率的准确度是跟你总共拉了有几个次拉杆(所有的拉杆被拉的次数)相关的,拉得不多预估概率就越准确。你是什么过后大家 引入UCB概率,而都有预估概率来作为确定拉杆的评判标准。

相关文章

AI学习笔记之——强化学习(Reinforcement Learning, RL)AI学习笔记之——如保理解机器学习(Machine Learning)人工智能学习笔记之——人工智能基本概念和词汇人工智能学习笔记二 —— 定义现象

在有限次数下,你到底是坚持在你认为中奖概率高的拉杆上投入更多的次数呢(Exploit),还是去试试别的拉杆(Explore)呢?如保分配Explore和Exploit的次数的现象,假使 著名的探索-利用困境(Explore-Exploit dilemma(EE dilemma))

其中X

这里涉及到的理论知识叫做Chernoff-Hoeffding bound理论。大意假使 ,真实概率与预估概率的差距是随着实验(拉杆)的次数成指数型下降的。

假设你是什么老虎机有有几个拉杆,最笨的法律妙招 假使 每个拉杆都试有几个,找到中奖概率最大的那个拉杆,过后把过后有限的游戏将会都用在你是什么拉杆上。

理论上来说真实概率高的拉杆其预估概率下降的下行传输速率 会比真实概率低的拉杆慢,全都多试有几个过后就能找到真实概率最高的那个拉杆。

第j个拉杆被拉到的次数。

首先, 将老虎机每个拉杆都设置有几个多多 比较高的预估中奖概率(比如都有80%),过后每拉一次选中的拉杆, 你是什么拉杆的的预估概率就会改变。

是第j个拉杆的的UCB概率,X

多臂老虎机是有几个多多 有多个拉杆的赌博机,每有几个多多 拉杆的中奖几率是不一样的,现象是:如保在有限次数内,确定拉不同的拉杆,获得最多的收益。

是你是什么拉杆的预估概率,N是总共实验的次数,N

具体操作假使 ,每次玩的过后就抽有几个多多 0到1的随机数,将会你是什么数大于ε,则玩你认为中奖概率(预估中奖概率)最大的那个拉杆。将会小于ε,则随机再确定有几个多多 拉杆,得到收益后,更新你是什么拉杆的预估中奖概率,以便于下次确定做参考。

ε贪婪法律妙招 最难的假使 如保科学地确定ε,而预估回报方从原来深度图,失去了ε,只保留其"利用"(Exploit)的帕累托图,用预设中奖概率"天花板"的法律妙招 来除理Explore-Exploit dilemma.

比如,我第一次确定拉第有几个多多 拉杆,发现都都都可不都可以 了 中奖,那你是什么拉杆的预估中奖概率就从80%变成了80%了。下一次Exploite确定拉杆的过后,第有几个多多 拉杆的预估概率就都有最高了,大家 就去找你是什么过后预估概率最高的拉杆来拉,每拉一次更新一下你是什么拉杆的预估中奖概率。

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言将会访问我的Steemit主页

上一篇文章简要介绍了一下强化学习,强化学习是有几个多多 非常庞大的体系,与监督学习和非监督学习相比,其广度和深度图都大的多,涉及到全都经典的决策算法,对统计学知识有很高的依赖。作为强化学习的基础,这篇文章研究一下你是什么领域的有几个多多 经典决策现象——多臂老虎机现象。

你是什么法律妙招 假使 设定有几个多多 ε值, 用来指导到底是Explore 还是 Exploit。比如将ε设定为0.1,以保证将10%的次数投入在探索(Explore),90%的次数用于利用(Exploit)。

然而你是什么法律妙招 并都有可靠的,将会每个拉杆试800次显然比试10次所获得的中奖概率(预估概率)更加准确。比如你试了10次,其中那个原来中奖概率不高的拉杆,有将会将会你运气好,会过后你有几个多多 高概率中奖的假象。

大家 发现中间有几个多多 法律妙招 中,某个拉杆预估的中奖概率是随着你是什么拉杆被拉动的次数而变化的。大家 是通过预估概率作为评判标准,来决定去拉哪有几个多多 拉杆。

根据你是什么理论就都都都可不都可以 引入UCB概率,公式如下:

同样的你是什么算法都都都可不都可以 了"利用"(Exploit)的帕累托图,将判断Exploit的标准从预估中奖概率改成UCB概率即可。