New: mote-carloAll contenthive-129948hive-196917krzzanhive-183959steemhive-150122hive-185836hive-180932hive-183397photographyhive-101145hive-144064uncommonlabhive-166405hive-188619hive-184714hive-145157bitcoinhive-103599krsuccesshive-180301hive-193637hive-179660hive-193186TrendingNewHotLikershongtao (56)in ai • 6 years agoAI学习笔记——强化学习之探索-利用(Exploration-Exploitation)困境在之前的一篇文章中讲到了 多臂老虎机 问题,这是强化学习中探索-利用困境的经典案例。这篇文章将更多从理论上来探讨如何解决探索-利用困境。 1. 多臂老虎机问题回顾 多个拉杆的赌博机,每一个拉杆的中奖几率是不一样的,问题是:如何在有限次数内,选择拉不同的拉杆,获得最多的收益。 将这个问题用强化学习的数学模型进行描述…hongtao (56)in ai • 6 years agoAI学习笔记——基于模型(Model Based)的强化学习之前发表的关于强化学习的文章,无论是基于策略的还是基于价值的还是两者均兼顾的强化学习方法都没有涉及到具体的 模型 。 1. 无模型(Model-Free)的强化学习回顾 机器人在真实环境中互动学习,然后寻找到行动策略,然后学习优化策略。 2. 基于模型(Model-Based)的强化学习简介…hongtao (56)in ai • 6 years agoAI学习笔记——Actor-Critic强化学习1. 回顾强化学习方法 我们介绍了基于价值(Value-Based)的强化学习和基于策略(Policy-Based)的强化学习,有没有结合两者优势的强化学习方法呢?答案是肯定的,那就是Actor-Critic学习方法。三者的关系如下图: 基于价值的强化学习通过学习(近似的)价值函数并采用比如Ɛ-greedy执行方法更新策略;基于策略的强化学习没有价值函数,直接学习策略;…hongtao (56)in ai • 6 years agoAI学习笔记——基于策略的强化学习1. 基于价值的强化学习回顾 前几篇文章 都是在讲通过训练值函数的近似函数,然后通过比如Ɛ-greedy探索方法获得最佳策略,这种方法叫做 基于价值 的强化学习。然而基于价值的强化学习有无法收敛,无法获得随机策略,以及可能遇到 状态重名 的问题。 无法收敛的问题在 上篇文章…hongtao (56)in ai • 6 years agoAI学习笔记——强化学习之值函数近似(Value Function Approximation)(3)前面 两篇文章 介绍了如何使用近似函数,而不是“查表”的方法找到最优策略,但是遇到了一个问题,就是在使用非线性近似函数,比如神经网络的时候,大多数情况是不收敛的。这篇文章就是来解决这个问题的。这里用到的 DQN(Deep Q-Learning) 方法实际上在之前的文章中也已经介绍过了。 1. 批方法Batch Methods…hongtao (56)in ai • 6 years agoAI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)前文 介绍了函数近似来预测V函数,但是还没涉及到行动和控制,这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制——递增算法 Incremental Control Algorithms 回顾前文 动态规划(DP)解决MDP 我们用迭代+Greedy的方法寻找最优策略 同样的,在使用近似函数之后,也可以使用类似的方法 分为两个步骤…hongtao (56)in ai • 6 years agoAI学习笔记——强化学习之值函数近似(Value Function Approximation)(1)在前面的文章介绍了 什么是MDP ,以及 如何求解最优MDP解决MDP问题 。接着又介绍了用 MD和TD的方法 在未知环境下预测MDP。在这些方法中的最优策略π就是为了获得最大值函数(V函数)Vπ(s)或者加入了行动a的Q函数Qπ(s,a)。…hongtao (56)in ai • 6 years agoAI学习笔记——强化学习之Model-Free Prediction--解决未知环境下的预测问题前面关于强化学习的文章中介绍了MDP,动态规划的方法对MDP问题的V函数进行评估和求最优策略。然而现实问题中,往往很多时候环境是未知的。那么这篇文章就介绍一下在未知环境下用Model Free的方法预测MDP。 1. Monte-Carlo (蒙特卡洛)策略估计…