New: reinforcement-learningAll contenthive-129948krhive-196917zzanhive-183959hive-185836hive-180932hive-166405steemhive-150122hive-101145photographyhive-183397hive-144064uncommonlabhive-184714hive-188619hive-193637krsuccesshive-145157hive-103599bitcoinhive-193186hive-180301lifeTrendingNewHotLikersnigelmarkdias (69)in steemhunt • 2 years agoAlphaTensor - Matrix multiplication algorithm discovery AI systemAlphaTensor Matrix multiplication algorithm discovery AI system Screenshots View Image View Image View Image View Image View Image View Image View Image View Image…hongtao (56)in ai • 6 years ago强化学习——强化学习的算法分类上一篇文章 回顾了强化学习的核心概念,这里继续通过Open AI 的 Spinning Up 项目总结强化学习(RL)的算法,通过分类和对比的方法系统介绍强化学习的算法。 1. 算法分类 --- 图片来自 Open AI Spinning up 项目 --- 由于强化学习是一个更新速度非常快的领域,所以准确地全面地分类是相当困难的,Spinning up…hongtao (56)in ai • 6 years ago强化学习——重拾强化学习的核心概念虽然之前的文章零零散散地介绍了强化学习的核心概念,但是从来没有系统性地总结这些概念。Spinning Up 项目的 官方文档 总结得非常好,通俗易懂。通过学习这篇文章,对强化学习的核心概念又有了深入的理解,这篇文章就分享一下我的理解。 1. 核心概念词汇 强化学习的核心概念和词汇包括——中英文对照,准确的定义我就不赘述了,只是提炼这些概念和词汇中最重要的关键点。…hongtao (56)in ai • 6 years ago强化学习实战——OpenAI Spinning Up项目前面的文章介绍了太多强化学习的理论,今天我们就通过具体项目,理论结合实践深入理解和学习强化学习。 1. Spinning Up 项目简介 Spinning Up 是大名鼎鼎的Open…hongtao (56)in ai • 6 years agoAI学习笔记——浅谈强化学习应用于游戏博弈DeepMind 最近又上了新闻,他们最新的AlphaStar在星际争霸的游戏中与人类顶级星际玩家打成了11比1,几乎完胜人类玩家。这篇文章就结合DeepMind的创始人之一David Silver的最后一节强化学习课程,简单探讨一下AI是如何在游戏领域学习并战胜人类的。 1.完全信息双人零和博弈 首先,将游戏简化为双人零和博弈的游戏,即为…hongtao (56)in ai • 6 years agoAI学习笔记——强化学习之探索-利用(Exploration-Exploitation)困境在之前的一篇文章中讲到了 多臂老虎机 问题,这是强化学习中探索-利用困境的经典案例。这篇文章将更多从理论上来探讨如何解决探索-利用困境。 1. 多臂老虎机问题回顾 多个拉杆的赌博机,每一个拉杆的中奖几率是不一样的,问题是:如何在有限次数内,选择拉不同的拉杆,获得最多的收益。 将这个问题用强化学习的数学模型进行描述…teamhumble (74)in steemhunt • 6 years agocomixify - web-based working solution for video comixificationcomixify web-based working solution for video comixification Screenshots Hunter's comment ok, this is really fricking cool, i've already got a use case solution for this and i'll be…hongtao (56)in ai • 6 years agoAI学习笔记——强化学习之值函数近似(Value Function Approximation)(2)前文 介绍了函数近似来预测V函数,但是还没涉及到行动和控制,这篇文章就来谈谈用近似Q函数来控制和行动。 1. 控制——递增算法 Incremental Control Algorithms 回顾前文 动态规划(DP)解决MDP 我们用迭代+Greedy的方法寻找最优策略 同样的,在使用近似函数之后,也可以使用类似的方法 分为两个步骤…hongtao (56)in ai • 6 years agoAI学习笔记——求解最优MDP上一篇文章 介绍了MDP的基本概念,但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中,可以有无数种策略(policy),找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。 用数学表达式表达出来就是: 其中加星号* 的v和q表示最优的v和q。 还记得…hongtao (56)in ai • 6 years agoAI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介前面好几篇文章都在介绍强化学习(RL),以及强化学习的一些具体算法,但是强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来说说MDP。 讲MDP的文章和资料非常多,理论和数学公式也能轻易找到,所以本文并不是要严谨地推导MDP,而是想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人) 在UCL的课程…hongtao (56)in ai • 6 years agoAI学习笔记——Sarsa算法上一篇文章 介绍了强化学习中的Q-Learning算法,这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。 1. 回顾Q Learning 还是同样的例子,红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏,将会的到+1的奖励,如果掉进黑色陷阱就回的到-1的奖励(惩罚)。 首先回顾一下Q表如下 Q table…hongtao (56)in ai • 6 years agoAI学习笔记——Q Learning继续接着 上一篇 ,这篇文章介绍强化学习中的一个经典算法——Q Learning. 在 之前的文章 中已经介绍过了,强化学习就是让Agent(机器人)在与环境的互动过程中不停学习,从而学到解决问题的最佳路径的过程。 强化学习通常包括这么几个重要概念: 状态(State (S)) 动作(Action(A)) 奖励(Reward(R))…hongtao (56)in ai • 6 years agoAI学习笔记之——多臂老虎机(Multi-armed bandit)问题上一篇文章 简要介绍了一下强化学习,强化学习是一个非常庞大的体系,与监督学习和非监督学习相比,其广度和深度都大的多,涉及到很多经典的决策算法,对统计学知识尤其依赖。作为强化学习的基础,这篇文章研究一下这个领域的一个经典决策问题——多臂老虎机。 1.探索-利用困境(Explore-Exploit dilemma)…hongtao (56)in ai • 6 years agoAI学习笔记之——强化学习(Reinforcement Learning, RL)诚如在 之前文章 提到的,机器学习按照从那里学的角度可以分为:监督学习,无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类,而第三类强化学习(RL)确是最接近我们所想象的人工智能。 强化学习简介 强化学习(RL)就是在环境中与环境的互动不停地学习的,非常像人类学习走路,学习骑车,学习游泳等等。…awesome-uai (25)in deep • 7 years agoDeep Reinforcement Learning Landscape