股票合作私募实力操盘手代客理财保赚不亏帐户托收益翻倍

有资源网yoqq.cn
 
 
查看: 102|回复: 0

GitHub万星资源:强化学习算法实现,教程代码样样全,还...

[复制链接]

2012

主题

2029

帖子

6852

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
6852
发表于 2019-8-11 18:05:11 | 显示全部楼层 |阅读模式
                                                                                    原标题:GitHub万星资源:强化学习算法实现,教程代码样样全,另有具体学习规划  泉源:量子位

   

    自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让老手人陶醉,让生手人惊讶。

   


    这里恰有一份标星过万的强化学习资源,既有教程保举,又有配套训练,网友学了都说好,而且还在及时更新。

    入学要求并不高,只必要一些底子的数学和呆板学习知识。

清楚的学习路径   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(1)

    想要入门强化学习,一份优质的课程必不可少。

    强化学习资源千万万,项目作者 Denny Britz 鼎力大肆推荐这两个:

    David Silver 的强化学习课程:
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(2)

    以及 Richard Sutton 和 Andrew Barto的《强化学习:简介(第二版)》:
http://incompleteideas.net/book/RLbook2018.pdf

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(3)

    p.s. 实测无需邪术

    Denny Britz 小哥表现,这两本书险些涵盖了入门强化学习需要相识的大部门研究论文,基础决定高度,理论知识照旧要扎踏实实学起来。

    理论有了,可书里并没有算法实现。

    别担心,帮人帮到底,送佛送到西,Denny Britz 亲主动手,用 Python,OpenAI Gym 和 Tensorflow 实现了大多数尺度强化算法,并把它们都共享了出来,方便各人共同课本食用。

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(4)

    简直太知心。

    在这份万星资源里,每个文件夹都对应着教材的一个或多个章节。除了练习和办理方案之外,每个文件夹下还包罗了一系列学习目的,基础概念择要,以及相干链接。

    以基于模子的强化学习:利用动态规划的计谋迭代和值迭代这一章为例。

    这一章配套的是 David Silver RL课程的第三讲,动态编程规划。

    起首是学习目标:

  •     了解策略评估和策略改进之间的区别,以及这些流程怎样相互作用
  •     明白策略迭代算法
  •     理解值迭代算法
  •     了解动态规划方法的范围性

    设定勤学习目标,这份教程还替你划了重点概念。

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(5)

    末了,奉上实战演练。

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(6)

    大框架已经搭好,只需专注意点思索如何填空:

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(7)

    文后附标准答案:

   


聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(8)

实现算法列表    这份教程如今涵盖了以下算法实现。

  •     动态规划策略评估
  •     动态规划策略迭代
  •     动态规划值迭代
  •     蒙特卡洛猜测
  •     Epslion-Greedy 策略的蒙特卡洛控制
  •     具有紧张性抽样的蒙特卡洛非策略控制
  •     SARSA(策略 TD 学习)
  •     Q学习(非策略 TD 学习)
  •     线性函数迫近的Q学习
  •     雅达利游戏的深度Q学习
  •     雅达利游戏的双重深度Q学习
  •     优先履历回放的深度Q学习(施工中)
  •     策略梯度:基线强化
  •     策略梯度:基线Actor-Critic 算法
  •     策略梯度:具有一连动作空间的基线 Actor-Critic 算法
  •     连续动作空间简直定性策略梯度(施工中)
  •     DDPG(施工中)
  •     异步上风 Actor-Critic 算法(A3C)

    学习路径云云清晰,如许的优质资源,不Mark一下吗?

   

       
聊天灌水-GitHub万星资源:强化学习算法实现,教程代码样样全,还...(9)

                                                                                                                                                                                                                                                                                                                                                            (声明:本文仅代表作者观点,不代表新浪网态度。)                                                                                                                                                       

                                                                                                                  
有资源网- 版权声明 1、本主题所有言论和图片纯属会员个人意见,与有资源网立场无关。
2、本站所有主题由该帖子作者发表,该帖子作者有资源网享有帖子相关版权。
3、有资源网管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者 有资源网的同意。
有资源网是一个网络技术交流、游戏交流、娱乐休闲的温馨家园.提供网络最新it资讯、热门电影电视剧、破解软件工具下载_技术和娱乐性的综合型大论坛论资源网
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

快速回复 返回顶部 返回列表