人工智能:Python 中的强化学习 ( Reinforcement Learning )

Google AlphaGo 打败了世界围棋冠军,自动驾驶车也开始在实测,其背后运用的技术即是增强式学习,2017 年3月,双月刊《麻省理工科技评论》将「增强式学习」选为 10 大突破性科技。在 Udemy 上可以找到增强式学习课程并不多,这位讲师就包办了两堂,他有列出想要从机器学习,深度学习,到增强式学习的一系列课程,想要思考增强式学习在未来趋势的应用,并在自己的职涯更上一层楼,不妨参考这位讲师所建议的一系列学习阶梯

对于产业界在增强式学习的应用进展,可以参考天下杂志的报导

里面让我觉得有点惊讶的是增强式学习已经被机械业用来辅助开发穿鞋带机,所以增强式学习已经是很明显的「硬趋势」,接下来的「软趋势」就要看你我的想像力了。

繁體中文課程介紹

从这 7.5 小时的课程,你会学到

  • 应用基于梯度的监督式机器学习方法做强化学习 ( reinforcement learning )
  • 在技​​术层面上学习强化学习
  • 了解强化学习与心理学之间的关系
  • 实现 17 种不同的强化学习算法

要求

  • 微积分
  • 机率
  • 马可夫模型
  • The Numpy Stack ( 译注 : Python 的 Numpy 套件 )
  • 至少有几个监督式机器学习 ( supervised machine learning )方法的经验
  • 梯度下降 ( Gradient descent )
  • 良好的面向对象编程技巧

说明

当人们谈论人工智能时,他们通常并不意味著监督式和非监督式机器学习。

这些任务与我们认为的人工智能可以做的事相比,是非常微不足道的 – 下西洋棋和围棋,驾驶汽车以及以超人等级玩视频游戏。

强化学习最近已经变得流行起来因为做了上述这些事。

很像深度学习,很多理论在 70 年代和 80 年代被发现,但直到最近,我们已经能够亲眼看到可行的惊人效果。

在2016年,我们看到 Google 的 AlphaGo 在围棋比赛中击败了世界冠军。

我们看到人工智能玩视频游戏,如 毁灭战士和超级马力欧。

自动驾驶汽车已经与真人驾驶车开始在真正的道路上驾驶,甚至搭载乘客(Uber),没有人力的协助。

如果这听起来很神奇,那么为了将来,你可以激励自己,因为加速回报的法则决定了这一进步只会继续呈指数级成长。

学习监督式和非监督式机器学习是不小的壮举。到目前为止,我已经完成了只有这些主题的 16 个课程。

而增强式学习则开辟了一个全新的世界。正如你将在本课程中学习的那样,增强式学习的典范与监督式和非监督式学习有所不同。

它在行为心理学和神经科学领域引发了新的和惊人的洞见。正如你将在本课程中学到的,当涉及到教导一位代理人和教导一只动物甚至人类时,有许多类似的过程。这是我们到目前为止最接近一个真实整体人工智能所能做到的事。

本课程涵盖什么?

  • 多武装强盗问题( multi-armed bandit problem )和探险开发两难
  • 计算移动平均值及其与随机梯度下降关系的方法
  • 马尔可夫决策流程(MDPs)
  • 动态编程
  • 蒙地卡罗方法
  • 暂时的差异(TD)学习
  • 近似方法(即如何将深层神经网络或其他可微分模型插入到 RL 算法中)

如果你准备好参加全新的挑战,并且学习你在传统监督式机器学习,非监督式机器学习,甚至深入学习中从未见过的人工智能技术,那么本课程将是为你而设计的。

在课堂上见!

注意:

本课程的所有代码都可以从我的 github下载:

/lazyprogrammer/machine_learning_examples

在目录:rl

确保你总是使用 “git pull”,所以你会有最新的版本!

你必须事先了解的知识:

  • 微积分
  • 机率
  • 面向对象编程
  • Python 编程 : if/else, loops, lists, dicts, sets
  • Numpy 编程 : matrix and vector operations
  • 线性回归
  • 梯度下降
  • 技巧 (为了要走完整堂课程)
  • 使用两倍速观看
  • 使用手写笔记。这将大大增加你保留信息的能力。
  • 写下方程序。如果不这样做,我保证只会看起来像乱七八糟的。
  • 在讨论板上提出很多问题。越多越好!
  • 意识到大多数练习将花费数天或数周才能完成。
  • 自己编写代码,不要只是坐在那里看我的代码。

有用的课程顺序:

目标受众是?

  • 任何想要学习人工智能,数据科学,机器学习和深入学习的人
  • 学生和专业人士

讲师简介

Lazy Programmer Inc  数据科学家和大数据工程师

我是一名数据科学家、大数据工程师和全端软件工程师。

我有电脑工程的硕士,专长为机器学习和模式辨识。

我曾在网络广告和数字媒体企业担任过数据科学家和大数据工程师,围绕所谓的数据建构各种高流量的 web 服务。我曾经使用 Hadoop / Pig / MapReduce 创建新的大数据管道,也曾创建机器学习模型来预测点击率,使用线性回归、Bayesian Bandits 和协同过滤 ( collaborative filtering )创建新闻推荐系统,并使用A / B测试验证结果。

我曾在大学部与研究所教授数据科学、统计学、机器学习、算法、微积分、电脑图学和物理学,任职的学校如哥伦比亚大学、纽约大学、Hunter 学院和 The New School。

有多家企业已从我的 Web 编程专业知识中受益。我做所有的后端(服务器)、前端(HTML / JS / CSS)和运营/布署工作。 我使用的技术包含:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至于保存/数据库,我采用 MySQL、Postgres、Redis、MongoDB等。

英文字幕:有

  • 想要了解如何将英文字幕自动翻译成中文? 请参考这篇 How-To

课程网址  ♥找优惠折扣码?

Sponsored by Udemy

 欢迎使用e-mail订阅 Soft & Share 

发表评论

Powered by WordPress.com.

Up ↑

%d 博主赞过: