高端 AI : 以 Python 做深度增强式学习

使用深度学习和神经网络掌握人工智能的完整指南

繁體中文課程介紹

从这 6.5 小时的课程,你会学到

  • 创建各种深度学习代理人 ( agents )
  • 针对任何问题应用各种先进的增强性( reinforcement )学习算法
  • Q-Learning 与深度神经网络
  • 神经网络的策略梯度法
  • RBF 网络的增强性( Reinforcement )学习
  • 使用具有深度Q学习 ( Deep Q-Learning ) 的卷积( Convolutional )神经网络

要求

  • 了解强化学习基础知识、MDP、动态规划、蒙地卡罗、TD 学习
  • 大学水准的微积分和机率
  • 体验 Python 和 Numpy 建构机器学习模型
  • 了解如何使用 Theano 和 Tensorflow 创建前馈( feedforward )、卷积( convolutional )和递归( recurrent )神经网络

课程说明

本课程全部是关于深度学习神经网络增强式学习中的应用

如果你已经参加了我的第一个增强式学习课程,那么你知道增强式学习是我们可以用 AI 做的尖端技术。

具体而言,深度学习与增强式学习的结合使得 AlphaGo 在策略游戏 Go 中击败了世界冠军,发展了自动驾驶汽车,也让机器能以非人的玩家身份玩视频游戏。

其实从 70 年代以来,已有增强式学习,但一直到最近迄今都没有实现。

世界正在以飞快的速度变化。 加利福尼亚州正在改变他们的规定,以便自动驾驶汽车公司可以在没人监督的情况下测试他们的汽车。

我们已经看到,增强式学习与监督式和非监督式学习是完全不同的机器学习。

有监督和无监督的机器学习算法用于分析和预测数据,而增强式学习则是训练代理人与环境进行交互并使其最大化。

与有监督和无监督学习算法不同,增强式学习代理人具有原动力 – 他们希望达到目标。

这是一个非常吸引人的视角,它甚至可以进行有监督/无监督的机器学习,事后看来“数据科学”看起来很无聊。为什么要训练神经网络来了解数据库中的数据,何时可以训练神经网络与真实世界进行交互?

虽然深度增强性学习和 AI 具有很大的潜力,但它也带来巨大的风险。

Bill Gates 和 Elon Musk 公开声明人工智能对经济稳定甚至我们存在产生的一些风险。

正如我们在第一次增强性学习课程中学到的,培训增强性学习代理的主要原则之一是,在培训 AI 时会产生意想不到的后果。

人工智能并不像人类那样思考,所以他们想出了新颖且非直观的解决方案来实现他们的目标,通常以惊异的领域专家的方式 – 人类是最擅长的。

OpenAI 是由 Elon Musk、Sam Altman(Y Combinator)等人创立的非营利组织,目的是确保 AI 以有利而不是有害的方式前进。

部分背后的动机是 AI 给人类带来的生存风险。他们认为开放式协作是减轻风险的关键之一。

OpenAI 的一大优点是他们有一个名为 OpenAI Gym 的平台,我们将在这个课程中大量使用它。

它允许世界上任何地方的任何人在标准环境中训练他们的增强式学习代理人。

在这门课程中,我们将通过处理更复杂的环境,特别是 OpenAI Gym 提供的环境,来巩固我们在最后课程中所做的工作:

  • CartPole
  • Mountain Car
  • Atari games

为了培养有效的学习代理人,我们需要新的技术。

我们将通过查看 TD Lambda 算法扩展我们对时序差异学习( Temporal Difference Learning )的知识,我们将看看一种称为 RBF 网络的特殊类型的神经网络,我们将看看策略梯度法,然后我们将于深度Q学习 ( Deep Q-Learning ) 主题中结束本课程。

谢谢你的阅读,希望在课堂上见到你!

笔记:

所有的课程代码都可以从我的github下载:/ lazyprogrammer/ machine_learning_examples 在目录中:rl2

确保你总是“ git pull ”,以取得最新版本!

硬性先决条件/知识你应该有:

  • 微分
  • 机率
  • 面向对象编程
  • 写 Python 程序 : if/else、loops、 lists、dicts、sets
  • 写 Numpy 程序 : 矩阵和矢量运作
  • 线性回归
  • 梯度下降
  • 了解在 Theano 与 TensorFlow 如何创建前馈 、 卷积和 复发神经工作
  • 马可夫决策过程 (Markov Decision Proccesses ,MDPs)
  • 了解如何应用动态编程( Dynamic Programming )、蒙地卡罗( Monte Carlo ) 与应用时序差异学习( Temporal Difference Learning )来解决 MDPs

提示(通过课程):

  • 以 2x 观看。
  • 拿手写笔记。 这将大大增加你记住消息的能力。
  • 写下方程。 如果你不这样做,我保证它看起来像乱码。
  • 在讨论板上提出许多问题。 越多越好!
  • 意识到大多数练习将需要几天或几周才能完成。
  • 自己编写代码,不要只是坐在那里看我写程序。

修课顺序

  • 查看讲座 “ What order should I take your courses in?” (可在我的任何课程的附录中找到,包括免费的 Numpy 课程)

目标受众

希望学习最先进的人工智能技术、具有强大技术背景的专业人士和学生

讲师简介

Lazy Programmer Inc 数据科学家和大数据工程师

我是一名数据科学家、大数据工程师和全端软件工程师。

我有电脑工程的硕士,专长为机器学习和模式辨识。

我曾在网络广告和数字媒体企业担任过数据科学家和大数据工程师,围绕所谓的数据建构各种高流量的 web 服务。我曾经使用 Hadoop / Pig / MapReduce 创建新的大数据管道,也曾创建机器学习模型来预测点击率,使用线性回归、Bayesian Bandits 和协同过滤 ( collaborative filtering )创建新闻推荐系统,并使用A / B测试验证结果。

我曾在大学部与研究所教授数据科学、统计学、机器学习、算法、微积分、电脑图学和物理学,任职的学校如哥伦比亚大学、纽约大学、Hunter 学院和 The New School。

有多家企业已从我的 Web 编程专业知识中受益。我做所有的后端(服务器)、前端(HTML / JS / CSS)和运营/布署工作。 我使用的技术包含:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至于保存/数据库,我采用 MySQL、Postgres、Redis、MongoDB等。

英文字幕:有

  • 想要了解如何将英文字幕自动翻译成中文? 请参考这篇 How-To

课程网址   ♥找优惠折扣码?

Sponsored by Udemy

 欢迎使用e-mail订阅 Soft & Share 

发表评论

Powered by WordPress.com.

Up ↑

%d 博主赞过: