数据科学 : 用 Python 做自然语言处理 (NLP)

完整的实用自然语言处理( NLP )指南:垃圾邮件检测、情感( sentiment )分析、文章调整器( article spinner )和潜在语意( latent semantic )分析。

课程介绍:English 繁中

从这 5.5 小时的课程,你会学到

  • 使用 Python 编写你自己的垃圾邮件检测代码
  • 使用 Python 编写你自己的情感分析代码
  • 使用 Python 运行潜在语意( latent semantic )分析或潜在语意索引
  • 了解如何使用 Python 中编写自己的文章调整器( article spinner )

要求

  • 安装 Python,它是免费的!
  • 有信心编写 Python 代码
  • 安装 Python 的数据库,如Numpy、Scipy、Scikit-learn、Matplotlib 和 BeautifulSoup
  • 熟悉 PCA、马尔可夫模型、逻辑回归

课程说明

在本课程中,你将使用自然语言处理( Natural Language Processing, NLP ) 建构多种实用系统。NLP 是处理文本( text )和语音( speech )的机器学习和数据科学的分支。本课程不是我深入学习系列的一部分,因此它不包含任何必备数学 – 只需会用 Python 写程序即可。本课程的所有材料都是免费的。

在简要讨论 NLP 是什么以及它可以做什么之后,我们将开始建构非常有用的东西。我们要创建的第一件事就是垃圾邮件检测器。由于类似这样的系统,相比于 21 世纪初,你可能收到相对少少很多的垃圾邮件。

接下来我们将在 Python 中为情感分析建构一个模型。这可以让我们给一段文本分配一个分数,告诉我们它有多积极或消极。人们使用 Twitter 上的情绪分析来预测股票市场。

我们将介绍一些实用的工具和技术,如 NLTK(natural language toolkit,自然语言工具包)库和潜在语意分析( latent semantic analysis, LSA )。

最后,我们通过建构一个文章调整器( article spinner )。 这是一个非常棘手的问题,即使是目前最受欢迎的产品也没有完美地解决。 这些讲座旨在让你开始,并给你想法,你可以自己改进。 一旦掌握,你可以将其用作搜索引擎优化( SEO )或搜索引擎优化工具。 到处的网络行销人员将爱你,如果你能为他们解决这方面的问题!

本课程著重于“如何建构和理解”,而不仅仅是“如何使用”。 读完一些文档后,任何人都可以在 15 分钟内学会使用 API。 这不是关于 “记住事实”,而是关于通过实验 “亲眼见证”。 它会教你如何可视化模型内部发生的事情。 如果你不仅仅需要肤浅地看看机器学习模型,本课程将很适合你。

注意:

所有的课程中的代码都可以从我的github下载:

/lazyprogrammer/machine_learning_examples

在目录中:nlp_class

确保你总是用“ git pull ”,如此你总是拿到最新版本!

必要条件 / 假设你已具备以下知识 :

  • 微积分
  • 线性代数
  • 机率
  • Python 编程 : if/else, loops, lists, dicts, sets
  • Numpy 编程:矩阵和矢量操作,加载一个 CSV 档
  • Sci-Kit Learn API
  • 熟悉 PCA、马尔可夫模型、逻辑回归

提示(通过课程):

  • 以 2x 观看。
  • 拿手写笔记。 这将大大增加你记住消息的能力。
  • 写下方程。 如果你不这样做,我保证它看起来像乱码。
  • 在讨论板上提出许多问题。 越多越好!
  • 意识到大多数练习将需要几天或几周才能完成。
  • 自己编写代码,不要只是坐在那里看我写程序。

修课顺序

  • 查看讲座 “ What order should I take your courses in?” (可在我的任何课程的附录中找到,包括免费的 Numpy 课程)

目标受众

  • 学习者可以使用循环,列表,字典等方式编写Python代码。
  • 希望了解更多机器学习但不想做大量数学的学生
  • 对将机器学习和NLP应用于垃圾邮件检测,网络营销和情感分析等实际问题感兴趣的专业人员
  • 本课程不适合那些认为课程中所列出的任务和方法过于基本的人。
  • 本课程不适用于那些尚未对机器学习和Python编码有基本理解的人。
  • 本课程不适用于那些不知道(给出部分标题)每个任务的目的是什么。 例如。 如果你不知道什么“垃圾邮件检测”可能会有用,那么你远远不能接受这门课程。

讲师简介

Lazy Programmer Inc 数据科学家和大数据工程师

我是一名数据科学家、大数据工程师和全端软件工程师。

我有电脑工程的硕士,专长为机器学习和模式辨识。

我曾在网络广告和数字媒体企业担任过数据科学家和大数据工程师,围绕所谓的数据建构各种高流量的 web 服务。我曾经使用 Hadoop / Pig / MapReduce 创建新的大数据管道,也曾创建机器学习模型来预测点击率,使用线性回归、Bayesian Bandits 和协同过滤 ( collaborative filtering )创建新闻推荐系统,并使用A / B测试验证结果。

我曾在大学部与研究所教授数据科学、统计学、机器学习、算法、微积分、电脑图学和物理学,任职的学校如哥伦比亚大学、纽约大学、Hunter 学院和 The New School。

有多家企业已从我的 Web 编程专业知识中受益。我做所有的后端(服务器)、前端(HTML / JS / CSS)和运营/布署工作。 我使用的技术包含:Python、Ruby / Rails、PHP、Bootstrap、jQuery(Javascript)、Backbone 和  Angular。至于保存/数据库,我采用 MySQL、Postgres、Redis、MongoDB等。

英文字幕:有

  • 想要了解如何将英文字幕自动翻译成中文? 请参考这篇 How-To

参加课程   ♥找优惠折扣码?

Sponsored by Udemy

 欢迎使用e-mail订阅 Soft & Share 

 

发表评论

Powered by WordPress.com.

Up ↑

%d 博主赞过: