关于 李航老师的《统计学习方法》的博客文章/知乎文章/微信公众号文章/github开源代码,已经数不胜数。然而,正如一百位读者有一百位哈姆雷特,本系列博客希望通过与众不同的角度带小白学习 李航老师的《统计学习方法》。
官方的PPT没有找到出处,大家可以关注微信公众号:机器学习算法与自然语言处理,回复 五件套获取,这里就不提供下载链接啦。

导学与资源推荐

第一章PPT的导学与资源推荐部分尤其精彩,但不少博客文章对第一部分的非算法/代码的内容进行了删除,这对于新手而言,就不太友好。

数据与规律

机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。
由该段可以看到,数据和规律是我们要接触的重点内容,不过由于现阶段,大多数研究人员关注的是规律(也可以延伸而称之为算法、模型),少部分人在进行数据收集(也就是创建数据集),但从人工智能的整个发展历程来看,好的数据,会带来革命性的促进作用,例如计算机视觉(CV)领域,就因为大名鼎鼎的Imagenet,而突飞猛进,足够多、足够好的数据,才能让我们对规律产生无限的想象空间。
在这里插入图片描述图1 Imagenet(14,197,122 images, 21841 synsets indexed )

另一方面,在NLP的对话系统领域,至今没有令人耳目一新的突破,很重要的一个原因就是,数据集不够大、不够丰富、质量不够好。
因此,不管是数据还是规律,作为研究人员,都不应该忽视,另外,在研究过程中,也不能盲目相信已有数据集,要多研究思考给定的数据集的特征与缺陷,之后才是考虑规律,否则,生硬套模型,难以真正获得稳定且优质的结果。

课件中推荐的资源

斯坦福机器学习:
http://v.163.com/special/opencourse/machinelearning.html
CMU 机器学习课程:
http://www.cs.cmu.edu/~epxing/Class/10715/
http://www.cs.cmu.edu/~epxing/Class/10708/
http://www.cs.cmu.edu/~epxing/Class/10701
https://sites.google.com/site/10601a14spring/syllabus
相关学术文章下载资源:
COLT和ICML(每年度的官网): http://www.cs.mcgill.ca/~colt2009/proceedings.html
CV:http://www.cvpapers.com/index.html
NIPS: http://books.nips.cc/
JMLR(期刊): http://jmlr.csail.mit.edu/papers/

个人认为,对于普通本科学生而言,可以适当关注推荐的课程,不必花过多时间关注推荐的学术文章,而研究生则可以密切关注推荐的几个学术文章下载网站!

机器学习概述

机器学习定义理解

机器学习有下面几种定义:

  • “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
  • “机器学习是对能通过经验自动改进的计算机算法的研究”。
  • “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

从上面的三种定义中,我们都可以看到,机器学习的定义离不开“经验“二字,因此,贯穿机器学习的整个研究过程,我们的算法都不是凭空出现的,它必须是设法找到某种经验,为我们所用!
从这个方面来看,我们读万卷书行万里路,对自身来说,也是一种”机器学习”。

机器学习应用

  • 数据挖掘
  • 计算机视觉
  • 自然语言处理
  • 生物特征识别
  • 搜索引擎
  • 医学诊断
  • 检测信用卡欺诈
  • 证券市场分析
  • DNA序列测序
  • 语音和手写识别
  • 战略游戏
  • 机器人
    课件中给出了大量的应用例子,但对当前的社区而言,毫无疑问,计算机视觉(CV)和自然语言处理(NLP)领域是最火热的!

机器学习的发展历程

对历史的研究,总是有意思并且能促进我们去思考的,我建议大家阅读这篇博客文章《机器学习的发展历程》以及《机器学习发展历史回顾》

在这里插入图片描述图2 机器学习发展进程

而课件中提及的新的方向:

  • 集成学习
  • 可扩展机器学习(对大数据集、高维数据的学习等)
  • 强化学习
  • 迁移学习
  • 概率网络
  • 深度学习
    无疑都是当前的研究热点,譬如2018年出现BERT之后,在NLP领域已经兴起了迁移学习热潮!
    希望通过学习该课程,从而进一步摸索自己研究生生涯的同学,则可以结合自己实验室的研究方向+上面的某个方向,搜索相关的研究,为自己制定未来的学术方向!

而课件提及的国内外的研究者M. I. Jordan、Andrew Ng、Tommi Jaakkola、David Blei、Eric Xing、D.Koller
2001年IJCAI计算机与思维奖:TerryWinograd、David Marr、Tom Mitchell、RodneyBrooks等人之后的第18位获奖者
Peter L. Bartlett、J. D. Lafferty
国内:李航,周志华, 杨强,王晓刚,唐晓鸥,唐杰,刘铁岩,何晓飞,朱筠,吴军,张栋,戴文渊,余凯,邓力,孙健
则可以找到他们的google学术主页,最好关注一波,或者收藏他们的主页,这无疑有利于自己关注大牛的最新研究成果!

机器学习VS统计学习

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论

研究方法差异

  • 统计学研究形式化和推导
  • 机器学习更容忍一些新方法

维度差异

  • 统计学强调低维空间问题的统计推导
  • 机器学习强调高维预测问题

统计学习的方法按有无监督分类

  • Supervised learning:监督学习——监督学习的核心就是带标签,例如下图,学习系统的输入是 ( x i , y i ) (x_i,y_i) (xi,yi),学习系统学习的过程就是监督过程。
  • 在这里插入图片描述
  • Unsupervised learning:无监督学习——无监督学习则与监督学习相反,学习过程输入的数据是没有标签的,
  • 在这里插入图片描述
    Semi-supervised learning:半监督学习——让学习系统不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。

Reinforcement learning:强化学习——强化学习最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展。让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操自己的行为得到高分。它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是获得最多的累计奖励。
在这里插入图片描述
第一章内容还没有结束,但考虑到大家的阅读时间,在这里将第一章拆分为两部分。

参考资源

[1] https://github.com/wzyonggege/statistical-learning-method
[2] https://github.com/WenDesi/lihang_book_algorithm
[3] https://blog.csdn.net/tudaodiaozhale
[4] 李航. 统计学习方法第二版[M]. 北京: 清华大学出版社, 2019.
[5] https://github.com/fengdu78/lihang-code

【作者简介】陈艺荣,男,目前在华南理工大学电子与信息学院广东省人体数据科学工程技术研究中心攻读博士,担任IEEE Access、IEEE Photonics Journal的审稿人。两次获得美国大学生数学建模竞赛(MCM)一等奖,获得2017年全国大学生数学建模竞赛(广东赛区)一等奖、2018年广东省大学生电子设计竞赛一等奖等科技竞赛奖项,主持一项2017-2019年国家级大学生创新训练项目获得优秀结题,参与两项广东大学生科技创新培育专项资金、一项2018-2019年国家级大学生创新训练项目获得良好结题,发表SCI论文4篇,授权实用新型专利8项,受理发明专利13项。
我的主页
我的Github
我的CSDN博客
我的Linkedin

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐