机器学习(Machine Learning)&深度学习(Deep Learning)资料

转载自：https://github.com/ty4z2008/Qix/blob/master/dl.md《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neu

musks

1149人浏览 · 2016-10-10 08:48:52

musks · 2016-10-10 08:48:52 发布

转载自： https://github.com/ty4z2008/Qix/blob/master/dl.md

《Brief History of Machine Learning》

介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.

《Deep Learning in Neural Networks: An Overview》

介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以时间排序，从1940年开始讲起，到60-80年代，80-90年代，一直讲到2000年后及最近几年的进展。涵盖了deep learning里各种tricks，引用非常全面.

《A Gentle Introduction to Scikit-Learn: A Python Machine Learning Library》

介绍:这是一份Python机器学习库,如果您是一位python工程师而且想深入的学习机器学习.那么这篇文章或许能够帮助到你.

《How to Layout and Manage Your Machine Learning Project》

介绍:这一篇介绍如果设计和管理属于你自己的机器学习项目的文章，里面提供了管理模版、数据管理与实践方法.

《Machine Learning is Fun!》

介绍:如果你还不知道什么是机器学习，或则是刚刚学习感觉到很枯燥乏味。那么推荐一读。这篇文章已经被翻译成中文,如果有兴趣可以移步http://blog.jobbole.com/67616/

《R语言参考卡片》

介绍:R语言是机器学习的主要语言,有很多的朋友想学习R语言，但是总是忘记一些函数与关键字的含义。那么这篇文章或许能够帮助到你

《Choosing a Machine Learning Classifier》

介绍:我该如何选择机器学习算法，这篇文章比较直观的比较了Naive Bayes，Logistic Regression，SVM，决策树等方法的优劣，另外讨论了样本大小、Feature与Model权衡等问题。此外还有已经翻译了的版本:http://www.52ml.net/15063.html

《An Introduction to Deep Learning: From Perceptrons to Deep Networks》

介绍：深度学习概述：从感知机到深度网络，作者对于例子的选择、理论的介绍都很到位，由浅入深。翻译版本：http://www.cnblogs.com/xiaowanyer/p/3701944.html

《The LION Way: Machine Learning plus Intelligent Optimization》

介绍:<机器学习与优化>这是一本机器学习的小册子, 短短300多页道尽机器学习的方方面面. 图文并茂, 生动易懂, 没有一坨坨公式的烦恼. 适合新手入门打基础, 也适合老手温故而知新. 比起MLAPP/PRML等大部头, 也许这本你更需要!具体内容推荐阅读:http://intelligent-optimization.org/LIONbook/
《深度学习与统计学习理论》

介绍:作者是来自百度，不过他本人已经在2014年4月份申请离职了。但是这篇文章很不错如果你不知道深度学习与支持向量机/统计学习理论有什么联系？那么应该立即看看这篇文章.

《计算机科学中的数学》

介绍:这本书是由谷歌公司和MIT共同出品的计算机科学中的数学：Mathematics for Computer Science，Eric Lehman et al 2013 。分为5大部分：1）证明，归纳。2）结构，数论，图。3）计数，求和，生成函数。4）概率，随机行走。5）递归。等等

《信息时代的计算机科学理论(Foundations of Data Science)》

介绍：信息时代的计算机科学理论,目前国内有纸质书购买，iTunes购买

《Data Science with R》

介绍:这是一本由雪城大学新编的第二版《数据科学入门》教材：偏实用型，浅显易懂，适合想学习R语言的同学选读。

《Twenty Questions for Donald Knuth》

介绍:这并不是一篇文档或书籍。这是篇向图灵奖得主Donald Knuth提问记录稿：近日， Charles Leiserson, Al Aho, Jon Bentley等大神向Knuth提出了20个问题，内容包括TAOCP，P/NP问题，图灵机，逻辑，以及为什么大神不用电邮等等。

《Automatic Construction and Natural-Language Description of Nonparametric Regression Models》

介绍：不会统计怎么办？不知道如何选择合适的统计模型怎么办？那这篇文章你的好好读一读了麻省理工Joshua B. Tenenbaum和剑桥Zoubin Ghahramani合作，写了一篇关于automatic statistician的文章。可以自动选择回归模型类别，还能自动写报告...

《ICLR 2014论文集》

介绍:对深度学习和representation learning最新进展有兴趣的同学可以了解一下

《Introduction to Information Retrieval》

介绍：这是一本信息检索相关的书籍，是由斯坦福Manning与谷歌副总裁Raghavan等合著的Introduction to Information Retrieval一直是北美最受欢迎的信息检索教材之一。最近作者增加了该课程的幻灯片和作业。IR相关资源：http://www-nlp.stanford.edu/IR-book/information-retrieval.html

《Machine learning in 10 pictures》

介绍:Deniz Yuret用10张漂亮的图来解释机器学习重要概念：1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam's razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.很清晰

《雅虎研究院的数据集汇总》

介绍：雅虎研究院的数据集汇总：包括语言类数据，图与社交类数据，评分与分类数据，计算广告学数据，图像数据，竞赛数据，以及系统类的数据。

《An Introduction to Statistical Learning with Applications in R》

介绍：这是一本斯坦福统计学著名教授Trevor Hastie和Robert Tibshirani的新书，并且在2014年一月已经开课：https://class.stanford.edu/courses/HumanitiesScience/StatLearning/Winter2014/about

Best Machine Learning Resources for Getting Started

介绍：机器学习最佳入门学习资料汇总是专为机器学习初学者推荐的优质学习资源，帮助初学者快速入门。而且这篇文章的介绍已经被翻译成中文版。如果你不怎么熟悉，那么我建议你先看一看中文的介绍。

My deep learning reading list

介绍:主要是顺着Bengio的PAMI review的文章找出来的。包括几本综述文章，将近100篇论文，各位山头们的Presentation。全部都可以在google上找到。

Cross-Language Information Retrieval

介绍：这是一本书籍，主要介绍的是跨语言信息检索方面的知识。理论很多

探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

介绍:本文共有三个系列，作者是来自IBM的工程师。它主要介绍了推荐引擎相关算法，并帮助读者高效的实现这些算法。探索推荐引擎内部的秘密，第 2 部分: 深度推荐引擎相关算法 - 协同过滤,探索推荐引擎内部的秘密，第 3 部分: 深度推荐引擎相关算法 - 聚类

《Advice for students of machine learning》

介绍：康奈尔大学信息科学系助理教授David Mimno写的《对机器学习初学者的一点建议》，写的挺实际，强调实践与理论结合，最后还引用了冯 • 诺依曼的名言: "Young man, in mathematics you don't understand things. You just get used to them."

分布式并行处理的数据

介绍：这是一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下

《“机器学习”是什么？》

介绍:【“机器学习”是什么？】John Platt是微软研究院杰出科学家，17年来他一直在机器学习领域耕耘。近年来机器学习变得炙手可热，Platt和同事们遂决定开设博客，向公众介绍机器学习的研究进展。机器学习是什么，被应用在哪里？来看Platt的这篇博文

《2014年国际机器学习大会ICML 2014 论文》

介绍：2014年国际机器学习大会（ICML）已经于6月21-26日在国家会议中心隆重举办。本次大会由微软亚洲研究院和清华大学联手主办，是这个有着30多年历史并享誉世界的机器学习领域的盛会首次来到中国，已成功吸引海内外1200多位学者的报名参与。干货很多，值得深入学习下

《Machine Learning for Industry: A Case Study》

介绍：这篇文章主要是以Learning to Rank为例说明企业界机器学习的具体应用，RankNet对NDCG之类不敏感，加入NDCG因素后变成了LambdaRank，同样的思想从神经网络改为应用到Boosted Tree模型就成就了LambdaMART。Chirs Burges，微软的机器学习大神，Yahoo 2010 Learning to Rank Challenge第一名得主，排序模型方面有RankNet，LambdaRank，LambdaMART，尤其以LambdaMART最为突出，代表论文为： From RankNet to LambdaRank to LambdaMART: An Overview 此外，Burges还有很多有名的代表作，比如：A Tutorial on Support Vector Machines for Pattern Recognition
Some Notes on Applied Mathematics for Machine Learning

100 Best GitHub: Deep Learning

介绍:100 Best GitHub: Deep Learning

《UFLDL-斯坦福大学Andrew Ng教授“Deep Learning”教程》

介绍:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习，你也将实现多个功能学习/深度学习算法，能看到它们为你工作，并学习如何应用/适应这些想法到新问题上。本教程假定机器学习的基本知识（特别是熟悉的监督学习，逻辑回归，梯度下降的想法），如果你不熟悉这些想法，我们建议你去这里机器学习课程，并先完成第II，III，IV章（到逻辑回归）。此外这关于这套教程的源代码在github上面已经有python版本了 UFLDL Tutorial Code

*《Deep Learning for Natural Language Processing and Related Applications》

介绍:这份文档来自微软研究院,精髓很多。如果需要完全理解，需要一定的机器学习基础。不过有些地方会让人眼前一亮,毛塞顿开。

Understanding Convolutions

介绍:这是一篇介绍图像卷积运算的文章，讲的已经算比较详细的了

《Machine Learning Summer School》

介绍：每天请一个大牛来讲座，主要涉及机器学习，大数据分析，并行计算以及人脑研究。https://www.youtube.com/user/smolix （需翻墙）

《Awesome Machine Learning》

介绍：一个超级完整的机器学习开源库总结，如果你认为这个碉堡了，那后面这个列表会更让你惊讶：【Awesome Awesomeness】,国内已经有热心的朋友进行了翻译中文介绍，机器学习数据挖掘免费电子书

斯坦福《自然语言处理》课程视频

介绍:ACL候任主席、斯坦福大学计算机系Chris Manning教授的《自然语言处理》课程所有视频已经可以在斯坦福公开课网站上观看了（如Chrome不行，可用IE观看）作业与测验也可以下载。

《Deep Learning and Shallow Learning》

介绍:对比 Deep Learning 和 Shallow Learning 的好文，来着浙大毕业、MIT 读博的 Chiyuan Zhang 的博客。

《Recommending music on Spotify with deep learning》

介绍:利用卷积神经网络做音乐推荐。

《Neural Networks and Deep Learning》

介绍：神经网络的免费在线书，已经写了三章了，还有对应的开源代码：https://github.com/mnielsen/neural-networks-and-deep-learning 爱好者的福音。

《Java Machine Learning》

介绍：Java机器学习相关平台和开源的机器学习库，按照大数据、NLP、计算机视觉和Deep Learning分类进行了整理。看起来挺全的，Java爱好者值得收藏。

《Machine Learning Theory: An Introductory Primer》

介绍：机器学习最基本的入门文章，适合零基础者

《机器学习常见算法分类汇总》

介绍：机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。

《机器学习经典论文/survey合集》

介绍：看题目你已经知道了是什么内容,没错。里面有很多经典的机器学习论文值得仔细与反复的阅读。

《机器学习视频库》

介绍：视频由加州理工学院（Caltech）出品。需要英语底子。

《机器学习经典书籍》

介绍：总结了机器学习的经典书籍，包括数学基础和算法理论的书籍，可做为入门参考书单。

《16 Free eBooks On Machine Learning》

介绍:16本机器学习的电子书，可以下载下来在pad，手机上面任意时刻去阅读。不多我建议你看完一本再下载一本。

《A Large set of Machine Learning Resources for Beginners to Mavens》

介绍:标题很大，从新手到专家。不过看完上面所有资料。肯定是专家了

《机器学习最佳入门学习资料汇总》

介绍：入门的书真的很多，而且我已经帮你找齐了。

《Sibyl》

介绍：Sibyl 是一个监督式机器学习系统，用来解决预测方面的问题，比如 YouTube 的视频推荐。

《Deep Learning》

介绍：Yoshua Bengio, Ian Goodfellow, Aaron Courville著

《Neural Network & Text Mining》

介绍:关于(Deep) Neural Networks在 NLP 和 Text Mining 方面一些paper的总结

《前景目标检测1（总结）》

介绍:计算机视觉入门之前景目标检测1（总结）

《行人检测》

介绍:计算机视觉入门之行人检测

《Deep Learning – important resources for learning and understanding》

介绍:Important resources for learning and understanding . Is awesome

《Machine Learning Theory: An Introductory Primer》

介绍:这又是一篇机器学习初学者的入门文章。值得一读

《Neural Networks and Deep Learning》

介绍:在线Neural Networks and Deep Learning电子书

《Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱》

介绍:python的17个关于机器学习的工具

《神奇的伽玛函数(上)》

介绍:下集在这里神奇的伽玛函数(下)

《分布式机器学习的故事》

介绍:作者王益目前是腾讯广告算法总监，王益博士毕业后在google任研究。这篇文章王益博士7年来从谷歌到腾讯对于分布机器学习的所见所闻。值得细读

《机器学习提升之道（Level-Up Your Machine Learning）》

介绍:把机器学习提升的级别分为0~4级，每级需要学习的教材和掌握的知识。这样，给机器学习者提供一个上进的路线图，以免走弯路。另外，整个网站都是关于机器学习的，资源很丰富。

《Machine Learning Surveys》

介绍:机器学习各个方向综述的网站

《Deep Learning Reading list》

介绍:深度学习阅资源列表

《Deep Learning: Methods and Applications》

介绍：这是一本来自微的研究员 li Peng和Dong Yu所著的关于深度学习的方法和应用的电子书

《Machine Learning Summer School 2014》

介绍:2014年七月CMU举办的机器学习夏季课刚刚结束有近50小时的视频、十多个PDF版幻灯片，覆盖深度学习，贝叶斯，分布式机器学习，伸缩性等热点话题。所有13名讲师都是牛人：包括大牛Tom Mitchell （他的［机器学习］是名校的常用教材），还有CMU李沐 .（1080P高清哟）

《Sibyl: 来自Google的大规模机器学习系统》

介绍:在今年的IEEE/IFIP可靠系统和网络（DSN）国际会议上，Google软件工程师Tushar Chandra做了一个关于Sibyl系统的主题演讲。 Sibyl是一个监督式机器学习系统，用来解决预测方面的问题，比如YouTube的视频推荐。详情请阅读google sibyl

《Building a deeper understanding of images》

介绍:谷歌研究院的Christian Szegedy在谷歌研究院的博客上简要地介绍了他们今年参加ImageNet取得好成绩的GoogLeNet系统.是关于图像处理的。

《Bayesian network 与python概率编程实战入门》

介绍:贝叶斯学习。如果不是很清可看看概率编程语言与贝叶斯方法实践

《AMA: Michael I Jordan》

介绍:网友问伯克利机器学习大牛、美国双料院士Michael I. Jordan："如果你有10亿美金，你怎么花？Jordan: "我会用这10亿美金建造一个NASA级别的自然语言处理研究项目。"

《机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）》

介绍:常见面试之机器学习算法思想简单梳理,此外作者还有一些其他的机器学习与数据挖掘文章和深度学习文章,不仅是理论还有源码。

《文本与数据挖掘视频汇总》

介绍：Videolectures上最受欢迎的25个文本与数据挖掘视频汇总

《怎么选择深度学习的GPUs》

介绍:在Kaggle上经常取得不错成绩的Tim Dettmers介绍了他自己是怎么选择深度学习的GPUs, 以及个人如何构建深度学习的GPU集群: http://t.cn/RhpuD1G

《对话机器学习大神Michael Jordan：深度模型》

介绍:对话机器学习大神Michael Jordan

《Deep Learning 和 Knowledge Graph 引爆大数据革命》

介绍:还有２，３部分。http://blog.sina.com.cn/s/blog_46d0a3930101gs5h.html

《Deep Learning 教程翻译》

介绍:是Stanford 教授 Andrew Ng 的 Deep Learning 教程，国内的机器学习爱好者很热心的把这个教程翻译成了中文。如果你英语不好，可以看看这个

《Deep Learning 101》

介绍:因为近两年来，深度学习在媒体界被炒作很厉害（就像大数据）。其实很多人都还不知道什么是深度学习。这篇文章由浅入深。告诉你深度学究竟是什么！

《UFLDL Tutorial》

介绍:这是斯坦福大学做的一免费课程（很勉强），这个可以给你在深度学习的路上给你一个学习的思路。里面提到了一些基本的算法。而且告诉你如何去应用到实际环境中。中文版

《Toronto Deep Learning Demos》

介绍:这是多伦多大学做的一个深度学习用来识别图片标签／图转文字的demo。是一个实际应用案例。有源码

《Deep learning from the bottom up》

介绍:机器学习模型，阅读这个内容需要有一定的基础。

《R工具包的分类汇总》

介绍: (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) 例如: 机器学习，自然语言处理，时间序列分析，空间信息分析，多重变量分析，计量经济学，心理统计学，社会学统计，化学计量学，环境科学，药物代谢动力学等

《机器学习常见算法分类汇总》

介绍: 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法，以供您在工作和学习中参考.

《Deep Learning（深度学习）学习笔记整理系列》

介绍: 很多干货，而且作者还总结了好几个系列。另外还作者还了一个文章导航.非常的感谢作者总结。

Deep Learning（深度学习）学习笔记整理系列之（二）

Deep Learning（深度学习）学习笔记整理系列之（三）

Deep Learning（深度学习）学习笔记整理系列之（四）

Deep Learning（深度学习）学习笔记整理系列之（五）

Deep Learning（深度学习）学习笔记整理系列之（六）

Deep Learning（深度学习）学习笔记整理系列之（七）

DeepLearning（深度学习）学习笔记整理系列之（八）

《Tutorials Session A - Deep Learning for Computer Vision》

介绍:传送理由：Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种下载他是纽约大学教授，目前也在Facebook工作，他2014年的8篇论文

《FudanNLP》

介绍:FudanNLP，这是一个复旦大学计算机学院开发的开源中文自然语言处理（NLP）工具包 Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能，对搜索引擎文本分析等极为有价值。

《Open Sourcing ml-ease》

介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster，和 Spark cluster 重点是 logistic regression 算法

《机器学习周刊》

介绍:对于英语不好，但又很想学习机器学习的朋友。是一个大的福利。机器学习周刊目前主要提供中文版，还是面向广大国内爱好者，内容涉及机器学习、数据挖掘、并行系统、图像识别、人工智能、机器人等等。谢谢作者

《线性代数》

介绍：《线性代数》是《机器学习》的重要数学先导课程。其实《线代》这门课讲得浅显易懂特别不容易，如果一上来就讲逆序数及罗列行列式性质，很容易让学生失去学习的兴趣。我个人推荐的最佳《线性代数》课程是麻省理工Gilbert Strang教授的课程。课程主页

《Big-data》

介绍:大数据数据处理资源、工具不完备列表，从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。

《machine learning for smart dummies》

介绍:雅虎邀请了一名来自本古里安大学的访问学者，制作了一套关于机器学习的系列视频课程。本课程共分为7期，详细讲解了有关SVM, boosting, nearest neighbors, decision trees 等常规机器学习算法的理论基础知识。

《Entanglement-Based Quantum Machine Learning》

介绍:应对大数据时代，量子机器学习的第一个实验 paper 下载

《How a Math Genius Hacked OkCupid to Find True Love》

介绍:Wired杂志报道了UCLA数学博士Chris McKinlay （图1）通过大数据手段+机器学习方法破解婚恋网站配对算法找到真爱的故事,通过Python脚本控制着12个账号，下载了婚恋网站2万女用户的600万问题答案，对他们进行了统计抽样及聚类分析（图2，3），最后终于收获了真爱。科技改变命运！

《Underactuated Robotics》

介绍:MIT的Underactuated Robotics于 2014年10月1日开课，该课属于MIT研究生级别的课程，对机器人和非线性动力系统感兴趣的朋友不妨可以挑战一下这门课程！

《mllib实践经验(1)》

介绍:mllib实践经验分享

《Google Turns To Deep Learning Classification To Fight Web Spam》

介绍:Google用Deep Learning做的antispam(反垃圾邮件)

《NLP常用信息资源》

介绍:NLP常用信息资源* 《NLP常用信息资源》

《机器学习速查表》

介绍:机器学习速查表

《Best Papers vs. Top Cited Papers in Computer Science》

介绍：从1996年开始在计算机科学的论文中被引用次数最多的论文

《InfiniTAM: 基于深度图像的体数据集成框架》

介绍：把今年的一个ACM Trans. on Graphics (TOG)论文中的代码整理为一个开源的算法框架，共享出来了。欢迎大家使用。可以实时的采集3D数据、重建出三维模型。Online learning，GPU Random forest，GPU CRF也会后续公开。

《Hacker's guide to Neural Networks》

介绍：【神经网络黑客指南】现在，最火莫过于深度学习（Deep Learning），怎样更好学习它？可以让你在浏览器中，跑起深度学习效果的超酷开源项目convnetjs作者karpathy告诉你，最佳技巧是，当你开始写代码，一切将变得清晰。他刚发布了一本图书，不断在线更新

《Building a Production Machine Learning Infrastructure》

介绍：前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,大实话

《Deep Learning Sentiment Analysis for Movie Reviews using Neo4j》

介绍：使用Neo4j 做电影评论的情感分析。

《DeepLearning.University – An Annotated Deep Learning Bibliography》

介绍：不仅是资料，而且还对有些资料做了注释。

《A primer on deeping learning》

介绍：深度学习入门的初级读本

《Machine learning is teaching us the secret to teaching 》

介绍：机器学习教会了我们什么？

《scikit-learn：用于机器学习的Python模块》

介绍：scikit-learn是在SciPy基础上构建的用于机器学习的Python模块。

《对话机器学习大神Michael Jordan：解析领域中各类模型》

介绍：乔丹教授（Michael I. Jordan）教授是机器学习领域神经网络的大牛，他对深度学习、神经网络有着很浓厚的兴趣。因此，很多提问的问题中包含了机器学习领域的各类模型，乔丹教授对此一一做了解释和展望。

《A*搜索算法的可视化短教程》

介绍：A*搜索是人工智能基本算法，用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价，h(n)是顶点n到目标顶点的估算代价。合集

《基于云的自然语言处理开源项目FudanNLP》

介绍：本项目利用了Microsoft Azure，可以在几分种内完成NLP on Azure Website的部署，立即开始对FNLP各种特性的试用，或者以REST API的形式调用FNLP的语言分析功能

《吴立德《概率主题模型&数据科学基础》》

介绍：现任复旦大学首席教授、计算机软件博士生导师。计算机科学研究所副所长.内部课程

《机器学习入门资源不完全汇总》》

介绍：好东西的干货真的很多

《收集从2014年开始深度学习文献》

介绍：从硬件、图像到健康、生物、大数据、生物信息再到量子计算等，Amund Tveit等维护了一个DeepLearning.University小项目：收集从2014年开始深度学习文献，相信可以作为深度学习的起点,github

《EMNLP上两篇关于股票趋势的应用论文》

介绍：EMNLP上两篇关于stock trend 用到了deep model组织特征； Exploiting Social Relations and Sentiment for Stock Prediction用到了stock network。

《Bengio组（蒙特利尔大学LISA组）深度学习教程》

介绍：作者是深度学习一线大牛Bengio组写的教程，算法深入显出，还有实现代码，一步步展开。

《学习算法的Neural Turing Machine 》

介绍：许多传统的机器学习任务都是在学习function，不过谷歌目前有开始学习算法的趋势。谷歌另外的这篇学习Python程序的Learning to Execute也有相似之处

《Learning to Rank for Information Retrieval and Natural Language Processing》

介绍：作者是华为技术有限公司，诺亚方舟实验室，首席科学家的李航博士写的关于信息检索与自然语言处理的文章

《Rumor has it: Identifying Misinformation in Microblogs》

介绍：利用机用器学习在谣言的判别上的应用,此外还有两个。一个是识别垃圾与虚假信息的paper.还有一个是网络舆情及其分析技术

《R机器学习实践》

介绍：该课程是网易公开课的收费课程，不贵，超级便宜。主要适合于对利用R语言进行机器学习，数据挖掘感兴趣的人。

《大数据分析：机器学习算法实现的演化》

介绍：本章中作者总结了三代机器学习算法实现的演化：第一代非分布式的，第二代工具如Mahout和Rapidminer实现基于Hadoop的扩展，第三代如Spark和Storm实现了实时和迭代数据处理。BIG DATA ANALYTICS BEYOND HADOOP

《图像处理，分析与机器视觉》

介绍：讲计算机视觉的四部奇书（应该叫经典吧）之一，另外三本是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Rafael C.Gonzalez / Richard E.Woods 的《数字图像处理》

《LinkedIn最新的推荐系统文章Browsemaps》

介绍：里面基本没涉及到具体算法，但作者介绍了CF在LinkedIn的很多应用，以及他们在做推荐过程中获得的一些经验。最后一条经验是应该监控log数据的质量，因为推荐的质量很依赖数据的质量！

《初学者如何查阅自然语言处理（NLP）领域学术资料》

介绍：初学者如何查阅自然语言处理（NLP）领域学术资料

《树莓派的人脸识别教程》

介绍：用树莓派和相机模块进行人脸识别

《利用深度学习与大数据构建对话系统》

介绍：如何利用深度学习与大数据构建对话系统

《经典论文Leo Breiman：Statistical Modeling: The Two Cultures 》

介绍：Francis Bach合作的有关稀疏建模的新综述(书)：Sparse Modeling for Image and Vision Processing，内容涉及Sparsity, Dictionary Learning, PCA, Matrix Factorization等理论，以及在图像和视觉上的应用，而且第一部分关于Why does the l1-norm induce sparsity的解释也很不错。

《Reproducing Kernel Hilbert Space》

介绍：RKHS是机器学习中重要的概念，其在large margin分类器上的应用也是广为熟知的。如果没有较好的数学基础，直接理解RKHS可能会不易。本文从基本运算空间讲到Banach和Hilbert空间，深入浅出，一共才12页。

《Hacker's guide to Neural Networks》

介绍：许多同学对于机器学习及深度学习的困惑在于，数学方面已经大致理解了，但是动起手来却不知道如何下手写代码。斯坦福深度学习博士Andrej Karpathy写了一篇实战版本的深度学习及机器学习教程，手把手教你用JavaScript写神经网络和SVM.

《【语料库】语料库资源汇总》

介绍：【语料库】语料库资源汇总

《机器学习算法之旅》

介绍：本文会过一遍最流行的机器学习算法，大致了解哪些方法可用，很有帮助。

《Reproducible Research in Computational Science》

介绍：这个里面有很多关于机器学习、信号处理、计算机视觉、深入学习、神经网络等领域的大量源代码（或可执行代码）及相关论文。科研写论文的好资源

《NYU 2014年的深度学习课程资料》

介绍：NYU 2014年的深度学习课程资料，有视频

《计算机视觉数据集不完全汇总》

介绍：计算机视觉数据集不完全汇总

《Machine Learning Open Source Software》

介绍：机器学习开源软件

《LIBSVM》

介绍：A Library for Support Vector Machines

《Support Vector Machines》

介绍：数据挖掘十大经典算法之一

《100 Best GitHub: Deep Learning》

介绍：github上面100个非常棒的项目

《加州大学欧文分校(UCI)机器学习数据集仓库》

介绍：当前加州大学欧文分校为机器学习社区维护着306个数据集。查询数据集

《Andrej Karpathy个人主页》

介绍：Andrej Karpathy 是斯坦福大学Li Fei-Fei的博士生，使用机器学习在图像、视频语义分析领域取得了科研和工程上的突破，发的文章不多，但每个都很扎实，在每一个问题上都做到了state-of-art.

《Andrej Karpathy的深度强化学习演示》

介绍：Andrej Karpathy的深度强化学习演示，论文在这里

《CIKM数据挖掘竞赛夺冠算法-陈运文》

介绍：CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。

《Geoffrey E. Hinton》

介绍：杰弗里·埃弗里斯特·辛顿 FRS是一位英国出生的计算机学家和心理学家，以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一，也是深度学习的积极推动者.

《自然语言处理的深度学习理论与实际》

介绍：微软研究院深度学习技术中心在CIKM2014 上关于《自然语言处理的深度学习理论与实际》教学讲座的幻灯片

《用大数据和机器学习做股票价格预测》

介绍：本文基于<支持向量机的高频限价订单的动态建模>采用了 Apache Spark和Spark MLLib从纽约股票交易所的订单日志数据构建价格运动预测模型。(股票有风险，投资谨慎)GitHub源代码托管地址.

《关于机器学习的若干理论问题》

介绍：徐宗本院士将于热爱机器学习的小伙伴一起探讨有关于机器学习的几个理论性问题，并给出一些有意义的结论。最后通过一些实例来说明这些理论问题的物理意义和实际应用价值。

《深度学习在自然语言处理的应用》

介绍：作者还著有《这就是搜索引擎：核心技术详解》一书，主要是介绍应用层的东西

《Undergraduate machine learning at UBC》

介绍：机器学习课程

《人脸识别必读的N篇文章》

介绍：人脸识别必读文章推荐

《推荐系统经典论文文献及业界应用》

介绍：推荐系统经典论文文献

《人脸识别必读的N篇文章》

介绍：人脸识别必读文章推荐

《第十二届中国"机器学习及其应用"研讨会PPT》

介绍：第十二届中国"机器学习及其应用"研讨会PPT

《统计机器学习》

介绍：统计学习是关于计算机基于数据构建的概率统计模型并运用模型对数据进行预测和分析的一门科学，统计学习也成为统计机器学习。课程来自上海交通大学

《机器学习导论》

介绍：机器学习的目标是对计算机编程，以便使用样本数据或以往的经验来解决给定的问题.

《CIKM 2014主题报告的幻灯片》

介绍：CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum的主题报告的幻灯片， Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin的Industry Track报告的幻灯片

《人工智能和机器学习领域有趣的开源项目》

介绍：部分中文列表

《机器学习经典算法详解及Python实现--基于SMO的SVM分类器》

介绍:此外作者还有一篇元算法、AdaBoost　python实现文章

《Numerical Optimization: Understanding L-BFGS》

介绍:加州伯克利大学博士Aria Haghighi写了一篇超赞的数值优化博文，从牛顿法讲到拟牛顿法，再讲到BFGS以及L-BFGS, 图文并茂，还有伪代码。强烈推荐。

《简明深度学习方法概述（一）》

介绍:还有续集简明深度学习方法概述（二）

《R language for programmers》

介绍:Ｒ语言程序员私人定制版

《谷歌地图解密：大数据与机器学习的结合》

介绍:谷歌地图解密

《空间数据挖掘常用方法》

介绍:空间数据挖掘常用方法

《Use Google's Word2Vec for movie reviews》

介绍:Kaggle新比赛 ”When bag of words meets bags of popcorn“ aka ”边学边用word2vec和deep learning做NLP“ 里面全套教程教一步一步用python和gensim包的word2vec模型，并在实际比赛里面比调参数和清数据。如果已装过gensim不要忘升级

《PyNLPIR》

介绍:PyNLPIR提供了NLPIR/ICTCLAS汉语分词的Python接口,此外Zhon提供了常用汉字常量，如CJK字符和偏旁，中文标点，拼音，和汉字正则表达式（如找到文本中的繁体字）

《深度卷积神经网络下围棋》

介绍:这文章说把最近模型识别上的突破应用到围棋软件上，打16万张职业棋谱训练模型识别功能。想法不错。训练后目前能做到不用计算，只看棋盘就给出下一步，大约10级棋力。但这篇文章太过乐观，说什么人类的最后一块堡垒马上就要跨掉了。话说得太早。不过，如果与别的软件结合应该还有潜力可挖。@万精油墨绿

《NIPS审稿实验》

介绍:UT Austin教授Eric Price关于今年NIPS审稿实验的详细分析,他表示，根据这次实验的结果，如果今年NIPS重新审稿的话，会有一半的论文被拒。

《2014年最佳的大数据，数据科学文章》

介绍:KDNuggets分别总结了2014年14个阅读最多以及分享最多的文章。我们从中可以看到多个主题——深度学习，数据科学家职业，教育和薪酬，学习数据科学的工具比如R和Python以及大众投票的最受欢迎的数据科学和数据挖掘语言

《机器学习经典算法详解及Python实现--线性回归（Linear Regression）算法》

介绍:Python实现线性回归,作者还有其他很棒的文章推荐可以看看

《2014中国大数据技术大会33位核心专家演讲PDF》

介绍：2014中国大数据技术大会33位核心专家演讲PDF下载

《使用RNN和Paragraph Vector做情感分析》

介绍：这是T. Mikolov & Y. Bengio最新论文Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ，使用RNN和PV在情感分析效果不错，［项目代码］(https://github.com/mesnilgr/iclr15)公布在github(目前是空的)。这意味着Paragraph Vector终于揭开面纱了嘛。

《NLPIR/ICTCLAS2015分词系统大会上的技术演讲》

介绍:NLPIR/ICTCLAS2015分词系统发布与用户交流大会上的演讲，请更多朋友检阅新版分词吧。我们实验室同学的演讲包括：孙梦姝-基于评论观点挖掘的商品搜索技术研究李然-主题模型

《Machine Learning is Fun!》

介绍:Convex Neural Networks 解决维数灾难

《CNN的反向求导及练习》

介绍:介绍CNN参数在使用bp算法时该怎么训练，毕竟CNN中有卷积层和下采样层，虽然和MLP的bp算法本质上相同，但形式上还是有些区别的，很显然在完成CNN反向传播前了解bp算法是必须的。此外作者也做了一个资源集:机器学习，深度学习，视觉，数学等

《正则表达式优化成Trie树》

介绍:如果要在一篇文章中匹配十万个关键词怎么办？Aho-Corasick 算法利用添加了返回边的Trie树，能够在线性时间内完成匹配。但如果匹配十万个正则表达式呢？这时候可以用到把多个正则优化成Trie树的方法，如日本人写的 Regexp::Trie

《Deep learning Reading List》

介绍:深度学习阅读清单

《Caffe》

介绍:Caffe是一个开源的深度学习框架，作者目前在google工作，作者主页Yangqing Jia (贾扬清)

《GoogLeNet深度学习模型的Caffe复现》

介绍:2014 ImageNet冠军GoogLeNet深度学习模型的Caffe复现模型,GoogleNet论文.

《LambdaNet，Haskell实现的开源人工神经网络库》

介绍:LambdaNetLambdaNet是由Haskell实现的一个开源的人工神经网络库，它抽象了网络创建、训练并使用了高阶函数。该库还提供了一组预定义函数，用户可以采取多种方式组合这些函数来操作现实世界数据。

《百度余凯&张潼机器学习视频》

介绍:如果你从事互联网搜索，在线广告，用户行为分析，图像识别，自然语言理解，或者生物信息学，智能机器人，金融预测，那么这门核心课程你必须深入了解。

《杨强在TEDxNanjing谈智能的起源》

介绍:"人工智能研究分许多流派。其中之一以IBM为代表，认为只要有高性能计算就可得到智能，他们的‘深蓝’击败了世界象棋冠军；另一流派认为智能来自动物本能；还有个很强的流派认为只要找来专家，把他们的思维用逻辑一条条写下，放到计算机里就行……" 杨强在TEDxNanjing谈智能的起源

《深度RNN/LSTM用于结构化学习 0)序列标注Connectionist Temporal ClassificationICML06》

介绍:1)机器翻译Sequence to Sequence NIPS14 2)成分句法GRAMMAR AS FOREIGN LANGUAGE

《Deep Learning实战之word2vec》

介绍:网易有道的三位工程师写的word2vec的解析文档，从基本的词向量/统计语言模型->NNLM->Log-Linear/Log-Bilinear->层次化Log-Bilinear，到CBOW和Skip-gram模型，再到word2vec的各种tricks，公式推导与代码，基本上是网上关于word2vec资料的大合集，对word2vec感兴趣的朋友可以看看

《Machine learning open source software》

介绍:机器学习开源软件,收录了各种机器学习的各种编程语言学术与商业的开源软件．与此类似的还有很多例如:DMOZ - Computers: Artificial Intelligence: Machine Learning: Software,　LIBSVM -- A Library for Support Vector Machines,　Weka 3: Data Mining Software in Java,　scikit-learn:Machine Learning in Python,　Natural Language Toolkit:NLTK,　MAchine Learning for LanguagE Toolkit,　Data Mining - Fruitful and Fun,　Open Source Computer Vision Library

《机器学习入门者学习指南》

介绍:作者是计算机研二(写文章的时候，现在是2015年了应该快要毕业了)，专业方向自然语言处理．这是一点他的经验之谈．对于入门的朋友或许会有帮助

《A Tour of Machine Learning Algorithms》

介绍:这是一篇关于机器学习算法分类的文章，非常好

《2014年的《机器学习日报》大合集》

介绍:机器学习日报里面推荐很多内容，在这里有一部分的优秀内容就是来自机器学习日报．

《 Image classification with deep learning常用模型》

介绍:这是一篇关于图像分类在深度学习中的文章

《自动语音识别：深度学习方法》

介绍:作者与Bengio的兄弟Samy 09年合编《自动语音识别：核方法》 3）李开复1989年《自动语音识别》专著，其博导、94年图灵奖得主Raj Reddy作序

《NLP中的中文分词技术》

介绍: 作者是360电商技术组成员,这是一篇NLP在中文分词中的应用

《Using convolutional neural nets to detect facial keypoints tutorial》

介绍: 使用deep learning的人脸关键点检测，此外还有一篇AWS部署教程

《书籍推荐:Advanced Structured Prediction》

介绍: 由Sebastian Nowozin等人编纂MIT出版的新书《Advanced Structured Prediction》http://t.cn/RZxipKG ，汇集了结构化预测领域诸多牛文，涉及CV、NLP等领域，值得一读。网上公开的几章草稿:一,二,三,四,五

《An Introduction to Matrix Concentration Inequalities》

介绍: Tropp把数学家用高深装逼的数学语言写的矩阵概率不等式用初等的方法写出来，是非常好的手册，领域内的paper各种证明都在用里面的结果。虽说是初等的，但还是非常的难

《The free big data sources you should know》

介绍: 不容错过的免费大数据集，有些已经是耳熟能详，有些可能还是第一次听说，内容跨越文本、数据、多媒体等，让他们伴你开始数据科学之旅吧，具体包括：Data.gov、US Census Bureau、European Union Open Data Portal、Data.gov.uk等

《A Brief Overview of Deep Learning》

介绍: 谷歌科学家、Hinton亲传弟子Ilya Sutskever的深度学习综述及实际建议

《A Deep Dive into Recurrent Neural Nets》

介绍: 非常好的讨论递归神经网络的文章，覆盖了RNN的概念、原理、训练及优化等各个方面内容，强烈推荐！本文作者Nikhil Buduma还有一篇Deep Learning in a Nutshell值得推荐

《机器学习：学习资源》

介绍:里面融合了很多的资源，例如竞赛，在线课程，demo，数据整合等。有分类

《Statistical foundations of machine learning》

介绍:《机器学习的统计基础》在线版，该手册希望在理论与实践之间找到平衡点，各主要内容都伴有实际例子及数据，书中的例子程序都是用R语言编写的。

《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

介绍:IVAN VASILEV写的深度学习导引：从浅层感知机到深度网络。高可读

《Research priorities for robust and beneficial artificial intelligence》

介绍:鲁棒及有益的人工智能优先研究计划：一封公开信,目前已经有Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk等人签署The Future of Life Institute (FLI).这封信的背景是最近霍金和Elon Musk提醒人们注意AI的潜在威胁。公开信的内容是AI科学家们站在造福社会的角度，展望人工智能的未来发展方向，提出开发AI系统的Verification，Validity, Security, Control四点要求，以及需要注意的社会问题。毕竟当前AI在经济领域，法律，以及道德领域相关研究较少。其实还有一部美剧《疑犯追踪》,介绍了AI的演进从一开始的自我学习，过滤，图像识别，语音识别等判断危险，到第四季的时候出现了机器通过学习成长之后想控制世界的状态。说到这里推荐收看。

《metacademy》

介绍:里面根据词条提供了许多资源，还有相关知识结构，路线图，用时长短等。号称是”机器学习“搜索引擎

《FAIR open sources deep-learning modules for Torch》

介绍:Facebook人工智能研究院（FAIR）开源了一系列软件库，以帮助开发者建立更大、更快的深度学习模型。开放的软件库在 Facebook 被称作模块。用它们替代机器学习领域常用的开发环境 Torch 中的默认模块，可以在更短的时间内训练更大规模的神经网络模型。

《浅析人脸检测之Haar分类器方法》

介绍:本文虽然是写于2012年，但是这篇文章完全是作者的经验之作。

《如何成为一位数据科学家》

介绍:本文是对《机器学习实战》作者Peter Harrington做的一个访谈。包含了书中部分的疑问解答和一点个人学习建议

《Deep learning from the bottom up》

介绍:非常好的深度学习概述，对几种流行的深度学习模型都进行了介绍和讨论

《Hands-On Data Science with R Text Mining》

介绍:主要是讲述了利用R语言进行数据挖掘

《Understanding Convolutions》

介绍:帮你理解卷积神经网络，讲解很清晰，此外还有两篇Conv Nets: A Modular Perspective，Groups & Group Convolutions. 作者的其他的关于神经网络文章也很棒

《Introduction to Deep Learning Algorithms》

介绍:Deep Learning算法介绍，里面介绍了06年3篇让deep learning崛起的论文

《Learning Deep Architectures for AI》

介绍:一本学习人工智能的书籍，作者是Yoshua Bengio，相关国内报道

《Geoffrey E. Hinton个人主页》

介绍:Geoffrey Hinton是Deep Learning的大牛，他的主页放了一些介绍性文章和课件值得学习

《PROBABILITY THEORY: THE LOGIC OF SCIENCE》

介绍:概率论：数理逻辑书籍

《H2O》

介绍:一个用来快速的统计，机器学习并且对于数据量大的数学库

《ICLR 2015会议的arXiv稿件合集》

介绍:在这里你可以看到最近深度学习有什么新动向。

《Introduction to Information Retrieval》

介绍:此书在信息检索领域家喻户晓，除提供该书的免费电子版外，还提供一个IR资源列表，收录了信息检索、网络信息检索、搜索引擎实现等方面相关的图书、研究中心、相关课程、子领域、会议、期刊等等，堪称全集，值得收藏

《Information Geometry and its Applications to Machine Learning》

介绍:信息几何学及其在机器学习中的应用

《Legal Analytics – Introduction to the Course》

介绍:课程《法律分析》介绍幻灯片。用机器学习解决法律相关分析和预测问题，相关的法律应用包括预测编码、早期案例评估、案件整体情况的预测，定价和工作人员预测，司法行为预测等。法律领域大家可能都比较陌生，不妨了解下。

《文本上的算法》

介绍: 文中提到了最优，模型，最大熵等等理论，此外还有应用篇。推荐系统可以说是一本不错的阅读稿，关于模型还推荐一篇Generative Model 与 Discriminative Model

《NeuralTalk》

介绍: NeuralTalk is a Python+numpy project for learning Multimodal Recurrent Neural Networks that describe images with sentences.NeuralTalk是一个Python的从图像生成自然语言描述的工具。它实现了Google (Vinyals等，卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei， CNN + 递归神经网络RNN)的算法。NeuralTalk自带了一个训练好的动物模型，你可以拿狮子大象的照片来试试看

《Deep Learning on Hadoop 2.0》

介绍:本文主要介绍了在Hadoop2.0上使用深度学习,文章来自paypal

《Practical recommendations for gradient-based training of deep architectures》

介绍:用基于梯度下降的方法训练深度框架的实践推荐指导,作者是Yoshua Bengio .感谢@xuewei4d 推荐

《Machine Learning With Statistical And Causal Methods》

介绍: 用统计和因果方法做机器学习（视频报告）

《Machine Learning Course 180’》

介绍: 一个讲机器学习的Youtube视频教程。160集。系统程度跟书可比拟。

《回归(regression)、梯度下降(gradient descent)》

介绍: 机器学习中的数学，作者的研究方向是机器学习，并行计算如果你还想了解一点其他的可以看看他博客的其他文章

《美团推荐算法实践》

介绍: 美团推荐算法实践，从框架，应用，策略，查询等分析

《Deep Learning for Answer Sentence Selection》

介绍: 深度学习用于问答系统答案句的选取

《Learning Semantic Representations Using Convolutional Neural Networks for Web Search 》

介绍: CNN用于WEB搜索，深度学习在文本计算中的应用

《Awesome Public Datasets》

介绍: Awesome系列中的公开数据集

《Search Engine & Community》

介绍: 一个学术搜索引擎

《spaCy》

介绍: 用Python和Cython写的工业级自然语言处理库，号称是速度最快的NLP库，快的原因一是用Cython写的，二是用了个很巧妙的hash技术，加速系统的瓶颈，NLP中稀松特征的存取

《Collaborative Filtering with Spark》

介绍: Fields是个数学研究中心,上面的这份ppt是来自Fields举办的活动中Russ Salakhutdinov带来的《大规模机器学习》分享

《Topic modeling 的经典论文》

介绍: Topic modeling 的经典论文,标注了关键点

《Move Evaluation in Go Using Deep Convolutional Neural Networks》

介绍: 多伦多大学与Google合作的新论文，深度学习也可以用来下围棋，据说能达到六段水平

《机器学习周刊第二期》

介绍: 新闻，paper,课程，book，system,CES,Roboot，此外还推荐一个深度学习入门与综述资料

《Learning more like a human: 18 free eBooks on Machine Learning》

介绍: 18 free eBooks on Machine Learning

《Recommend :Hang Li Home》

介绍:Chief scientist of Noah's Ark Lab of Huawei Technologies.He worked at the Research Laboratories of NEC Corporation during 1990 and 2001 and Microsoft Research Asia during 2001 and 2012.Paper

《DEEPLEARNING.UNIVERSITY – AN ANNOTATED DEEP LEARNING BIBLIOGRAPHY》

介绍: DEEPLEARNING.UNIVERSITY的论文库已经收录了963篇经过分类的深度学习论文了，很多经典论文都已经收录

《MLMU.cz - Radim Řehůřek - Word2vec & friends (7.1.2015)》

介绍: Radim Řehůřek(Gensim开发者)在一次机器学习聚会上的报告，关于word2vec及其优化、应用和扩展，很实用.国内网盘

《Introducing streaming k-means in Spark 1.2》

介绍:很多公司都用机器学习来解决问题，提高用户体验。那么怎么可以让机器学习更实时和有效呢？Spark MLlib 1.2里面的Streaming K-means，由斑马鱼脑神经研究的Jeremy Freeman脑神经科学家编写，最初是为了实时处理他们每半小时1TB的研究数据，现在发布给大家用了。

《LDA入门与Java实现》

介绍: 这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好，开源在GitHub上。

《AMiner - Open Science Platform》

介绍: AMiner是一个学术搜索引擎，从学术网络中挖掘深度知识、面向科技大数据的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识点；支持专家搜索、机构排名、科研成果评价、会议排名。

《What are some interesting Word2Vec results?》

介绍: Quora上的主题，讨论Word2Vec的有趣应用，Omer Levy提到了他在CoNLL2014最佳论文里的分析结果和新方法，Daniel Hammack给出了找特异词的小应用并提供了(Python)代码

《机器学习公开课汇总》

介绍: 机器学习公开课汇总,虽然里面的有些课程已经归档过了，但是还有个别的信息没有。感谢课程图谱的小编

《A First Course in Linear Algebra》

介绍: 【A First Course in Linear Algebra】Robert Beezer 有答案有移动版、打印版使用GNU自由文档协议引用了杰弗逊1813年的信

《libfacedetection》

介绍:libfacedetection是深圳大学开源的一个人脸图像识别库。包含正面和多视角人脸检测两个算法.优点:速度快(OpenCV haar+adaboost的2-3倍), 准确度高 (FDDB非公开类评测排名第二），能估计人脸角度。

《Inverting a Steady-State》

介绍:WSDM2015最佳论文把马尔可夫链理论用在了图分析上面，比一般的propagation model更加深刻一些。通过全局的平稳分布去求解每个节点影响系数模型。假设合理（转移受到相邻的影响系数影响）。可以用来反求每个节点的影响系数

《机器学习入门书单》

介绍:机器学习入门书籍，具体介绍

《The Trouble with SVMs》

介绍: 非常棒的强调特征选择对分类器重要性的文章。情感分类中，根据互信息对复杂高维特征降维再使用朴素贝叶斯分类器，取得了比SVM更理想的效果，训练和分类时间也大大降低——更重要的是，不必花大量时间在学习和优化SVM上——特征也一样no free lunch

《Rise of the Machines》

介绍:CMU的统计系和计算机系知名教授Larry Wasserman 在《机器崛起》,对比了统计和机器学习的差异

《实例详解机器学习如何解决问题》

介绍:随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。这篇文章是美团的实际环境中的实战篇

《Gaussian Processes for Machine Learning》

介绍:面向机器学习的高斯过程，章节概要：回归、分类、协方差函数、模型选择与超参优化、高斯模型与其他模型关系、大数据集的逼近方法等,微盘下载

《FuzzyWuzzy: Fuzzy String Matching in Python》

介绍:Python下的文本模糊匹配库，老库新推，可计算串间ratio(简单相似系数)、partial_ratio(局部相似系数)、token_sort_ratio(词排序相似系数)、token_set_ratio(词集合相似系数)等 github

《Blocks》

介绍:Blocks是基于Theano的神经网络搭建框架，集成相关函数、管道和算法，帮你更快地创建和管理NN模块.

《Introduction to Machine Learning》

介绍:机器学习大神Alex Smola在CMU新一期的机器学习入门课程”Introduction to Machine Learning“近期刚刚开课，课程4K高清视频同步到Youtube上，目前刚刚更新到 2.4 Exponential Families,课程视频playlist, 感兴趣的同学可以关注，非常适合入门.

《Collaborative Feature Learning from Social Media》

介绍:用社交用户行为学习图片的协同特征，可更好地表达图片内容相似性。由于不依赖于人工标签(标注)，可用于大规模图片处理，难在用户行为数据的获取和清洗；利用社会化特征的思路值得借鉴.

《Introducing practical and robust anomaly detection in a time series》

介绍:Twitter技术团队对前段时间开源的时间序列异常检测算法(S-H-ESD)R包的介绍，其中对异常的定义和分析很值得参考，文中也提到——异常是强针对性的，某个领域开发的异常检测在其他领域直接用可不行.

《Empower Your Team to Deal with Data-Quality Issues》

介绍:聚焦数据质量问题的应对，数据质量对各种规模企业的性能和效率都至关重要，文中总结出(不限于)22种典型数据质量问题显现的信号，以及典型的数据质量解决方案(清洗、去重、统一、匹配、权限清理等)

《中文分词入门之资源》

介绍:中文分词入门之资源.

《Deep Learning Summit, San Francisco, 2015》

介绍:15年旧金山深度学习峰会视频集萃,国内云盘

《Introduction to Conditional Random Fields》

介绍:很好的条件随机场(CRF)介绍文章,作者的学习笔记

《A Fast and Accurate Dependency Parser using Neural Networks》

介绍: 来自Stanford，用神经网络实现快速准确的依存关系解析器

《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》

介绍:做深度学习如何选择GPU的建议

《Sparse Linear Models》

介绍: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的报告，讲稀疏线性模型——面向“宽数据”(特征维数超过样本数)的线性模型,13年同主题报告、讲义.

《Awesome Computer Vision》

介绍: 分类整理的机器视觉相关资源列表，秉承Awesome系列风格，有质有量!作者的更新频率也很频繁

《Adam Szeidl》

介绍: social networks course

《Building and deploying large-scale machine learning pipelines》

介绍: 大规模机器学习流程的构建与部署.

《人脸识别开发包》

介绍: 人脸识别二次开发包，免费，可商用，有演示、范例、说明书.

《Understanding Natural Language with Deep Neural Networks Using Torch》

介绍: 采用Torch用深度学习网络理解NLP，来自Facebook 人工智能的文章.

《The NLP Engine: A Universal Turing Machine for NLP》

介绍: 来自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy来刻画NLP中各项任务的难度.

《TThe Probabilistic Relevance Framework: BM25 and Beyond》

介绍: 信息检索排序模型BM25(Besting Matching)。1）从经典概率模型演变而来 2）捕捉了向量空间模型中三个影响索引项权重的因子：IDF逆文档频率；TF索引项频率；文档长度归一化。3）并且含有集成学习的思想：组合了BM11和BM15两个模型。4）作者是BM25的提出者和Okapi实现者Robertson.

《Introduction to ARMA Time Series Models – simplified》

介绍: 自回归滑动平均(ARMA)时间序列的简单介绍，ARMA是研究时间序列的重要方法，由自回归模型（AR模型）与滑动平均模型（MA模型）为基础“混合”构成.

《Encoding Source Language with Convolutional Neural Network for Machine Translation》

介绍: 把来自target的attention signal加入source encoding CNN的输入，得到了比BBN的模型好的多neural network joint model

《Spices form the basis of food pairing in Indian cuisine》

介绍: 揭开印度菜的美味秘诀——通过对大量食谱原料关系的挖掘，发现印度菜美味的原因之一是其中的味道互相冲突，很有趣的文本挖掘研究

《HMM相关文章索引》

介绍: HMM相关文章

《Zipf's and Heap's law》

介绍: 1)词频与其降序排序的关系,最著名的是语言学家齐夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比关系. 曼德勃罗(Mandelbrot,1924- 2010)引入参数修正了对甚高频和甚低频词的刻画 2)Heaps' law: 词汇表与语料规模的平方根(这是一个参数,英语0.4-0.6)成正比

《I am Jürgen Schmidhuber, AMA》

介绍: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主题，有不少RNN和AI、ML的干货内容，关于开源&思想&方法&建议……耐心阅读，相信你也会受益匪浅.

《学术种子网站：AcademicTorrents》

介绍: 成G上T的学术数据，HN近期热议话题,主题涉及机器学习、NLP、SNA等。下载最简单的方法，通过BT软件，RSS订阅各集合即可

《机器学习交互速查表》

介绍: Scikit-Learn官网提供，在原有的Cheat Sheet基础上加上了Scikit-Learn相关文档的链接，方便浏览

《A Full Hardware Guide to Deep Learning》

介绍: 深度学习的全面硬件指南，从GPU到RAM、CPU、SSD、PCIe

《行人检测(Pedestrian Detection)资源》

介绍:Pedestrian Detection paper & data

《A specialized face-processing network consistent with the representational geometry of monkey face patches》

介绍: 【神经科学碰撞人工智能】在脸部识别上你我都是专家，即使细微的差别也能辨认。研究已证明人类和灵长类动物在面部加工上不同于其他物种，人类使用梭状回面孔区（FFA）。Khaligh-Razavi等通过计算机模拟出人脸识别的FFA活动，堪称神经科学与人工智能的完美结合。

《Neural Net in C++ Tutorial》

介绍: 神经网络C++教程,本文介绍了用可调节梯度下降和可调节动量法设计和编码经典BP神经网络，网络经过训练可以做出惊人和美妙的东西出来。此外作者博客的其他文章也很不错。

《How to Choose a Neural Network》

介绍:deeplearning4j官网提供的实际应用场景NN选择参考表，列举了一些典型问题建议使用的神经网络

《Deep Learning (Python, C/C++, Java, Scala, Go)》

介绍:一个深度学习项目,提供了Python, C/C++, Java, Scala, Go多个版本的代码

《Deep Learning Tutorials》

介绍:深度学习教程

《自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授》

介绍:自然语言处理的发展趋势——访卡内基梅隆大学爱德华·霍威教授.

《FaceNet: A Unified Embedding for Face Recognition and Clustering》

介绍:Google对Facebook DeepFace的有力回击—— FaceNet，在LFW(Labeled Faces in the Wild)上达到99.63%准确率(新纪录)，FaceNet embeddings可用于人脸识别、鉴别和聚类.

《MLlib中的Random Forests和Boosting》

介绍:本文来自Databricks公司网站的一篇博客文章，由Joseph Bradley和Manish Amde撰写，文章主要介绍了Random Forests和Gradient-Boosted Trees（GBTs）算法和他们在MLlib中的分布式实现，以及展示一些简单的例子并建议该从何处上手.中文版.

《Sum-Product Networks(SPN) 》

介绍:华盛顿大学Pedro Domingos团队的DNN，提供论文和实现代码.

《Neural Network Dependency Parser》

介绍:基于神经网络的自然语言依存关系解析器(已集成至Stanford CoreNLP)，特点是超快、准确，目前可处理中英文语料，基于《A Fast and Accurate Dependency Parser Using Neural Networks》思路实现.

《神经网络语言模型》

介绍:本文根据神经网络的发展历程，详细讲解神经网络语言模型在各个阶段的形式，其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要变形，总结的特别好.

《Classifying Spam Emails using Text and Readability Features》

介绍:经典问题的新研究：利用文本和可读性特征分类垃圾邮件。

《BCI Challenge @ NER 2015》

介绍:Kaggle脑控计算机交互(BCI)竞赛优胜方案源码及文档，包括完整的数据处理流程，是学习Python数据处理和Kaggle经典参赛框架的绝佳实例

《IPOL Journal · Image Processing On Line》

介绍:IPOL（在线图像处理）是图像处理和图像分析的研究期刊，每篇文章都包含一个算法及相应的代码、Demo和实验文档。文本和源码是经过了同行评审的。IPOL是开放的科学和可重复的研究期刊。我一直想做点类似的工作，拉近产品和技术之间的距离.

《Machine learning classification over encrypted data》

介绍:出自MIT，研究加密数据高效分类问题.

《purine2》

介绍:新加坡LV实验室的神经网络并行框架Purine: A bi-graph based deep learning framework,支持构建各种并行的架构，在多机多卡，同步更新参数的情况下基本达到线性加速。12块Titan 20小时可以完成Googlenet的训练。

《Machine Learning Resources》

介绍:这是一个机器学习资源库,虽然比较少.但蚊子再小也是肉.有突出部分.此外还有一个由zheng Rui整理的机器学习资源.

《Hands-on with machine learning》

介绍:Chase Davis在NICAR15上的主题报告材料，用Scikit-Learn做监督学习的入门例子.

《The Natural Language Processing Dictionary》

介绍:这是一本自然语言处理的词典,从1998年开始到目前积累了成千上万的专业词语解释,如果你是一位刚入门的朋友.可以借这本词典让自己成长更快.

《PageRank Approach to Ranking National Football Teams》

介绍:通过分析1930年至今的比赛数据，用PageRank计算世界杯参赛球队排行榜.

《R Tutorial》

介绍:R语言教程,此外还推荐一个R语言教程An Introduction to R.

《Fast unfolding of communities in large networks》

介绍:经典老文，复杂网络社区发现的高效算法，Gephi中的Community detection即基于此.

《NUML》

介绍: 一个面向 .net 的开源机器学习库,github地址

《synaptic.Js》

介绍: 支持Node.js的JS神经网络库，可在客户端浏览器中运行，支持LSTM等 github地址

《Machine learning for package users with R (1): Decision Tree》

介绍: 决策树

《Deep Learning, The Curse of Dimensionality, and Autoencoders》

介绍: 讨论深度学习自动编码器如何有效应对维数灾难,国内翻译

《Advanced Optimization and Randomized Methods》

介绍: CMU的优化与随机方法课程，由A. Smola和S. Sra主讲，优化理论是机器学习的基石，值得深入学习国内云(视频)

《CS231n: Convolutional Neural Networks for Visual Recognition》

介绍: "面向视觉识别的CNN"课程设计报告集锦.近百篇，内容涉及图像识别应用的各个方面

《Topic modeling with LDA: MLlib meets GraphX》

介绍:用Spark的MLlib+GraphX做大规模LDA主题抽取.

《Deep Learning for Multi-label Classification》

介绍: 基于深度学习的多标签分类,用基于RBM的DBN解决多标签分类(特征)问题

《Google DeepMind publications》

介绍: DeepMind论文集锦

《kaldi》

介绍: 一个开源语音识别工具包,它目前托管在sourceforge上面

《Data Journalism Handbook》

介绍: 免费电子书《数据新闻手册》, 国内有热心的朋友翻译了中文版,大家也可以在线阅读

《Data Mining Problems in Retail》

介绍: 零售领域的数据挖掘文章.

《Understanding Convolution in Deep Learning》

介绍: 深度学习卷积概念详解,深入浅出.

《pandas: powerful Python data analysis toolkit》

介绍: 非常强大的Python的数据分析工具包.

《Text Analytics 2015》

介绍: 2015文本分析(商业)应用综述.

《Deep Learning libraries and ﬁrst experiments with Theano》

介绍: 深度学习框架、库调研及Theano的初步测试体会报告.

《DEEP learning》

介绍: MIT的Yoshua Bengio等人讲深度学习的新书，还未定稿，线上提供Draft chapters收集反馈，超赞！强烈推荐.

《simplebayes》

介绍: Python下开源可持久化朴素贝叶斯分类库.

《Paracel》

介绍:Paracel is a distributed computational framework designed for machine learning problems, graph algorithms and scientific computing in C++.

《HanLP:Han Language processing》

介绍: 开源汉语言处理包.

《Simple Neural Network implementation in Ruby》

介绍: 使用Ruby实现简单的神经网络例子.

《Hacker's guide to Neural Networks》

介绍:神经网络黑客入门.

《The Open-Source Data Science Masters》

介绍:好多数据科学家名人推荐,还有资料.

《Text Understanding from Scratch》

介绍:实现项目已经开源在github上面Crepe

《 Improving Distributional Similarity with Lessons Learned from Word Embeddings》

介绍:作者发现，经过调参，传统的方法也能和word2vec取得差不多的效果。另外，无论作者怎么试，GloVe都比不过word2vec.

《CS224d: Deep Learning for Natural Language Processing》

介绍:Stanford深度学习与自然语言处理课程,Richard Socher主讲.

《Math Essentials in Machine Learning》

介绍:机器学习中的重要数学概念.

《Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks》

介绍:用于改进语义表示的树型LSTM递归神经网络,句子级相关性判断和情感分类效果很好.实现代码.

《Statistical Machine Learning》

介绍:卡耐基梅隆Ryan Tibshirani和Larry Wasserman开设的机器学习课程，先修课程为机器学习(10-715)和中级统计学(36-705)，聚焦统计理论和方法在机器学习领域应用.

《AM207: Monte Carlo Methods, Stochastic Optimization》

介绍:《哈佛大学蒙特卡洛方法与随机优化课程》是哈佛应用数学研究生课程，由V Kaynig-Fittkau、P Protopapas主讲，Python程序示例，对贝叶斯推理感兴趣的朋友一定要看看，提供授课视频及课上IPN讲义.

《生物医学的SPARK大数据应用》

介绍:生物医学的SPARK大数据应用.并且伯克利开源了他们的big data genomics系统ADAM，其他的内容可以关注一下官方主页.

《ACL Anthology》

介绍:对自然语言处理技术或者机器翻译技术感兴趣的亲们，请在提出自己牛逼到无以伦比的idea（自动归纳翻译规律、自动理解语境、自动识别语义等等）之前，请通过谷歌学术简单搜一下，如果谷歌不可用，这个网址有这个领域几大顶会的论文列表,切不可断章取义,胡乱假设.

《Twitter Sentiment Detection via Ensemble Classification Using Averaged Confidence Scores》

介绍:论文+代码:基于集成方法的Twitter情感分类,实现代码.

《NIPS 2014 CIML workshop》

介绍:NIPS CiML 2014的PPT,NIPS是神经信息处理系统进展大会的英文简称.

《CS231n: Convolutional Neural Networks for Visual Recognition》

介绍:斯坦福的深度学习课程的Projects 每个人都要写一个论文级别的报告里面有一些很有意思的应用大家可以看看 .

《A Speed Comparison Between Flexible Linear Regression Alternatives in R》

介绍:R语言线性回归多方案速度比较具体方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan’s optimizing()等.

《Back-to-Basics Weekend Reading - Machine Learning》

介绍:文中提到的三篇论文（机器学习那些事、无监督聚类综述、监督分类综述）都很经典，Domnigos的机器学习课也很精彩

《A Probabilistic Theory of Deep Learning》

介绍:莱斯大学（Rice University）的深度学习的概率理论.

《Nonsensical beer reviews via Markov chains》

介绍:基于马尔可夫链自动生成啤酒评论的开源Twitter机器人,github地址.

《Deep Learning for Natural Language Processing (without Magic)》

介绍:视频+讲义:深度学习用于自然语言处理教程(NAACL13).

《Introduction to Data Analysis using Machine Learning》

介绍:用机器学习做数据分析,David Taylor最近在McGill University研讨会上的报告，还提供了一系列讲机器学习方法的ipn，很有价值 GitHub.国内

《Beyond Short Snippets: Deep Networks for Video Classification》

介绍:基于CNN+LSTM的视频分类,google演示.

《How does Quora use machine learning in 2015?》

介绍:Quora怎么用机器学习.

《Amazon Machine Learning – Make Data-Driven Decisions at Scale》

介绍:亚马逊在机器学习上面的一些应用,代码示例.

《Parallel Machine Learning with scikit-learn and IPython》

介绍:并行机器学习指南(基于scikit-learn和IPython).notebook

《Intro to machine learning with scikit-learn》

介绍:DataSchool的机器学习基本概念教学.

《DeepCLn》

介绍:一个基于OpenGL实现的卷积神经网络，支持Linux及Windows系.

《An Inside Look at the Components of a Recommendation Engine》

介绍:基于Mahout和Elasticsearch的推荐系统.

《Forecasting in Economics, Business, Finance and Beyond》

介绍:Francis X. Diebold的《(经济|商业|金融等领域)预测方法.

《Time Series Econometrics - A Concise Course》

介绍:Francis X. Diebold的《时序计量经济学》.

《A comparison of open source tools for sentiment analysis》

介绍:基于Yelp数据集的开源情感分析工具比较,评测覆盖Naive Bayes、SentiWordNet、CoreNLP等 .

《Pattern Recognition And Machine Learning》

介绍:国内Pattern Recognition And Machine Learning读书会资源汇总,各章pdf讲稿,博客.

《Probabilistic Data Structures for Web Analytics and Data Mining 》

介绍:用于Web分析和数据挖掘的概率数据结构.

《Machine learning in navigation devices: detect maneuvers using accelerometer and gyroscope》

介绍:机器学习在导航上面的应用.

《Neural Networks Demystified 》

介绍:Neural Networks Demystified系列视频，Stephen Welch制作，纯手绘风格，浅显易懂,国内云.

《swirl + DataCamp 》

介绍:{swirl}数据训练营:R&数据科学在线交互教程.

《Learning to Read with Recurrent Neural Networks 》

介绍:关于深度学习和RNN的讨论 Sequence to Sequence Learning with Neural Networks.

《深度强化学习（Deep Reinforcement Learning）的资源》

介绍:Deep Reinforcement Learning.

《Machine Learning with Scikit-Learn》

介绍:(PyCon2015)Scikit-Learn机器学习教程,Parallel Machine Learning with scikit-learn and IPython.

《PDNN》

介绍:PDNN: A Python Toolkit for Deep Learning.

《Introduction to Machine Learning》

介绍:15年春季学期CMU的机器学习课程，由Alex Smola主讲，提供讲义及授课视频，很不错.国内镜像.

《Big Data Processing》

介绍:大数据处理课.内容覆盖流处理、MapReduce、图算法等.

《Spark MLlib: Making Practical Machine Learning Easy and Scalable》

介绍:用Spark MLlib实现易用可扩展的机器学习,国内镜像.

《Picture: A Probabilistic Programming Language for Scene Perception》

介绍:以往上千行代码概率编程(语言)实现只需50行.

《Beautiful plotting in R: A ggplot2 cheatsheet》

介绍:ggplot2速查小册子, 另外一个,此外还推荐《A new data processing workflow for R: dplyr, magrittr, tidyr, ggplot2》.

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

“小满”安全车控操作系统正式在AtomGit开源

10月24日，由中国汽车工业协会指导，普华基础软件股份有限公司主办的“小满”安全车控操作系统开源发布会暨共建计划说明会成功举行。普华基础软件宣布将安全车控操作系统“小满”（简称“小满”）V24.10源代码正式在开放原子开源基金会（简称“基金会”）旗下AtomGit开源协作平台开源，并在AtomGit平