mahout in action 1 初识Mahout
本章内容:.什么是mahout.初识推荐引擎,聚类,分类在现实生活.建立mahout你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout?Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是
.什么是mahout
.初识推荐引擎,聚类,分类在现实生活
.建立mahout
你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout?
Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是:协同过滤(CF)/推荐引擎(recommender),聚类(clustering)和分类(classification)。
它具有很强的扩展性。当被处理的非常巨大的数据量,对单个机器来说可能太巨大以至于无法完成时,Mahout旨在成为处理数据的机器学习工具。在它当前的体现中,这些可扩展性的实现是用Java语言写成的,有些部分是建立在Apache Hadoop分布式计算项目上。
它是一个Java library。它不提供一个用户接口,一个预先的jar包服务,或安装文件。它是一个开发者用于使用和改装的工具的框架。
大家可能想知道,这个项目,这本身是否适合我?
如果你想找一本机器学习的教科书,那就不适合你。本书不是用来完全解释理论,算法的各种来历和技术展现。熟悉这些机器学习的方法和相关的概念,如matrix and vector math,这些知识在读这本书时都是很有用的。
如果你正在开发现代化的智能应用程序,这本书适合你。随着解决方法的完整示例,这本书提供了一个实用的而非理论的方式来处理这些技术。它开发了一些关于mahout如何部署来解决问题的方案,这些方案是由示范过程中有经验的学员收集的。
如果你是一个关于人工智能,机器学习以及相关领域的研究人员,适合你。可能你最大的障碍就是把新的算法应用到实践中。Mahout为检测和部署新的大型的算法提供了一个丰富的框架。这本书在复杂的分布式计算框架上运行机器学习系统是一个有效的引入人。
如果你是一个产品团队或系统启动项的领导,将会利用机器学习创造一个有竞争性的优势,那么这本书对你也是有用的。通过现实生活中的例子,将会产生关于这些技术可能被部署的许多方式的观点。它也会帮助你的碎片技术团队直接形成一个低成本的实施,这可以处理大量的以前数据,这些数据只对拥有大型技术资源的组织是很现实的。
最后,你可能想知道怎样来说mahout,它应该与“trout”谐音。它应该是一个关于大象管理员的印的词语,并试图解释这一词语,这里有一个小的历史。2008年,mahout作为apache Lucene项目的子项目出现,它提供了同名的著名的开源搜索引擎。Lucene为关于搜索,文本开采和信息检索技术提供了高级实施。从计算机科学的整体来说,这些概念对机器学习技术,如聚类,在一定程度上,如分类,是邻近的。所以,对这些机器学习领域投入更多的lucene committers,它的一些工作是把自己甩进自己的子项目里。不久以后,Mahout吸收了“Taste”开源协同过滤(CF)项目。
2010年4月,mahout就其本身已经变成了一个高水平的Apache项目。
Mahout的很多工作通常不仅以一种高效的可扩展的方式实现了这些算法,而且转换一些算法至Hadoop的规模上运行。Hadoop的吉祥物是一只大象,它最后解释了这个项目名称。
图 1.1 Mahout和它的相关项目
Mahout不断提供一些技术和算法,其中许多技术和算法仍处在开发或试验阶段。在这个项目的早期阶段,三个核心主题是明显的:协同过滤/推荐引擎,聚类和分类。如果你正在读这本书,而你已经意识到这三类技术的有趣的潜能。如果你还没能了解,请继续读下去。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)