12.

章节

12 -

结论和步骤

7:

优化和战略

如何使用本教程

:

请阅读本内核中提供的解释和相关链接。我们的目标不只是知道

是什么

,还要知道

为什么

如果您不理解代码中的某些内容,那么

print()

函数是您最好的朋友。在编码中,尝试、失败、再尝试都是必要的

过程。如果你遇到了问题,谷歌是你的第二个好朋友,因为

99.99%

的情况下,其他人都有相同的问题,并且已经

向编码社区询问过了。如果您已经尝试了所有资源而无果,

Kaggle

社区通过论坛和评论也可以提供帮助。

第一章

数据科学家如何战胜困难

泰坦尼克是一个经典问题,预测一个二元事件的结果。通俗地说,这意味着它要么发生了,要么没有发生。例

如,你赢了或没赢,你通过了测试或没通过测试,你被接受或没被接受。常见的业务应用是预测客户流失或客户

保留,另一个应用较广泛的是医疗事件的死亡率或生存分析。二进制事件会产生一种有趣的事情,就是根据统

计,随机猜测的准确率应该达到

50%

,而不需要创建一个单独的算法或编写一行代码,然而,有时我们建立的算

法可能准确率还达不到

50%

。在这个内核中,我使用

Kaggle

的入门竞赛

——

泰坦尼克

:

从灾难中机器学习,带领读

者一步一步使用数据科学框架来解决问题。

第二章

数据科学框架

1.

定义问题:

如果说类似数据科学、大数据、机器学习、预测分析、商业智能等流行词是解决方案,那问题是

什么

?

科学的框架是不能本末倒置的。问题先于需求,需求先于解决方案,解决方案先于设计,设计先于技

术。我们不能在决定我们要解决的实际问题之前,就急于采用新的高级的技术、工具或算法。

Learning

from

Disaster

)

经典教程

泰坦尼克号:从灾难中机器学习(

Titanic:

Machine

教程提供了清晰的解释、干净的代码和大量的资源链接。

入门。通过学习这个框架,你不仅能够提交你的第一个竞赛,还能够解决任何抛给你的问题。本

供一个框架,教你如何像数据科学家一样思考,而不是思考什么或编写什么代码,从而让你更快

在这个领域中迷失了方向,因为他们陷入了黑盒方法,使用他们不理解的库和算法。本教程将提

这是一个经典案例,来源于

Kaggle

,一个在线学习、共享和竞争的数据科学社区,很多数初学者

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐