一、商业数据分析概念

1.商业数据分析引入

先列举几个案例:
(1)请估计一下2020年八月份在北京卖出有多少双鞋子?
显然,这是一个很开放的问题,并不像在学校里的题目都有标准答案,是需要经过自己的思考、定义和分析的。

(2)Corley主营在网上卖手机壳,根据销售数据,发现8月份比7月份购买手机壳的顾客数量下降了10%,怎么回事?
这也是一个开放的问题,可以从内部和外部两方面来思考问题:

  • 外部
    是手机销售量下降了还是同行业竞争对手出现了,或者经济不景气?物流延迟?
  • 内部
    销售环节出了问题?哪一类用户下降?

重点需要分析背后的原因,因此需要分析问题的能力。
很多时候我们觉得学校学到的东西都没用,那只是因为我们没有将学校的知识与实际应用结合起来。

2.什么是商业数据分析?

商业数据分析从业要求:

  • 基础知识
  • 工具
  • 业务能力
  • 软技能

举一个例子,拿学武功来说,武功秘籍就是基础知识,宝剑就是工具,在实际练武过程中就得到了面对不同武功和不同对手所需要的方法和技巧,慢慢培养出了业务能力,出神入化之后形成了自己的软技能。

基于数据通过分析手段挖掘出商业价值,解决商业问题,并通过分析商业问题建立相应的分析模型。
上面的几个案例都可以通过数据分析的手段得出结论。

3.所需技能

数据分析大致分为5个阶段:数据获取、数据处理、数据分析与建模、数据解释与呈现、验证及优化。
这五个阶段在上述的基础知识、工具和业务能力方面又有不同的要求,具体如下:
所需技能

4.基本分析流程和供应链各个环节

再举一个案例:
(3)Corley卖鞋,2020年9月前10天就完成了本月计划的80%,业绩是好还是不好?

可能有人会觉得好,毕竟三分之一的时间就卖出了大部分,但是实际上并不一定好:
要看整个月的销售情况,如果前10天销量处于上升趋势,剩下的时间处于快速下降并保持很低的水平,有可能是完成不了计划的;
还好看以前的销售情况,比如说同比销售额,是不是可能比现在还好;
和其他竞争对手相比,是否比他们好。

销量好或者不好需要从多个维度进行衡量,而不是单纯地给出一个答案;
每个行业不同,相应的分析方法和思路也千差万别。

一个基本的分析流程如下:

  • 理解商业问题
    根据具体的商业场景理解商业问题。
  • 准备阶段
    根据相应的商业场景进行计划和准备,需要哪些数据、怎么进行分析。
  • 数据分析
  • 解释结果

供应链的各个环节如下:

原材料供应商
生产商
经销商
销售商
终端客户

分析时,不仅要从销售价格来分析,也要从源头即成本进行分析,处于供应链的哪个位置;
找整个商业供应链出现问题的主要环节,找出问题。

5.商业理解

对于一个事件,会有很多因素,可能都会影响到结果。

在商业数据分析中,需要进行多维度思考,包括产品、位置、时间等角度,比如零售业中有人、货、场的概念,如下:
多维度思考

从点、线、面的角度评价销售业绩:
分析自己9月份业绩即为点;
分析与去年同期相比即为线;
与其他人相比即为面。

获取知识的金字塔DIKW如下:
DIKW

从原始数据中提取出信息,并通过总结得到知识,逐渐积累成为智慧。

6.需要用到的工具

(1)Excel是最普及的数据处理和分析工具,作为Office三件套之一,受到各行业广泛的使用,也很容易上手。

(2)思维导图工具,如XMind、Mind Master等,可以整理知识体系、梳理思维。

(3)专业的Python数据分析工具Anaconda,可以进行Python基础编程、数据分析、建模计算等,自带了很多包,可以直接点击加QQ群 Python极客部落963624318 在群文件夹Python相关安装包中下载安装。

(4)关系型数据库软件MySQL,是最常见的的数据库之一,个人一般直接使用社区版即可,可以到MySQL官网https://dev.mysql.com/downloads/mysql/中下载,由于官网下载较慢也点击加QQ群 Python极客部落963624318 在群文件夹数据库软件中下载,然后解压并执行安装配置即可,具体可参考https://www.cnblogs.com/zhangkanghui/p/9613844.html

除此之外,还可以充分利用Github开源平台https://github.com/,可以查询一些开源项目、查看源码,是一个学习的平台。

二、数据特性

1.数据粒度

数据存在特定的特点,其中之一为粒度
较标准的定义为:
数据粒度是指数据仓库中数据的细化和综合程度
根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。

很多时候得到的数据为汇总的数据,比如对于电商来说,得到了每个月的销售情况,要预测每天的销售情况是不现实的;
汇总数据可以获取整体趋势。

而对于原始数据,可以为每一种商业模式确定相应的指标KPI,比如电商行业的常见指标如下:
电商指标

并且可以使用杜邦分析法评价指标组合进而确定经营业绩,示意如下:
杜邦分析法

对于Leader来说,很重要的一个要求是用户体验好,好的用户体验好主要包括以下方面:
好的用户体验

分析流程可以进一步细分如下:

  • 目标
    比如设定PV、DAU(日活)等指标。
  • 收集数据
    根据需求、按照指定的方法获取数据,并过滤掉无用的信息。
  • 数据探索
    发现收集到的数据的特点、分布特征,并探索数据间的关系。
  • 特征工程
    数据中哪些重要。
  • 开发计算
    进行建模计算、并产生结果,如线性回归、逻辑回归。
  • 评估

假如有一个JSON格式的电影评分数据如下:
计算相似性

现在需要计算谁和谁更相似,对两部电影建立坐标系如下:
电影坐标系

每个人的评分都以坐标的形式体现出来,可以通过两者之间的距离计算出来,距离越近则相似度越高,最简单的方式是通过勾股定理计算;
有多部电影则计算多维距离。

2.数据质量与形式

数据有一个很重要的特性是数据质量。
根据定义,数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

比如说,调查问卷因为设计不好而导致收集到的结果有失客观性,这就是数据质量有问题。

衡量数据质量有一定的衡量指标:

  • 重复
    数据重复是否有意义。
  • 完整
    数据探索时判断数据是否完整。
  • 一致
    数据之间是否一致,比如问卷数据前后部分是否符合。
  • 时效
    数据一般在某个时间区间内有效。

数据还有一个特性是数据形式,主要包括:

  • 结构数据
    具有一定结构的数据,如MySQL数据库中的数据,对数据类型有一定的限制。
  • 半结构数据
    具有特定的格式,如之前的json数据就是半结构数据,一般来自网站。
  • 非结构数据
    文本、图片等文件,没有特定的结构,不能使用常规方法分析。
    对于图片文件,图都是有由像素组成的点阵,每一个像素点由RGB值确定,组成一个矩阵进行处理。

不同格式的数据也有不同的来源。

3.数据隐性

可以从数据中挖掘出信息和价值。

再举一个案例:
(4)对于电商行业,怎么分析客户的男女比例:
假如有一个客户叫孙悦,昵称是小悦悦,最近老是频繁登录公司的APP,并且总是浏览美妆产品,而且最近三个月购买了大量女鞋和美妆。
那么孙悦是男还是女呢?

要判断一个客户是男性还是女性,可以从以下指标出发:
性别判断指标

最简单的方法:

男性概率=姓名倒数第一个字男性概率×权重1+姓名倒数第二个男性概率×权重2
女性=1–男性概率

这个模型只是依据姓名来判断的,较为单一。

更进一步的分析:
在姓名判断性别概率的基础上,再依据消费行为(如购买剃须刀)的特征判断性别概率,并确定权重计算加权概率。
这是一个分类问题。

进行数据分析的好处:

  • 搞清事实
    分析事情的好坏。
  • 接近真相
    可以发现真相的可能情况。
  • 预测未知
    比如预测消费曲线。
  • 帮助决策
    如智能投顾。

三、数据分析类型、可视化与数据驱动开发团队

1.不同类型的分析

不同类型分析的复杂度和价值如下:
不同类型的分析

其中,描述性分析用于描述当前情况,比如分布、曲线等;
诊断分析主要分析问题原因,可能需要进行可视化;
预测分析主要预测未知,包括自动化推荐系统、销量预测;
指导分析用于指导行动。

随着难度的加大,所需要的数据也越来越多工具越来越复杂

常见的分析框架如下:
数据分析框架

具体包括SVM、决策树、逻辑回归、神经网络、线性回归、K-means、分层聚类等理论模型。

2.数据可视化

有了分析的结果,需要进行报告,其中可视化不可缺少,需要将结果呈现出来。
同时在数据探索时,数据可视化可以让我们更加直观地了解数据所呈现出的特点。

一个图表示意如下:
数据可视化反面示例

显然,左右两部分都是有问题的:
标题不规范;
刻度不一致,不协调;
坐标轴起点;
两个表的差距感觉不同,但实际上差别是一样的。

3.数据驱动开发团队

一个典型的数据驱动开发团队的成员如下:
典型数据驱动开发团队
左侧负责数据分析,右侧负责项目开发,需要相互协调和配合。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐