Power BI 傻瓜入门 11. 可视化数据
一张图片能说出千言万语”是许多人使用Power BI的原因之一。您已经导入了数据,可能有数百万条记录,现在您想了解数据的含义。对于您或您的组织来说,可视化可能比大型复杂数据集或单页报告更容易使用。当然,根据所涉及的变量数量或您想要探索的数据类型,拥有特定类型的可视化只能提高数据体验的可读性和流畅性。在本章中,您可以看到如何访问可视化、选择正确的选项以及配置可视化以创建报告。
本章内容包括:
- 掌握Power BI中可用的各种可视化选项
- 决定何时使用特定的可视化技术
- 了解Power BI版本之间的可视化配置差异
“一张图片能说出千言万语”是许多人使用Power BI的原因之一。您已经导入了数据,可能有数百万条记录,现在您想了解数据的含义。对于您或您的组织来说,可视化可能比大型复杂数据集或单页报告更容易使用。当然,根据所涉及的变量数量或您想要探索的数据类型,拥有特定类型的可视化只能提高数据体验的可读性和流畅性。在本章中,您可以看到如何访问可视化、选择正确的选项以及配置可视化以创建报告。
查看报表基础和可视化
Power BI有一个简单的分工:您可以使用Desktop版本来创建数据模型和可视化,Services可以为您在web上部署数据集、报告和仪表板。换句话说,如果您想共享数据,您必须熟悉Power BI Desktop以及服务选项的变体。这并不意味着你不能在服务中操作可视化或更新它们。事实上,您可以自行协作或编辑报告。尽管如此,大多数可视化操作都发生在Power BI Desktop中,而不是在Power BI Services中。
创建可视化
假设您在Power BI Desktop中存储了一个数据集,并且希望将其作为可视化共享。单击左侧导航栏上的Report View选项卡,开始转到Report选项卡(见图11-1)。
此时,您将进入可视化界面,在该界面中,您可以选择将可视化类型从右侧的“可视化”窗格拖放到“可视化”画布。图11-2展示了Power BI Desktop中的Report视图示例,其中进行了可视化。
在“报表”视图中,您可以完成许多与可视化相关的活动,例如
- 从“可视化”窗格中选择可视化图标
- 选择要在可视化中使用的字段
- 将字段从“字段”窗格拖动到画布以进行可视化创建
- 利用Ribbon创建和管理视觉效果
- 使用问答编辑器解释视觉效果
为了增强对报告的理解,用户可以集成文本框、自定义形状和图像。对于那些希望使用可视化创建多页报告的人,您可以选择在每个可视化上添加按钮、书签和页面导航。
选择可视化
Power BI Desktop的“报告”视图的“可视化”窗格包含20多个可视化选项,您可以将这些选项拖动到“可视化”画布中。每次可视化都要求用户在将可视化拖动到画布后,从“字段”窗格中选择一个或多个字段。用户必须选中复选框,才能在“字段”窗格中包含该字段以进行可视化。图11-3为您提供了Visualizations窗格的示例,图11-4说明了相关的Fields窗格。
限制所选复选框的数量,否则可能会造成较差的可视化效果。仅从“字段”窗格中选择相关的变量。使用那些有助于报告具体性的字段。请记住,“越多越好”并不一定总是最好的情况。
筛选数据
在制作可视化时,您经常需要过滤数据。每次选择要合并到可视化中的新字段时,该字段都会显示为另一个可以筛选的值。根据特定值的数据集大小,您可能需要缩小焦点。例如,您选择了一个名为Award的值作为选项。在“奖励”下,您有五个选项可供筛选,其中包括“全选”。在数据基于类别或定性度量的情况下,您可以选择自己喜欢的字段。(图11-5就是这样。)您将遇到一些实例,在这些实例中,总是需要根据找到的值来减少数据集。例如,如果您正在寻找价值超过100000美元的任何奖励数据,您可以将其用作筛选条件,如图11-6所示。
用户可以使用filter窗格中的filter on This Page或filter on all Pages选项,仅在特定可视化上或在所有可视化中过滤数据,如图11-7所示。
使用条形图和柱形图
Power BI提供多种条形图和柱形图。每一个都允许您汇总和比较一个集中数据类别中的两个或多个值。您可以使用条形图或柱状图进行比较,因为它们提供了数据集的快照。
堆积条形图和堆积柱形图
当试图将类别与标准定量变量进行比较时,最好使用堆积条形图和堆积柱形图。条形图是根据显示的值按比例显示的——对于堆积条形图,条形图是水平排列,对于堆积柱形图,条形线是垂直排列。图表的一个轴表示用于比较的类别,另一个轴是集中值。
您通常只开始比较两个变量,但如果您有更多的变量,Power BI支持将数据集分解为更细粒度的细节。例如,在图11-8中,您可以看到一个具有单个数据类别Bid的堆积条形图。然后,将投标分为多个部分,并将其值分配给不同的奖励类别(否、已授予、待定和进行中)。条形的比例是总投标金额(总额)的“否”、“已授予”、“待决”和“进行中”比例。
如果你添加第二个维度Agency,你可以看到堆积条形图被进一步分解。(见图11-9。)可能只有一种状态具有一些堆叠的条形图,而在其他条形图中可能有几个。
堆积柱形图将数据的方向从水平更改为垂直。数据的摘要没有实际的区别,只有数据集的可视化。图11-10显示了与图11-8所示相同的数据,但这次是垂直显示的。对于图11-11所示的多个维度也是如此。
聚集条形图和聚集柱形图
与堆积条形图和堆积柱形图不同的是,堆积条形图将数据压缩为每个类别的单个条形图或列,而聚集条形图和聚集柱形图中的数据细分更为离散。当值在集群中分解时,更容易区分值是大还是小。例如,图11-12使用聚类条形图显示了中标方案,图11-13使用聚类柱形图显示了投标方案。正如In Progress所指出的,您注意到正在处理的机会很少,而Pending的美元交易量最大。
您的数据推动您的可视化选择。有时,您可能想展示一个类别中的数据是如何一致的。在其他时候,你可能想要表现出极端。您的业务用例、数据类别和字段的数量以及您希望实现的影响必须决定您的可视化选择。
百分比堆积条形图和百分比堆积柱形图
比较堆积条形图中的多个数据系列时,请使用100%堆积条形图或100%堆积柱形图。对于这种类型的可视化,每个堆叠的条形图或列的总和始终等于100%。这种可视化的目的是展示一个部分如何与整体建立关系。在图11-14和11-15中,比较了两个系列:投标角色(总承包商或分包商)和中标状态。左边是与成为Prime相关的所有类别,右边是所有Sub-Contractor相关的状态。
在使用100%堆积条形图和100%堆积柱形图作为首选之前,请三思。输出可能会有问题,因为它缺乏必要的精度。如果数据不足,则无法达到所需的精度。与此相反的是,当您显示值的总和时,这样的图表可能是有益的。问题:只有当汇总数据是您的唯一目标时,它才有效。
使用基本折线图和面积图
当你的目标是对一段时间的趋势进行分析时,可以考虑使用折线图或面积图。对于这两种图表类型,都可以为x轴指定一个数值,而y轴则用作关键度量。折线图使用直线段连接特定的数据点。当您在数据集中查找更改时,面积图更合适。尽管两者都遵循一种趋势,但面积图中填充了特定的颜色或纹理,以显示数据的变化。
在图11-16(折线图)和11-17(面积图)所示的示例中,您可以看到特定时期内损失的奖励的快照以及金额投标的数字。你可以看到,最高出价是261000美元;出价最低的是2000美元。目标是了解各机构的确切投标金额和损失率,而不一定只是将投标授予特定承包商的机构。
折线图和条形图的组合
有时你可能试图完成对多种趋势的分析。当数据集很重要,并且您希望将尽可能多的信息放入单个可视化中时,可以组合图表类型。需要考虑的两种选择是折线图和堆积柱形图以及折线图和聚集柱形图。
以图11-18中的例子为例,它描述了对三个不同州承付的最大金额的具体评估。这是一个比较指标。第二个比较度量是有多少唯一的NAICS代码与数据集相关联。两个状态与四个NAICS代码关联,一个状态仅与三个关联。奖励活动的数量、最高义务下该活动的美元金额以及不同NAICS代码的数量告诉你,马里兰州颁发的奖励比佐治亚州颁发的奖励更多。
当你试图为联合图表创建比较时,请确保它们彼此相关。数据比较不应该太模糊,因为你不想稀释你的报告的价值。此外,请确保不要添加太多的比较层。
使用功能区图表
如果希望按值在图例中作为项目显示的顺序查看值,最好考虑功能区图表。功能区图表根据某个项目在特定轴上的大部分度量值对项目进行排序。当一个类别具有多个正在评估的值时,每个类别类型都会以不同的方式表示。
在图11-19中,请注意,收到承付美元最多的州是弗吉尼亚州。相比之下,哥伦比亚特区的拨款最少。按比例,与给定NAICS代码相关的采购数量也是可见的,并通过不同的颜色进行区分。
瀑布图
在图11-20所示的例子中,请注意,最重要的总财务义务附属于弗吉尼亚州。两个NAICS代码541511和541512之间的差异造成了对第二高资助州(马里兰州以外)的财政义务之间的差距。在这种情况下,答案是弗吉尼亚州。所代表的负数显示各州之间分配给给定NAICS代码的资金差异(也可能是增加的)。
使用漏斗图进行漏斗化
当你正在寻找一种方法来理解线性过程、可视化顺序阶段或合理化数据集中关键项目的权重时,漏斗图是最好的选择。使用销售漏斗建模类比,如果管道中包含各种金额的投标,您可以更好地了解大部分焦点的位置。
在图11-21中,假设最重要的投标机会是教育部,投标额为340000美元。商务部收到的报价最小,约为16800美元。最小的金额是整个投标预测的4.9%。相比之下,340000美元是最重要的出价,以漏斗中的100%表示。
您可能已经注意到,本章中描述的一些报告在过滤方面变得具体。许多特异性与可视化窗格中的字段关联相关。无论可视化如何,您可能需要在“可视化”窗格中的“格式化”下定制以下区域:
- 类别:表示放置在水平轴内的柱。您可以添加多个类别并向下搜索。
- 细分:允许您显示类别之间的更改。
- 值:指定要绘制的关键数字字段。
- 工具提示:当用户将鼠标光标悬停在可视化中的栏或列上时,会自动添加字段描述。
散点图散射
假设你有一个广泛的数据集,你想在其中找到两个轴中的一个变量之间的关系,然后决定相关性——相似性或缺乏性。在这种情况下,散点图是一个决定性的选择。当更多的情况与特定行为相关时,点会更紧密、更对齐,如图11-22所示,在图11-22中,您可以看到CA、MD和VA的极端异常值,以及OH、DC和CO的轻微异常值。与聚集在屏幕左下象限的其余44个州相比,这些州中的每一个州都有更大比例的资金用于IT相关服务(NAICS 54151系列)。
饼图和圈环图
饼图是将单个类别中的值分解为切片(或百分比)的圆形图形。整件作品加起来是100%。圆环图是饼图的扩展,它将类别显示为中心有一个大洞的圆弧。价值观完全相同——更多的是关于美学设计。
在图11-23(饼图)和图11-24(圆环图)中,您可以看到投标状态的细分,根据当前的中标情况,总的百分比分布在各个奖项类别中。
使用树图
权重和比例要求用户从层次的角度更好地理解数据。树图有一系列不同大小的嵌套矩形,提供了这样的视角。与值或频率的摘要相对应,更突出的表示显示出更多的活动性。相反,较小的矩形表示分支内较小的数据子集。树图左侧的数据量总是按比例大于右侧的数据量,就好像你在从左到右阅读一本书,讲述一个故事。
在图11-25所示的例子中,美国政府为IT项目提供新冠肺炎相关资金的所有州都在该图中说明。一个州内受益于这一特殊分配的企业越多,树图中的正方形就越大。使用树图,马里兰州是与新冠肺炎相关收购最多的州,其次是弗吉尼亚州。其他四个州(加利福尼亚州、华盛顿州、俄亥俄州、科罗拉多州)的新增IT采购数量不成比例地高。美国其他州通常只有一两次与新冠肺炎相关的紧急采购。
使用地图进行映射
如果您认为Power BI不包括地理空间分析,请三思。您可以使用Power BI根据位置、纬度和经度作为字段参数进行各种分析评估。
当你想了解空间数据与地理分布相比的影响时,你会使用这种映射功能。Power BI可以自动放大以显示最合适的视觉地理分布。为了确保用户拥有优化的用户体验,他们可以在“贴图”和“填充贴图”选项之间进行选择。图11-26显示了美国各地为新冠肺炎相关IT应急支出提供的资金分配情况,将地域分配作为主要考虑因素。
在映射时,粒度至关重要。在这个地理空间特定的特殊情况下,我在地图示例中添加了一个过滤器。参数集是所有大于500000美元但小于1000万美元的债务。图11-27中的填充地图仅对地理空间分布范围内的分配州提供了精确答案。
测绘需要精确性和准确性。您希望通过在字段窗格中选择可以提供尽可能多的激光焦点的数据类别来对尽可能多地字段进行地理编码。
用指示器指示
每当你试图衡量一个商业目标的有效性时,你都想比较一个或多个同类的衡量标准。Power BI中可用的指标允许用户专注于根据一个或多个变量来衡量其业务提供的价值。有几种类型的关键性能指标可视化可用。
仪表
当您考虑关键绩效指标(KPI)时,度量表通常被用作显示将值与目标范围进行比较的数据点的快速方法。例如,您正在跟踪预算财务状况。如果你想确保它们与你的范围一致,你可以使用一个量表——一个你离达到目标有多近的图形表示。在图11-28中,2021财年发放奖金低于100万美元的小企业预算总额为7.8481亿美元。其中,7.4107亿美元已经发放。灰色区域表明总体财政状况正在步入正轨,因为该指标没有显示过度。
卡片和多个卡片
假设你正在寻找一个数字来帮助你处理一个特定的统计数据。在这种情况下,卡指示器可以帮助您跟踪数据。卡片使用的例子包括总销售额、市场份额,或者如图11-29所示,授予的合同数量。在评估单个卡片中的多个指标时,需要将每个值添加到可视化中,从而创建多卡片指标。每个字段都是卡片中的一个新指示符。在图11-30中,列出了三个指标作为财政年度支出的示例。第一个指标是状态,第二个指标是承付金额,第三个指标是总承付金额。
关键绩效指标(KPI)
提供文本和图形的见解告诉一个真正有影响力的故事。考虑使用KPI可视化:可视化查看单个度量,根据定义的目标评估当前值和状态。你需要一个本质上是数字的基本度量——一个目标度量或一个值——以及一个阈值目标。KPI的输出可以是文本的,也可以是可视化的,这取决于您想要输出的趋势类型。通过图11-31,使用2021财年经过过滤的数据子集,我可以显示,在21财年期间,至少赢得一份美国联邦政府合同的高薪酬个体的平均收入为138.2万美元。从许多公司向高管支付薪酬的背景中可以看出薪酬趋势10万美元,而支付150多万美元补偿金的人更少。
对于许多指标,您只能指定一个值。您需要调整数据类别参数以精确计算输出,无论您是在寻找平均值、总和、不同(单个实例)还是其他度量。
只有在只有一个值要显示的情况下,才能使用卡片视觉效果。如果需要将一个值与多个目标进行比较,请使用KPI可视化--它为用户提供了在后台添加趋势的能力。尽管它的信息有限,但数据仍然很集中。对于那些希望将不相关的指标放在一个页面上的人来说,多卡选择可以满足业务需求。
处理基于表的复杂可视化
有时,你需要比单一的图形表示更多的洞察力来讲述你的故事。您甚至可能想要操作数据集或根据定义的条件对数据子集执行排序活动。您想要的是基于表格的可视化,Power BI随时可以提供帮助,提供从切片器到表格再到矩阵的可视化选项。在其他时候,您可能希望使用分解树或关键影响因素深入到多层数据集。对于每一个选择,您都可以借助Power BI的过滤功能来操作广泛的数据集。
切片机切片
假设您想在画布上创建一个可视化的向下搜索过滤器,以便用户可以对包含与其需求相关的数据的报告进行排序和筛选。在这种情况下,切片器——一种直接集成到报告中的仪表板样式工具,允许用户在分析数据时选择值——可能正是您所需要的。切片器的一个例子可以在图11-32中找到。
‘
使用表格可视化进行制表
你可能会挠头,想知道如果你想以表格格式查看数据,为什么不应该只去数据集。您可能希望使用表可视化而不是表的普通视图的原因与排序和搜索有关。可视化可以让你一窥世界。尽管如此,表格对于显示精确的数字数据和在行和列中找到的汇总信息还是很方便的。当启用表格进行排序和筛选时,最终用户可以更好地理解图形背后的值的含义。查看图11-33,该图使用排序和筛选来显示哪些独特的公司实体(DUNS)获得了三个NAICS代码(541511,541512,541519)的100万美元以下的合同。
将数据与矩阵进行组合
假设您希望在一个或多个数据集上聚合数据。也许你需要深入到数据横截面中去寻找大海捞针。混合和匹配聚合数据以交叉突出显示需要注意的元素的最佳选择是使用矩阵可视化。您可以选择许多行和列,甚至可以下拉到单元格级别以突出显示数据。
在图11-34中,您可以看到虚构公司Data Power的合同授予状态的横截面,突出显示了几个联邦机构的授予金额、未决金额、进行中金额和损失奖励。
使用分解树进行分解
当你想到一个组织结构图时,你可能会想到一个向工蜂展示领导力的结构图。分解树是一种图表类型,它允许您在多个维度上可视化数据。
将最高值视为一个聚合,然后可以深入到一个更有限的范围内的数据集。与图11-35的情况一样,分解树显示了一个财政年度内所有签订合同的100万美元以下小企业的总债务(总债务)。分解是指在授予的所有合同中,每个州(合计)分配的金额。
关注关键影响者
有没有想过图形中的数据驱动程序是什么?或者,你可能希望根据某种形式的排名系统来衡量一个或多个正在使用的指标的性能。现在,我们可以现实地理解,并不是所有的事情都会触发一个明确的条件。在其他时候,你会看到清晰的视觉效果,指向你应该密切关注的场景。作为危险信号的数据集的例子是销售量异常下降或另一个特定指标显著减少的迹象。
另一个极端是一个像拇指疼痛一样突出的异类。关键影响者使用Azure支持的微软人工智能引擎来说明影响指标的速度和规模。如果影响者被指定为标识符,用户可以完成各种形式的分析,包括细分市场分析。如图11-36所示,根据奖励数量和相对于其他州的义务美元,美国少数几个州拥有庞大的政府合同存在。
本章中的所有数据集SmallBusinessAwards.xls,都可以在Zip文件中找到。
数据科学
Microsoft Power BI包括使用Python脚本编辑器和R脚本编辑器。Python和R是两种面向数据科学、基于计算的编程语言。当与Power BI结合使用时,这两种语言有助于使用结构化分析方法以快速和大规模扩展对可能有数百万至数千万条记录的数据集的分析。可以从“可视化”窗格访问这两个编辑器。(见图11-37.)。用户可以直接在Power BI Desktop中运行任一脚本类型。或者,他们可以将生成的数据集从R或Python编辑器导入Power BI数据模型。
无论您最终使用的编辑器是什么,系统都会提示您启用脚本视觉效果,以便执行来自基于数据科学的代码编辑器之一的代码。(见图11-38。)将显示一个占位符视觉效果,如图11-39所示。要开始构建Python或R脚本,请将字段从“字段”窗格拖动到“值”下的“可视化”窗格。如果您需要更改设置,请单击脚本界面右下角的“设置”图标(小齿轮)以访问您的选项。
Python和R代码需要一个图像来生成视觉效果。除非遵循此过程,否则任何其他形式的输出(包括数据帧)都无法工作。此外,基于数据科学的输出不允许交叉过滤。虽然不能将R或Python视觉与另一个视觉进行交叉过滤,但可以从多个视觉中选择元素进行组合。
Power BI中的数据科学编辑器是轻量级的。微软知道这一点!这就是为什么它允许与外部编辑器集成,以快速编写R和Python代码。尽管Microsoft让您相信所有数据科学编辑器都可以同时使用Power BI的桌面版和服务版,但请再次猜测:Power BI服务在支持编辑器的情况下存在技术限制。因此,要查看您要使用的编辑器是否支持Python或R,请查看以下Microsoft文档页面中的任何一个以获取最新的兼容性报告:
Learn which R packages are supported - Power BI | Microsoft Learn
Learn which Python packages are supported - Power BI | Microsoft Learn
问答
毫不奇怪,微软已经将其强大的人工智能和机器学习工具集成到Power BI中,以帮助用户就其数据提出问题并提供答案。
微软的人工智能引擎根据数据量、质量和归因来决定问答功能的问题。为了寻找趋势和关系,Power BI为用户提供了两种选择:访问应用程序已经构想好的预先构建的假设问题场景,或者向应用程序提出有针对性的问题。在图11-40中,您可以看到基于与给定报告相关联的有限数量字段精心设计的潜在问题。或者,您可以提出自己的问题,如图11-41所示。
其他可视化选项
如果你曾经使用过互联网(谁没有?),你可能已经猜到其他供应商已经为自己的商业智能解决方案创建或集成了其他可视化类型。大多数供应商也有应用商店或第三方网站,您可以在那里下载其他模板和模型。微软也不例外。
这本书中涵盖的是Power BI Desktop的核心开箱即用可视化。Microsoft通过AppSource市场提供了一组附加的Power BI可视化功能。要访问添加的可视化选项,请转到“可视化”窗格中具有省略号(三个点)的选项。(见下图)。从中,从出现的菜单中选择“获取更多视觉效果”。(请参阅下面的第二张图。)然后,您可以从数百个其他模板中进行选择,包括高级分析模型、KPI、指标和大量其他可视化备选方案,如侧边栏图所示。如果你想尝试创建自己的模板,或者从Microsoft AppSource平台之外的来源导入模板,这也是可能的。转到省略号并选择选项“从文件导入Visual”。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)