分析师进阶之路,数据可视化

如题所述

第1个回答  2022-07-03
我们可以把人类的大脑想象成是一台复杂的机器,这台机器时时刻刻都在接受外部的信息,并进行逻辑处理,当我们在同时获取多个渠道信息时如视觉、听觉、触觉、嗅觉、味觉等,人类利用视觉获取的信息量,远远超出其他器官。眼睛能够并行处理巨量的视觉信号输入,并且伴随着超强的模式识别能力,人类能在潜意识的决断就处理完大量的视觉信息,这使得人类对图像的处理速度比文本快 6 万倍,而数据可视化正是利用这项天生技能来增强数据处理效率。

从专业角度来说,科学可视化(Scientific Visualization)、 信息可视化(Information Visualization)和可视分析学(Visual Analytics)这三个学科方向通常被看作是可视化的三个主要分支方向。而“数据可视化”时将这三个分支整合在一起形成的新学科“数据可视化”,作为数据可视化的研究方向可以涉及信息技术、自然科学、统计分析、图形学、交互、地理信息等多种学科。

1. 科学可视化

科学可视化(Scientific Visualization)主要关注三维现象的可视化,如建筑学、气象学、医学或生物学方面的各种系统,重点在于对体、面以及光源等等的逼真渲染, 目的是以图形方式说明科学数据,使科学家能够从数据中了解、说明和收集规律。

2. 信息可视化

信息可视化(Information Visualization)是研究抽象数据的交互式视觉表示以加强人类认知,包括数字和非数字数据,如地理信息与文本。信息可视化处理的数据具有抽象数据结构,柱状图、趋势图、流程图、树状图等,都属于信息可视化,这些图形的设计都将抽象的概念转化成为可视化信息。

3. 可视分析学

可视分析学(Visual Analytics)是随着科学可视化和信息可视化发展而形成的新领域,重点是通过交互式视觉界面进行分析推理,将数据的交互式视觉表示与基础分析过程相结合,来实现使用者的推理和决策分析。

从一般角度来说,数据可视化可以指代为数据的视觉表现形式,这种视觉表现形式以某种概要形式抽取出来的图形表现,表现中包含相应的信息数据、单位的各种属性、数据的变量参数等。主要是借助图形化的表达方式,清晰有效的传达、描述和沟通信息,但是这并不单纯的意味着数据可视化纯粹的服务于功能用,如不加设计的直接呈现数据使用户或使用者感到枯燥乏味,亦或者是单纯的追求图形设计表现的极端绚丽使视图变得异常复杂,让使用者对于数据解读无从下手.为了有效的表达数据可视化的思想概念,设计的美学性和功能的实用性需要齐头并进,通过最为直观的表述数据中的关键信息和数据特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察,这需要数据分析的从业者能够很好的把握设计与功能之间的平衡,从而创造出实用与绚丽兼备的数据可视化形式。

图表作为数据可视化中最重要的一种表现方式,其能在不歪曲事实的情况下传达正确和必要的信息,同时又兼顾设计简单、美观直接的特点,使得使用者能在毫不费力的情况下解读出有效信息,而使得图表颇受各路分析师的喜爱。接下来我们就来看看有哪些主流的可视化图表:

1. 散点图(Scatter plot)

散点图是用于研究两个变量之间关系的经典的和基本的图表,例如数据存在多个组别时,则可能需要以不同颜色可视化每个组。

2. 散点图 - 包含线性回归最佳拟合线 (Scatter plot with linear regression line of best fit)

单一的散点图无法表述两个变量之间的相互改变关系,而最佳拟合线是用来阐述变量相互关系的常用方法,下图显示了数据中各组之间最佳拟合线的差异。

3. 计数图 (Counts Plot)

在二位图表的展现过程中,当我们增加一层数据纬度时常常会面临着数据点重叠的问题,而最常用的做法是选择是增加二维数据点的大小,以形状大小来描述三维数据,点的大小越大,其周围的点的集中度越高。

4. 相关图 (Correllogram)

相关图用于直观地查看给定数据框或二维数组中所有可能的数值变量对之间的相关度量。

5. 矩阵图 (Pairwise Plot)

矩阵图是用于理解所有可能的数值变量对之间的关系, 它是双变量分析的必备工具。

6. 面积图 (Area Chart)

通过对轴和线之间的区域进行着色,面积图不仅强调峰和谷,而且还强调高点和低点的持续时间。 高点持续时间越长,线下面积越大。

7. 有序条形图 (Ordered Bar Chart)

有序条形图有效地传达了项目的排名顺序,在图表上方添加度量标准的值,用户可以从图表本身获取精确信息。

8. 密度图 (Density Plot)

密度图是一种常用工具,用于可视化连续变量的分布。 通过“响应”变量对它们进行分组,您可以检查 X 和 Y 之间的关系。

9. 箱形图 (Box Plot)

箱形图是一种可视化分布的好方法,记住中位数、第25个第45个四分位数和异常值。 但是需要注意解释可能会扭曲该组中包含的点数的框的大小,手动提供每个框中的观察数量可以帮助克服这个缺点。

10. 饼图 (Pie Chart)

饼图是显示组成的经典方式。 然而因为馅饼部分的面积有时会变得误导,因此如果要使用饼图,强烈建议明确记下饼图每个部分的百分比或数字。

11. 时间序列图 (Time Series Plot)

时间序列图用于显示给定度量随时间变化的方式。

12. 树状图 (Dendrogram)

树形图基于给定的距离度量将相似的点组合在一起,基于点的相似性将它们组织在树状链接中。

数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大,其允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。

同时,伴随着计算机运算能力的迅速提升,以及规模越来越大,复杂程度越来越高的数值模型不断的诞生,使得大量体积庞大的数值型数据集被创造出来,因而需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集,而简单、有效的数据可视化方式不仅能有效的解读数据内容更能为业务发展提供分析和决策思路。

数据城堡 :数据无处不在,让我们一起来窥探数据的魅力!(关注专栏: 数据城堡 )

更多回答请看: ZacharyW
相似回答