数据可视化效果若干经验与资料分享

简介:  【编者按】本文作者星河里的章鱼喵,文章通过介绍Visualization 即可视化,罗列了数据的展现方式。对于数据分析最困难的一部分就是数据的展示,解读数据之间的关系,清晰有效的传达并且沟通数据信息。
0.jpg

 【编者按】本文作者星河里的章鱼喵,文章通过介绍Visualization 即可视化,罗列了数据的展现方式。对于数据分析最困难的一部分就是数据的展示,解读数据之间的关系,清晰有效的传达并且沟通数据信息。

对于数据挖掘,我们可以通过文中对数据可视化的案例找到分析数据、展现数据的方法和思路。

Data visualization 是一件很有趣的事情。最近在尝试处理数据,便顺手翻了翻 visualization 的进展,然后除了 IBM 大名鼎鼎的的 many-eyes 。

还有一个比较好有意思的网站是visualizing。Visualizing 跟 many-eyes 很像,都是社区形式的网站,用户可以注册然后上传,而且网站还有积累下来的很多数据供用户使用。

当然我不是为了介绍这个网站才写这篇 post 的,写 post 是一个记笔记的过程,如果我不能从中学到什么,就有点浪费时间了。下面进入正题,我尝试总结一下 visualization 的时候的几个可用的经验。

应该使用何种形式来表现数据

从 visualizing.org 的分类中提取出来的有用的形式包括(不过说实话这样分类并不是很好用)

  1. Chart

  2. Time series

  3. Map

  4. Flow

  5. Matrix

  6. Network

  7. Hierarchy

  8. Info-graphic

要可视化的数据可以分几类(我想的不全面,欢迎补充,共同学习)

有一系列对象,他们之间相互有关联

写成 A↔B 粗体的拉丁字母表示一系列对象,比如一系列地点。

这种情况下因为要展示数据之间相互关系,所以实质上是一个 network 图,不过通过一些技巧可以把简单的 network 图变成更好的形式。

方式一:使用转换成 flow 图。通过把对象列出两遍来是的原本应该是一个比较复杂难以看清的 network 变成了清晰易查找的 flow。

这类图中我喜欢的一个是 people moving 的 flow

1.jpg

这个 flow 图非常好的展示了从一个国家移民到另一个国家,上面的截图就是人们移居(migrate,是移民么?)到加拿大的情况,可以看到中国(CH)移民到加拿大的还是比较多的。通过这样的 flow,我们可以很容易很直观的分析数据。

方式二:圈形的 network 图。为什么要做出圈形呢?因为圈形可以使得连线集中在圈内部,而且可以减少数据交叉。通过 interactive design,可以使得连线无交叉。比如这个 Migrants moving money:

2.jpg

这个截图是中国的侨款,也就是中国移民所寄回祖国中国的钱数。可以看排除香港地区,美国是最大的来源。

事实上这种方法与第一种本质是相同的。

方式三:network 图。通过点和连线来关联。例子比如Attractions of Councils: WEF GAC interlink survey

3.jpg

但是这个图实际上并不好。而且有时候,线条是可以去掉的,比如这个国际航班的可视化:

Click a nation to see all connected nations via flights. Click again to see arranged nations based on the distance. Double-click the background to reset.

截图:

4.jpg

方式四:使用 table。不过为了更直观,使用面积等方式来代表数据的大小。

比如 10 个人任意两个人之间相互按照对对方的好感程度打分,为了展示任意两个人 A 和 B 之间相互的好感程度,可以使用颜色柱来展示,选定一个作为两个人好感程度相同,颜色柱之上的颜色表示 A 对 B 的好感大于 B 对 A 的好感,反之亦然。

这里有个 council 之间的例子,截图如下:

5.jpg

层级数据,数据之间可以分成几个层级关系

就是 Hierarchy 图,不过有时候可以省掉连线。

比如这个 soft drink 的 hierarchy 图

6.jpg

从这张截图立刻可以看到 coca-cola 和 pepsi 的庞大,通过原网页可以自由的放大缩小来查看不同的公司的产品。

这样的 hierarchy 图要比单调的并列的整整齐齐的列举要包含了更多的信息,因为圆圈的大小可以表示数据的一个维度,甚至还可以引入颜色等等来表示更多的维度。

简单的两维数据,比如某种现象出现的频数

方式一:使用 Histogram。这是比较经典的选择,即使用矩形或者线条的长度来表示数据的大小。例如这个关于能源的 visualization

7.jpg

方式二:使用树图(Tree map),使用面积表示数据的大小。这里有个 UN 的 Global Pulse Visualization 的例子:

8.jpg

方式三:使用散点,使用散点的大小或者颜色等属性来表示数据的大小。

一个很优秀的例子是学生坐座位习惯的例子,截图:

9.jpg

事实上 tag page 也是属于这类,我们可以通过每个 tag 的大小颜色等等来标示数据的大小。

坐标数据

除了可以使用上面说提到的方式,对于坐标数据,有个特点是可以绘制地图(Map),而 Map 可以与其他形式结合,比如 flow。一个比较好的例子是关于我们坐飞机的一张图,截图如下:

10.jpg

图片上部的地图是飞行的出发城市,下部的地图是终点城市。更多内容可以查看UCSB的这个站点,其中提供了 demo 软件。

不同 visualization 的结合

前些时候,以为天文学家 Goodman 写过一篇关于高维天文数据可视化的论文,其中提到了 linked views 很重要,就是说我们要多种可视化方式联合起来展示数据,我截取论文中一张图片来说明。
11.jpg

不同的 visualization 结合起来对数据进行多角度的呈现,可以使我们对数据有更深刻的理解。所以 data mining 实际上是一个应用非常广泛的专业,一个 data mining 专业的学生在现在这种天文专业被大量数据所轰炸(有篇论文就是说 data tsunami 时代)真是个宝贝啊。

有一个不错的历史方面的数据可视化例子,把时间线和地图集合起来展示的,这个方案实际是一种深层次的 linked views: Conflict History of the World

一些有用的工具

1、http://en.wikipedia.org/wiki/Data_visualization 自然要先查看一下 wikipedia 啦啦啦~

2、visualizing.org 有个列表:

12.jpg

3、http://selection.datavisualization.ch/ 列举了很多有用的工具。

4、https://github.com/blprnt/Kepler-Visualization This is a Processing sketch to visualize data from NASA’s Kepler mission.

5、http://flowingmedia.com/timeflow.html Time Flow is an open-source timeline built to help journalists analyze temporal data. The application offers several view modes–timelime, calendar, list, table–to help explore thousands of data points.

6、http://mapbox.com/ Mapbox is a tool for map making.

Data Visualization 的机构/组织/社区

1、http://envisioningtech.com/

有些不错的 data visualization,比如(图片来自 envisioningtech.com)

13.jpg

2、IBM 的 Many-eyes.com

这个一开始提到了,是个 visualization 的社区。

3、http://datavisualization.ch/

之前提到过它的工具列表了。这个网站是

Datavisualization.ch is the premier news and knowledge resource for data visualization and infographics.

4、http://visual.ly/

一个类似 data visualization 社区的网站。

5、http://visualization.geblogs.com/

来自 GE 的例子。

6、http://oicweave.org/

Web-based Analysis and Visualization Environment


本文所用的数据按照 visualizing.org 所标示,使用 CC BY-NC-SA 协议,除了明确指明的图片,其他图片皆出自 visualizing.org。

好了讲完了,可以用 exoplanets.org 的数据来玩玩。


原文发布时间为:2013-09-1


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
8天前
|
数据采集 SQL 数据可视化
大数据可视化技巧:借助PowerBI提升数据故事讲述力
【4月更文挑战第8天】Power BI助力大数据可视化,支持多种数据源连接,如SQL Server、Excel,提供数据清洗与转换功能。通过选择合适图表类型、运用颜色和大小强化表达,创建交互式仪表板。讲述数据故事时,注重故事主线设计,利用叙事技巧引导观众,并添加文本说明。分享已完成报告,提升数据驱动决策能力。动手实践,体验Power BI的强大与易用。
25 0
|
6月前
|
数据可视化 Cloud Native BI
面试中的数据可视化:如何用数据支持你的观点
面试中的数据可视化:如何用数据支持你的观点
76 0
|
9月前
|
监控 数据可视化
漏刻有时LOCKDATA数据可视化核心框架常见问题集锦
漏刻有时LOCKDATA数据可视化核心框架常见问题集锦
47 0
|
数据可视化 数据挖掘 大数据
大数据可视化理论与案例分析|青训营笔记
通过本篇文章,可以帮助读者对数据可视化的概念和原理有一个整体的认知,并且介绍了数据可视化中常见的可视化图表的种类和使用场景。
222 0
大数据可视化理论与案例分析|青训营笔记
|
机器学习/深度学习 SQL 数据采集
数据分析理论与实践 | 青训营笔记
埋点:埋点数据是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看,可以划分为"服务端埋点”和"客户端埋点”,按照上报形式,可以划分为"代码埋点”、“可视化全埋点” 。
140 0
数据分析理论与实践 | 青训营笔记
|
运维 监控 数据可视化
超干货!数据可视化最全解决方案!酷炫效果分分钟拿捏!【附全网高质量学习资料】
超干货!数据可视化最全解决方案!酷炫效果分分钟拿捏!【附全网高质量学习资料】
295 0
超干货!数据可视化最全解决方案!酷炫效果分分钟拿捏!【附全网高质量学习资料】
|
SQL 数据可视化 算法
一文速览-数据分析基本思维以及方法
一文速览-数据分析基本思维以及方法
180 0
一文速览-数据分析基本思维以及方法
|
数据采集 存储 数据可视化
【数据可视化】数据之美---揭密优雅的数据解决方案背后的故事
【数据可视化】数据之美---揭密优雅的数据解决方案背后的故事
133 0
|
数据可视化 数据挖掘 程序员
技术人最不该忽视可视化数据分析! | 9月2号栖夜读
今天的首篇文章,讲述了:在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。
3213 0
|
前端开发 数据可视化 定位技术
数据可视化之下发图实践
随着互联网的快速发展,数据维度越来越广,呈现形式也越发丰富,具有多维度数据特点的相关业务实践都能通过可视化图表来展示,比如个推的下发图,从时间和区域两个维度,可以即时、直观地展现个推数据下发的过程。
1603 0