第2章
数据引导可视化设计
可视化在几个世纪前就出现了,但现在还是一个比较新的研究领域,该领域的专家们甚至还没有给出一个确切的可视化的定义。可视化是否只用于分析数据?还是用于定量认识?抑或是用于唤起情感?什么时候可视化能深深扎根于视觉领域成为一门艺术呢?回答者的身份不同,问题的答案不尽相同。这些问题已经在各学科领域内及不同学科之间引起了激烈的争论,但这还只是学者和从业人员之间的争论而已。
我曾经在一个大型的、以数据为中心的组织里参与过一次深入讨论。讨论的缘由是该组织希望把更多的可视化引入其工作中。他们想让公众了解他们在做什么,也想改进工作报告、数据摘要以及其他工作方法。与会者大约有40个人,他们来自各行各业,有营销人员、开发人员和统计学家。他们做着各种不同的项目,既有用于博客的快速图表设计工具,也有交互数据研究工具。我们讨论了一个在线应用,一部分人认为对数据内容应有更多的注解,而另一部分人则认为任何注解都应该交给使用者来添加。还有一些人倾向于抽象画一样的图表。关于可视化的想法有很多,争论持续了很长时间。
他们都是对的。每个人都主张为了特定的目的可视化,而其他可视化都
应符合同一标准,即设计应用理由不同,目标对象也不一样。他们将可视化
看作一个整体,拥有一整套定义好的规则。一个世纪前可能是这样的(也许
不是),但现在可视化已不仅仅是一种工具,它是一种媒介:探索、展示和
表达数据含义的一种方法。
可视化不是将相互独立的分类分隔开,你可以把可视化看作是连续的、从统计图形延伸到数字艺术的一个连续谱图。可视化有时候是可清楚区分的,也有很多混合的,不能混为一谈。由于统计学、设计和美学的平衡运用,产生了许多优秀的作品。
并不是说混合总是最好的,统计图形也不一定比数字艺术好,反之亦然。它们都有各自的目的,应该以目标实现的好坏来判断。你不会以判断滑稽戏的标准来评价一部纪录片,因为你对它们的期望不同,心态也就不一样。同样,你也不会期待一部爱情小说像教科书一样,更不会抱怨一部犯罪电视剧多么地不好笑。
一连串有趣的饼图不应和可视化研究放在同样的显微镜小贴士:可视化有自身的规则和设计下观察,除非这些饼图恰好被用于研究人们对有趣饼图的反建议。这些规则和建议都很好,但不能盲从。要考虑自己的目标和具体的应。如果是这样,我会阅读研究报告,一定很有趣。应用。
再次声明,并不是说相对于可视化研究,不要太挑剔有趣的图形或数字艺术。人们从未停止过对喜剧和艺术的审视。你需要知道你正在评论什么。
新数据研究需要新的工具
我们今天使用的许多传统图表,如折线图、条形图和饼图等都是威廉·普莱菲尔(WilliamPlayfair)发明的。他在1786年出版的《商业和政治图解》(TheCommercialandPoliticalAtlas)一书中,首次以条形图的形式呈现了进出口贸易统计数据,如图2-1所示。图2-2是最早的饼图之一。当然,这些图表都是手工绘制在纸上的。
很难相信直到20世纪70年代人们还通过手绘图看数据。约翰·图基(JohnTukey)在1977年出版了其开创性的著作《探索性数据分析》(ExploratoryDataAnalysis),他在书中描述了如何用钢笔而不是铅笔加深线条的颜色。现在看来这样的技巧很古老。然而好消息是随着技术的进步,图基也开始用新技术继续创新。
技术的进步也让数据的量和可用性得到了极大的改善,这反过来给了人们新的可视化素材(以及新的工作和研究领域)。没有数据,就没有可视化。
2001年,维基百科创立,截至写这本书时,它已拥有了3500万注册用户。任何人都可以编辑维基百科的条目,如果有人发起了一篇文章,这篇文章可以增长也可以缩短,因为其他人可以增加或删除内容。每篇文章都是动态的,尤其是在大家争论什么该写什么不该写的时候。
当在这个网站上查看文章的历史记录时,你会觉得很有趣。费尔兰达维埃加斯(FernandaViégas)和马丁瓦滕伯格(MartinWattenberg)在2003年创造了"流动的历史"(HistoryFlow)这一工具,可以帮你探索维基百科条目的历史变化。如图2-3所示,可视化效果看起来像是反转的堆叠区域图(stackedareachart),每一层都代表一篇文本正文。久而久之,新的层次(不同的颜色)会被添加(或删除),从整体堆叠的高度可以看到变化的全景。
注意到图2-3中的那些锯齿状的图案和看似随机的黑色块了吗?前者表示用户间存在争论,后者表示有人删除了部分文章内容,可能是由于有不同意见或者只是恶作剧。每篇文章的变化过程都很有趣。现实世界中的事件发生时,很难看到整体画面,因为你的注意力集中在单独一件事上。而作为激烈争论中的维基百科用户,你关注的则是对方刚刚做了什么,然后会想好如何应对。若事后退一步观察整体的变化,你会发现一些有趣的事情。
世界银行以易于下载的方式提供了全美国的数据,可帮助你了解整个世界的发展状况。图2-4(我制作的交互图,研究历年来各国人口的平均寿命)显示大多数地区的平均寿命总体在增加;同时,大回落表示某些地区发生了战争和冲突。
小贴士:虽然维基百科是一部百科全书,但由于它总在变化,你可以轻易地将其活动与时事联系起来,如动荡时期和政权变革等。
从方法论的角度看,"流动的历史"和平均寿命图分别是调整过的堆叠区域图和多重时序图,是数据让它们变得有意义了。但在互联网时代之前,这些数据即使存在也很难收集。
看起来似乎只要足够仔细,就能找到关于任何事物的数据。斯蒂芬·冯·沃利(StephenVonWorley)用一份现成的、逗号分隔的文档算出了全美国毗邻的48个州中任何一个地点到最近麦当劳的距离,并在地图上标注了出来。如图2-5所示,一个区域的颜色越亮,就意味着能越快吃到巨无霸。
像Twitter和Facebook这些流行的社交媒体网站,提供了关于人们谈论及关注内容的新的信息来源,很容易可以通过应用程序接口(API)获取数据。照片分享网站Flickr也有一个很好用的应用程序接口。埃里克费舍尔(EricFischer)在名为"看图或说话"(SeeSomethingorSaySomething)的地图里集中整合了来自Twitter和Flickr的数据,如图2-6所示。图中蓝点表示人们在推特发短消息的位置,红点代表人们用Flickr拍照片的位置,而白点则表示两者都用的位置。你可以看到人们经常发短消息或拍照(看图)的地方。这个简单的想法需要强大的执行力,但结果很美。
从太空这一个更广阔的视角来看,(NASA)(美国国家航空航天局)使用卫星数据监视地球上的活动。例如,图2-7是显示水循环构成动画中的一幅快照,包括蒸发、水蒸汽和降水。根据这些数据建立的大气模型可以让人们看到地球历史中的重大变化。图2-8所示"永恒的海洋"(PerpetualOcean)同样由NASA绘制,它使用了类似的数据和模型来评估洋流。这幅球火灾情况的生动地图可能会让你想起梵高的"星空"。这是多么地神奇!大量的数据使这一切成为可能。当然,不断增长的新数据类型需要比纸笔更强大的新工具来帮助探索研究。
你能用的可视化工具
电脑的引入改变了人们分析和研究数据的方式。借助电脑,你可以在数秒内制作出许多图表,从多个角度查看数据以及筛选出更复杂的数据集,而不用再像以前那样只能用手绘的图表。现在人们也拥有了更多的数据研究工具。微软的Excel仍是许多人首选的办公软件,它可以完成许多工作,但人们想要使用的方法以及想要研究的深度都正在发生改变。
Tableau是一款非常受欢迎的桌面软件,可以用来直观地分析数据。点
击鼠标就能完成所有操作,不需要编程技术,而且它可以同时处理大量数据,把你彻底解放出来。TableauPublic可用于创建可视化仪表盘,并在网上分享。
同时也有特定类型的可视化桌面软件。譬如加州电信学院(Calit2)软件研究实验室开发的ImagePlot,专门用于同时处理数百万张图片,并把它们放在二维空间中,分析数据的不同方面,如颜色和体积(见图2-9)。
……