1983年,统计学家 Edward Tufte 在《The Visual Display of Quantitative Information》一书中提出了一个简单却深刻的问题:一张图表中,有多少"墨水"是用来展示数据的,又有多少是用来装饰的?他称之为"数据墨水比"(Data-Ink Ratio)——一个图表中数据相关的墨水量与总墨水量的比值。
这个问题的核心指向一个更本质的困境:大多数人在做图表时,关注的是"怎么画",而不是"为什么画"。
选择正确的图表类型,本质上是在回答三个问题:你有什么数据?你想表达什么?观众能理解什么?这三个问题的答案决定了图表的选择,而不是工具的默认设置。
认知基础:大脑如何解读图形
理解图表选择,需要先理解人类视觉感知的工作方式。这不是艺术问题,而是认知科学问题。
格式塔原理:视觉组织的底层逻辑
20世纪初,德国心理学家发现人类视觉系统遵循一些基本规律,这些规律被称为格式塔原理(Gestalt Principles)。在数据可视化中,最相关的几条是:
接近性(Proximity):空间上靠近的元素被视为一组。在条形图中,同一类别的柱子紧密排列,不同类别间留有间隙——这正是接近性原理的应用。
相似性(Similarity):形状、颜色、大小相似的元素被视为相关。这解释了为什么同一数据系列使用相同颜色,而不同系列使用对比色。
连续性(Continuity):眼睛倾向于沿着平滑的路径移动。折线图正是利用这一原理,通过连接线引导视线沿时间轴移动。
闭合性(Closure):大脑会自动"补全"不完整的形状。饼图被部分遮挡时,我们仍能感知完整的圆——但这也是饼图的问题所在:大脑对角度和面积的估计并不精确。
前注意属性:什么信息能被"一眼看到"
认知科学研究发现,某些视觉属性可以在意识处理之前就被视觉系统捕捉,这些被称为"前注意属性"(Preattentive Attributes):
- 位置:最精确的编码方式
- 长度:比较精确,条形图的基础
- 角度:精确度较低,饼图使用
- 面积:精确度更低,气泡图使用
- 颜色明度/饱和度:热力图使用
- 形状:散点图中区分类别
这个排序有实验依据。1985年,Cleveland 和 McGill 进行了经典实验,测量人们对不同视觉编码的判断精确度。结果显示:位置 > 长度 > 角度 > 面积 > 体积 > 颜色饱和度。
这个发现对图表选择有直接指导意义:如果你想展示精确的比较,应该优先使用位置或长度编码(如条形图),而不是面积或角度编码(如饼图)。
图表分类:从问题出发,而非从形式出发
许多人选择图表的流程是:打开工具 → 浏览图表类型 → 选择看起来顺眼的。这个流程是反的。正确的起点是你的分析问题。
问题驱动的图表选择框架
根据你想回答的问题类型,图表可以分为六大类:
1. 展示变化趋势
时间是最常见的维度。当你想展示某变量随时间的变化时:
- 折线图:连续时间,强调趋势
- 面积图:强调累积效应
- 柱状图:离散时间点,强调对比
选择标准:如果时间点是离散的(如年度数据),柱状图更合适;如果时间点是连续的(如股票价格),折线图更好。
2. 比较数值大小
最常见的分析任务,但选择也最容易出错:
- 条形图:比较多个类别,横向排列便于标签显示
- 柱状图:类别较少时的默认选择
- 点图:类别较多或需要精确对比时
关键原则:条形图必须从零基线开始。这不是审美偏好,而是数学要求。如果Y轴不从零开始,柱子长度的比例关系会被扭曲。
3. 展示组成结构
展示"部分占整体的比例"时:
- 饼图:部分数量少(≤5个)、差异明显时可用
- 堆叠条形图:比较多个整体的组成差异
- 树状图:展示层级结构
4. 展示分布特征
了解数据的集中趋势和离散程度:
- 直方图:连续变量的分布
- 箱线图:比较多个组的分布
- 密度图:平滑的分布估计
5. 展示变量关系
探索两个或多个变量之间的相关性:
- 散点图:两个连续变量的关系
- 气泡图:增加第三个变量(用气泡大小表示)
- 热力图:矩阵形式的关系展示
6. 展示地理分布
数据带有地理位置属性时:
- 分级统计地图:按区域着色
- 点密度地图:每个点代表一定数量
- 流向地图:展示移动路径
饼图争议:科学依据是什么
饼图可能是争议最大的图表类型。一方面,它是商业报告中最常见的图表之一;另一方面,许多数据可视化专家强烈反对使用饼图。
反对饼图的科学依据
饼图的核心问题是:它使用角度和面积来编码数值,而人类对角度和面积的判断远不如对长度精确。
实验证据显示:
- 当角度差异小于 5° 时,人们很难准确分辨
- 人们倾向于低估小角度,高估大角度
- 对于接近的数值,饼图的判读误差可达 20% 以上
Edward Tufte 的评价更直接:“饼图唯一的功能是展示世界上有比饼图更好的图表。”
饼图何时可用
然而,完全否定饼图也不公平。研究表明,饼图在某些场景下有独特价值:
- 展示"部分占整体"关系:当目标是理解"部分占整体的比例"而非精确比较时,饼图直观有效
- 部分数量少:建议不超过 5 个部分
- 差异明显:最大部分和最小部分差异显著
- 组合判断:研究表明,当需要比较"部分A + 部分B"与"部分C + 部分D"的大小时,饼图比条形图更有效
实际建议:如果要用饼图,确保部分数量少、差异明显,并且你的目标是展示"占比"而非"比较数值"。
颜色选择:比想象中更复杂
颜色是数据可视化中最容易被滥用的元素。正确的颜色选择需要考虑三个维度:数据类型、受众可访问性和认知效应。
数据驱动的颜色方案
定性数据(分类变量):使用分类调色板,每个类别一个独特颜色,颜色间无顺序含义。避免使用相近颜色区分不同类别。
有序数据(序数变量):使用顺序调色板,颜色从浅到深表示从低到高。例如:浅蓝 → 蓝 → 深蓝。
发散数据(有明确中点的数据):使用发散调色板,两端用对比色,中间用中性色。例如:红 → 白 → 蓝,用于展示正负变化。
色盲可访问性
约 8% 的男性和 0.5% 的女性有某种形式的色盲。最常见的类型是红绿色盲。设计可视化时需要:
- 避免仅用红绿区分数据
- 使用色盲安全调色板
- 提供形状、纹理或标签等替代编码
避免的颜色陷阱
彩虹色阶:视觉上吸引人,但会产生虚假的边界效应。大脑倾向于认为颜色变化处是数据变化处,但彩虹色阶的过渡点与数据结构无关。
过多颜色:一般不超过 7 种颜色。超过这个数量,人眼很难区分。
文化差异:颜色含义因文化而异。红色在中国象征喜庆,在财务报表中可能表示亏损。
数据墨水比:少即是多
回到 Edward Tufte 的核心主张:最大化数据墨水比。具体原则是:
- 删除非数据墨水:不必要的边框、背景、网格线
- 删除冗余数据墨水:重复的数据标签、多余的数据点
- 合并墨水:一个元素承担多种功能
实践案例:简化条形图
原始条形图通常包含:
- 每个柱子的边框线
- 完整的网格线
- Y轴上的所有刻度
- 图表背景
简化后:
- 移除柱子边框(数据已在长度中体现)
- 只保留必要的网格线(或完全移除,只标注关键数值)
- Y轴只标注关键刻度
- 移除背景
结果是同样的信息,但认知负荷显著降低。
例外:何时可以"浪费"墨水
Tufte 的原则不是绝对的。某些"装饰"元素有其价值:
品牌识别:公司报告中使用品牌色调 叙事引导:用颜色或图形元素引导读者注意力 情感连接:在面向公众的可视化中,适度装饰可以增加亲和力
关键问题是:这个元素是否服务于数据传达?如果答案是否定的,删除它。
常见误用及其修正
1. 双Y轴图表
问题:在同一图表中使用两个Y轴,展示两个不同量纲的变量。读者容易错误地认为两条线交叉点有实际意义。
替代方案:
- 分成两个独立的图表
- 使用指数化将两个变量转换为可比单位
- 用关联的双图表展示
2. 3D图表
问题:三维效果扭曲了数据感知。前后的柱子大小难以比较,透视效果会使远处的柱子看起来更小。
原则:除非数据本身是三维的(如地理数据),否则避免使用3D效果。
3. 截断Y轴
问题:Y轴不从零开始,夸大了差异的视觉效果。
例外:对于某些变化量小但绝对值大的数据(如温度变化),从零开始会使变化难以观察。此时应:
- 明确标注Y轴起点
- 使用断轴符号
- 考虑用变化率而非绝对值
4. 过度堆叠
问题:堆叠柱状图或面积图中层次过多,难以比较中间层的变化。
建议:堆叠层数不超过 4-5 层。重点展示的类别应放在底部(柱状图)或外侧(面积图)。
交互设计:超越静态图表
现代数据可视化越来越多地采用交互方式,但交互本身也是一把双刃剑。
交互的价值
探索性分析:允许用户筛选、缩放、钻取 信息密度:通过悬停提示(Tooltip)展示详细信息 个性化视角:让用户选择关注的维度
交互的代价
学习成本:用户需要学习如何使用交互功能 认知负荷:过多选项反而增加决策负担 分享困难:交互图表难以用截图分享
设计原则
渐进披露:默认展示核心信息,交互后展示细节 即时反馈:交互效果应在 100ms 内响应 可预测性:交互行为应符合用户预期 降级兼容:确保不使用交互功能也能获取核心信息
从工具出发到思维转变
数据可视化的本质不是画图,而是思考。工具可以自动化绘图过程,但无法替代对以下问题的思考:
- 这个数据的本质特征是什么?
- 我想让观众理解什么?
- 什么编码方式最能准确传达信息?
- 有什么可能造成误解的地方?
图表选择没有标准答案,但有科学依据。理解认知原理、掌握设计原则、了解常见陷阱,才能在面对具体数据时做出正确的判断。
这不是要成为设计专家,而是要成为更好的沟通者。毕竟,数据可视化的终极目标不是"好看",而是"被理解"。
参考
- Tufte, E. R. (1983). The Visual Display of Quantitative Information. Graphics Press.
- Cleveland, W. S., & McGill, R. (1985). Graphical Perception and Graphical Methods for Analyzing Data. Science, 229(4716), 828-833.
- Few, S. (2012). Show Me the Numbers: Designing Tables and Graphs to Enlighten. Analytics Press.
- Cairo, A. (2016). The Truthful Art: Data, Charts, and Maps for Communication. New Riders.
- Ware, C. (2012). Information Visualization: Perception for Design. Morgan Kaufmann.
- Atlassian. “How to Choose the Right Data Visualization.” https://www.atlassian.com/data/charts/how-to-choose-data-visualization
- Spence, I. (2005). No Humble Pie: The Origins and Usage of a Statistical Chart. Journal of Educational and Behavioral Statistics, 30(4), 353-368.
- Norman, D. A. (2013). The Design of Everyday Things. Basic Books.
- Heer, J., & Bostock, M. (2010). Crowdsourcing Graphical Perception: Using Mechanical Turk to Assess Visualization Design. CHI 2010.
- Nussbaumer Knaflic, C. (2015). Storytelling with Data: A Data Visualization Guide for Business Professionals. Wiley.