数据可视化：为什么你的图表总是选错

1983年，统计学家 Edward Tufte 在《The Visual Display of Quantitative Information》一书中提出了一个简单却深刻的问题：一张图表中，有多少"墨水"是用来展示数据的，又有多少是用来装饰的？他称之为"数据墨水比"（Data-Ink Ratio）——一个图表中数据相关的墨水量与总墨水量的比值。

这个问题的核心指向一个更本质的困境：大多数人在做图表时，关注的是"怎么画"，而不是"为什么画"。

选择正确的图表类型，本质上是在回答三个问题：你有什么数据？你想表达什么？观众能理解什么？这三个问题的答案决定了图表的选择，而不是工具的默认设置。

认知基础：大脑如何解读图形

理解图表选择，需要先理解人类视觉感知的工作方式。这不是艺术问题，而是认知科学问题。

格式塔原理：视觉组织的底层逻辑

20世纪初，德国心理学家发现人类视觉系统遵循一些基本规律，这些规律被称为格式塔原理（Gestalt Principles）。在数据可视化中，最相关的几条是：

接近性（Proximity）：空间上靠近的元素被视为一组。在条形图中，同一类别的柱子紧密排列，不同类别间留有间隙——这正是接近性原理的应用。

相似性（Similarity）：形状、颜色、大小相似的元素被视为相关。这解释了为什么同一数据系列使用相同颜色，而不同系列使用对比色。

连续性（Continuity）：眼睛倾向于沿着平滑的路径移动。折线图正是利用这一原理，通过连接线引导视线沿时间轴移动。

闭合性（Closure）：大脑会自动"补全"不完整的形状。饼图被部分遮挡时，我们仍能感知完整的圆——但这也是饼图的问题所在：大脑对角度和面积的估计并不精确。

前注意属性：什么信息能被"一眼看到"

认知科学研究发现，某些视觉属性可以在意识处理之前就被视觉系统捕捉，这些被称为"前注意属性"（Preattentive Attributes）：

位置：最精确的编码方式
长度：比较精确，条形图的基础
角度：精确度较低，饼图使用
面积：精确度更低，气泡图使用
颜色明度/饱和度：热力图使用
形状：散点图中区分类别

这个排序有实验依据。1985年，Cleveland 和 McGill 进行了经典实验，测量人们对不同视觉编码的判断精确度。结果显示：位置 > 长度 > 角度 > 面积 > 体积 > 颜色饱和度。

这个发现对图表选择有直接指导意义：如果你想展示精确的比较，应该优先使用位置或长度编码（如条形图），而不是面积或角度编码（如饼图）。

图表分类：从问题出发，而非从形式出发

许多人选择图表的流程是：打开工具 → 浏览图表类型 → 选择看起来顺眼的。这个流程是反的。正确的起点是你的分析问题。

问题驱动的图表选择框架

根据你想回答的问题类型，图表可以分为六大类：

1. 展示变化趋势

时间是最常见的维度。当你想展示某变量随时间的变化时：

折线图：连续时间，强调趋势
面积图：强调累积效应
柱状图：离散时间点，强调对比

选择标准：如果时间点是离散的（如年度数据），柱状图更合适；如果时间点是连续的（如股票价格），折线图更好。

2. 比较数值大小

最常见的分析任务，但选择也最容易出错：

条形图：比较多个类别，横向排列便于标签显示
柱状图：类别较少时的默认选择
点图：类别较多或需要精确对比时

关键原则：条形图必须从零基线开始。这不是审美偏好，而是数学要求。如果Y轴不从零开始，柱子长度的比例关系会被扭曲。

3. 展示组成结构

展示"部分占整体的比例"时：

饼图：部分数量少（≤5个）、差异明显时可用
堆叠条形图：比较多个整体的组成差异
树状图：展示层级结构

4. 展示分布特征

了解数据的集中趋势和离散程度：

直方图：连续变量的分布
箱线图：比较多个组的分布
密度图：平滑的分布估计

5. 展示变量关系

探索两个或多个变量之间的相关性：

散点图：两个连续变量的关系
气泡图：增加第三个变量（用气泡大小表示）
热力图：矩阵形式的关系展示

6. 展示地理分布

数据带有地理位置属性时：

分级统计地图：按区域着色
点密度地图：每个点代表一定数量
流向地图：展示移动路径

饼图争议：科学依据是什么

饼图可能是争议最大的图表类型。一方面，它是商业报告中最常见的图表之一；另一方面，许多数据可视化专家强烈反对使用饼图。

反对饼图的科学依据

饼图的核心问题是：它使用角度和面积来编码数值，而人类对角度和面积的判断远不如对长度精确。

实验证据显示：

当角度差异小于 5° 时，人们很难准确分辨
人们倾向于低估小角度，高估大角度
对于接近的数值，饼图的判读误差可达 20% 以上

Edward Tufte 的评价更直接：“饼图唯一的功能是展示世界上有比饼图更好的图表。”

饼图何时可用

然而，完全否定饼图也不公平。研究表明，饼图在某些场景下有独特价值：

展示"部分占整体"关系：当目标是理解"部分占整体的比例"而非精确比较时，饼图直观有效
部分数量少：建议不超过 5 个部分
差异明显：最大部分和最小部分差异显著
组合判断：研究表明，当需要比较"部分A + 部分B"与"部分C + 部分D"的大小时，饼图比条形图更有效

实际建议：如果要用饼图，确保部分数量少、差异明显，并且你的目标是展示"占比"而非"比较数值"。

颜色选择：比想象中更复杂

颜色是数据可视化中最容易被滥用的元素。正确的颜色选择需要考虑三个维度：数据类型、受众可访问性和认知效应。

数据驱动的颜色方案

定性数据（分类变量）：使用分类调色板，每个类别一个独特颜色，颜色间无顺序含义。避免使用相近颜色区分不同类别。

有序数据（序数变量）：使用顺序调色板，颜色从浅到深表示从低到高。例如：浅蓝 → 蓝 → 深蓝。

发散数据（有明确中点的数据）：使用发散调色板，两端用对比色，中间用中性色。例如：红 → 白 → 蓝，用于展示正负变化。

色盲可访问性

约 8% 的男性和 0.5% 的女性有某种形式的色盲。最常见的类型是红绿色盲。设计可视化时需要：

避免仅用红绿区分数据
使用色盲安全调色板
提供形状、纹理或标签等替代编码

避免的颜色陷阱

彩虹色阶：视觉上吸引人，但会产生虚假的边界效应。大脑倾向于认为颜色变化处是数据变化处，但彩虹色阶的过渡点与数据结构无关。

过多颜色：一般不超过 7 种颜色。超过这个数量，人眼很难区分。

文化差异：颜色含义因文化而异。红色在中国象征喜庆，在财务报表中可能表示亏损。

数据墨水比：少即是多

回到 Edward Tufte 的核心主张：最大化数据墨水比。具体原则是：

删除非数据墨水：不必要的边框、背景、网格线
删除冗余数据墨水：重复的数据标签、多余的数据点
合并墨水：一个元素承担多种功能

实践案例：简化条形图

原始条形图通常包含：

每个柱子的边框线
完整的网格线
Y轴上的所有刻度
图表背景

简化后：

移除柱子边框（数据已在长度中体现）
只保留必要的网格线（或完全移除，只标注关键数值）
Y轴只标注关键刻度
移除背景

结果是同样的信息，但认知负荷显著降低。

例外：何时可以"浪费"墨水

Tufte 的原则不是绝对的。某些"装饰"元素有其价值：

品牌识别：公司报告中使用品牌色调 叙事引导：用颜色或图形元素引导读者注意力 情感连接：在面向公众的可视化中，适度装饰可以增加亲和力

关键问题是：这个元素是否服务于数据传达？如果答案是否定的，删除它。

常见误用及其修正

1. 双Y轴图表

问题：在同一图表中使用两个Y轴，展示两个不同量纲的变量。读者容易错误地认为两条线交叉点有实际意义。

替代方案：

分成两个独立的图表
使用指数化将两个变量转换为可比单位
用关联的双图表展示

2. 3D图表

问题：三维效果扭曲了数据感知。前后的柱子大小难以比较，透视效果会使远处的柱子看起来更小。

原则：除非数据本身是三维的（如地理数据），否则避免使用3D效果。

3. 截断Y轴

问题：Y轴不从零开始，夸大了差异的视觉效果。

例外：对于某些变化量小但绝对值大的数据（如温度变化），从零开始会使变化难以观察。此时应：

明确标注Y轴起点
使用断轴符号
考虑用变化率而非绝对值

4. 过度堆叠

问题：堆叠柱状图或面积图中层次过多，难以比较中间层的变化。

建议：堆叠层数不超过 4-5 层。重点展示的类别应放在底部（柱状图）或外侧（面积图）。

交互设计：超越静态图表

现代数据可视化越来越多地采用交互方式，但交互本身也是一把双刃剑。

交互的价值

探索性分析：允许用户筛选、缩放、钻取 信息密度：通过悬停提示（Tooltip）展示详细信息 个性化视角：让用户选择关注的维度

交互的代价

学习成本：用户需要学习如何使用交互功能 认知负荷：过多选项反而增加决策负担 分享困难：交互图表难以用截图分享

设计原则

渐进披露：默认展示核心信息，交互后展示细节 即时反馈：交互效果应在 100ms 内响应 可预测性：交互行为应符合用户预期 降级兼容：确保不使用交互功能也能获取核心信息

从工具出发到思维转变

数据可视化的本质不是画图，而是思考。工具可以自动化绘图过程，但无法替代对以下问题的思考：

这个数据的本质特征是什么？
我想让观众理解什么？
什么编码方式最能准确传达信息？
有什么可能造成误解的地方？

图表选择没有标准答案，但有科学依据。理解认知原理、掌握设计原则、了解常见陷阱，才能在面对具体数据时做出正确的判断。

这不是要成为设计专家，而是要成为更好的沟通者。毕竟，数据可视化的终极目标不是"好看"，而是"被理解"。

参考

Tufte, E. R. (1983). The Visual Display of Quantitative Information. Graphics Press.
Cleveland, W. S., & McGill, R. (1985). Graphical Perception and Graphical Methods for Analyzing Data. Science, 229(4716), 828-833.
Few, S. (2012). Show Me the Numbers: Designing Tables and Graphs to Enlighten. Analytics Press.
Cairo, A. (2016). The Truthful Art: Data, Charts, and Maps for Communication. New Riders.
Ware, C. (2012). Information Visualization: Perception for Design. Morgan Kaufmann.
Atlassian. “How to Choose the Right Data Visualization.” https://www.atlassian.com/data/charts/how-to-choose-data-visualization
Spence, I. (2005). No Humble Pie: The Origins and Usage of a Statistical Chart. Journal of Educational and Behavioral Statistics, 30(4), 353-368.
Norman, D. A. (2013). The Design of Everyday Things. Basic Books.
Heer, J., & Bostock, M. (2010). Crowdsourcing Graphical Perception: Using Mechanical Turk to Assess Visualization Design. CHI 2010.
Nussbaumer Knaflic, C. (2015). Storytelling with Data: A Data Visualization Guide for Business Professionals. Wiley.

认知基础：大脑如何解读图形#

格式塔原理：视觉组织的底层逻辑#

前注意属性：什么信息能被"一眼看到"#

图表分类：从问题出发，而非从形式出发#

问题驱动的图表选择框架#

饼图争议：科学依据是什么#

反对饼图的科学依据#

饼图何时可用#

颜色选择：比想象中更复杂#

数据驱动的颜色方案#

色盲可访问性#

避免的颜色陷阱#

数据墨水比：少即是多#

实践案例：简化条形图#

例外：何时可以"浪费"墨水#

常见误用及其修正#

1. 双Y轴图表#

2. 3D图表#

3. 截断Y轴#

4. 过度堆叠#

交互设计：超越静态图表#

交互的价值#

交互的代价#

设计原则#

从工具出发到思维转变#

参考#

更多精彩内容

为什么人会感到无聊：从默认模式网络到认知稳态的完整神经科学解析

话到嘴边为何突然卡住？舌尖现象背后的认知科学真相

为什么歌曲会在脑中循环播放？从耳虫现象到认知神经科学的完整解密

代码理解的心理困境：为什么工作记忆限制决定了程序员的效率

当99%准确率成为谎言：机器学习评估指标的深层博弈