昨天我有一个演讲“数据可视化与信息管理”。演示文稿的核心是两个示例,我将在下面介绍。妙语归结为一个简单的陈述:仅以图形方式呈现数据是不够的,它的呈现必须显示数据的关键元素。决策者和处理数据的人之间的良好沟通是确定什么重要什么不重要的必要条件。
作为第一个例子,我用了1986年发生的挑战者号航天飞机灾难的历史。灾难的直接原因是低温导致O型圈(绝缘环)弹性降低。长话短说,航天飞机发射当天的天气太冷,O 形圈无法正常工作。
但是在发射前进行了检查 O 形环损坏的测试。那么为什么工程师允许在恶劣的温度条件下启动呢?因为数据呈现(=数据理解)很糟糕。
下图以图形方式显示了数据。火箭的轮廓显示了测试温度和损坏范围。
这种数据可视化可能被认为是美观和有趣的,但它有一个很大的缺陷。
它不表示最重要的事实。 Edward Tufte 在他的书中以不同的方式显示了相同的数据。他将损坏标记为温度的函数。下图清楚地表明,温度越高,损坏越大。发射当天的温度比测试条件(30F,即低于 0C)低几度。尽管塔夫特的图表没有像前一张那样漂亮的火箭图片,但它着重告诉我们航天飞机不应该在如此低的温度下发射。
(来源:用图表表示行业信息)
数据展示不仅仅是展示;它是关于关键事实的陈述。数据需要经过解释才能正确显示。
现在让我们关注另一个例子。现在我们将检查 2015 年总统大选前进行的投票意向民意调查的数据。数据的表格显示如下:
你能从那张桌子上读到任何东西吗?大多数正常人对这么厚的一排数字都感到头疼。其余人注意到,在调查中对 Bronisław Komorowski 的支持有所下降,而对 Andrzej Duda 的支持有所增加。但我们能否观察到变化的速度或性质?是否有任何转折点,或者这些变化可能是系统性的?谁也说不准。
让我们展示这些数据。虽然该表是客观的并且不强制执行任何解释,但每个图表都强加了一些解释。首先,我们将选择仅涉及两个候选人的数据,并将支持作为时间的函数呈现。
好吧,我们可以看到一团点。我们可以看到蓝色的点越来越高,橙色的点越来越低。
让我们添加一个趋势,让我们分别在第一轮选举之前和之后进行。我们添加的趋势类型是我们的主观选择。在这种情况下,我们选择线性函数。
我们可以阅读越来越多的信息。 BK 的支持率下降幅度大于 AD 的支持率上升幅度。正如我们所知,Paweł Kukiz 从这种差异中获益。趋势线让我们注意到个别调查均匀分布在线性趋势周围。这也让我们看到,即使是对调查结果的推断也无法揭示对第一轮选举结果的真实预测。第一轮的前一天,调查显示 BK 有 10% 的优势。与第一轮的实际结果相差甚远(第一轮获胜的是AD)。
这不是一项随机民意调查的结果,而是许多个人民意调查的结果。第一轮后的结果仍然远非池。
答案通常会引发进一步的问题。对于这些结果,我们可能会问,如果我们仅基于几个民意调查中心进行检查,这些趋势会是什么样子?
也许剩下的中心在计算上有一些错误?
在这里,我们可能会使用交互式应用程序,让我们不仅可以熟悉结果,还可以探索它们。
然而,我们应该选择哪些选项?这是另一个主观选择。
通过这种方式,我们从数字表格转变为交互式应用程序。然而,在那个转换期间,我们不得不做出几个决定,这些决定强制对图表进行某种解释。 好的数据可视化总是对数字的解释。
让我们回到公司沟通的话题。通常情况下,想要根据数据做出某些决策的人(产品经理、总监、管理委员会)命令其他人(分析师、统计学家、数据科学家等)提取数据或准备数据可视化。 .他越能说明他想要提取数据的内容和目的,结果的呈现就越有可能揭示重要事实,而不是被沙洲击中。
下周您将学习如何在 R 和 ggplot2 中制作上面显示的图表。
普热梅克·比切克