图表|数据可视化高阶技巧——以哈伯曼癌症生存数据为例

?什么是数据可视化?
“一千个读者就有一千个哈姆雷特。”这句话套在数据分析也是一样的,不同的人他对于数据的理解也是不同的。数据可视化可以帮助我们以更简单的方式去分析数据和找到数据背后隐藏的信息。资料可视化所涉及的知识有很多,我试图将Harberman关于癌症存活的数据结合起来,来看一下数据可视化如何帮助我们从一堆混乱的数据中发现隐藏的信息,让我们开始吧!
图表|数据可视化高阶技巧——以哈伯曼癌症生存数据为例
文章插图

为什么要做数据可视化?
数据可视化是一种可以通过数据创建故事的方式。当数据很复杂并且需要了解微观细节至关重要时,最好的方法是通过数据可视化图表的视觉效果来分析数据。

视觉效果可用于两个目的:
1、探索性数据分析:数据分析师、统计学家和数据科学家使用它来更好地理解数据。它用于探索隐藏在数据中的信息和趋势。
2、解释性数据分析:一旦数据分析师理解了数据并找到了他们的结果,传达他们想法的最佳方式就是通过视觉效果。数据可视化就像是创作一个故事,以达到吸引观众阅读的目的。

哈伯曼生存数据的探索性分析
这数据集已包括了从1958年到1970年间,在芝加哥大学的某所医院进行的一项研究案例,该研究主要针对接受过乳腺癌手术的患者的生存情况。

属性包括:
手术时患者年龄(数字)
患者的手术年份(年份 – 1900,数字)
检测到的阳性腋窝淋巴结数量(数字)
生存状态(类别属性)
1 = 患者存活 5 年或更长时间
2 = 患者在 5 年内死亡

让我们首先从使用统计来理解数据开始:

我们看到有 306 行和 4 列。进一步查看属性后,我们了解了数据的分布方式。为了进一步了解每个类的示例数量,让我们看看不同的图。

直方图
图表|数据可视化高阶技巧——以哈伯曼癌症生存数据为例
文章插图

这里可以看到两种状态下的患者都是在30到 80年在两个年龄段之间重叠,而40-60岁这个年龄段的比例都是最高的,60-80岁年龄段的人生存和死亡的机会相等,80岁以上的人无法存活的可能性更高。但是,仅凭年龄无法判断一个人是否会存活。

箱形图
图表|数据可视化高阶技巧——以哈伯曼癌症生存数据为例
文章插图

它能够提供给我们两种生存状态下,淋巴结数量的最大值、最小值、中位数、四分位数分布以及异常值分布情况。

散点图
图表|数据可视化高阶技巧——以哈伯曼癌症生存数据为例
文章插图

我们从零散的点看,无论在哪一年,有0个淋巴结的患者都是幸存者。这是否意味着只要是0个淋巴结的患者都能确保生存?

小提琴图
图表|数据可视化高阶技巧——以哈伯曼癌症生存数据为例
文章插图

小提琴图用于显示数据分布和概率密度,中间的黑色粗条表示四分位数范围,延伸的细黑线表示 95% 的信任范围,而白点表示中位数,从上图可以看出,两种生存状态下幸存者的淋巴结数量分布不同。

根据上述的案例,我们从视觉效果中学到很多东西,为了方便大家更好地学习数据可视化,我整理了一些必备的数据可视化工具来帮助您入门。

数据可视化工具
Tableau:可视化功能非常强大,主要应用在商业图表上。
Power BI:微软旗下的可视化工具,其功能也是十分强大,可用于做多维分析等。