cover

95. Seaborn 数据可视化基础#

95.1. 介绍#

Matplotlib 是支持 Python 语言的开源绘图库,因为其支持丰富的绘图类型、简单的绘图方式以及完善的接口文档,深受 Python 工程师、科研学者、数据工程师等各类人士的喜欢。Seaborn 是以 Matplotlib 为核心的高阶绘图库,无需经过复杂的自定义即可绘制出更加漂亮的图形,非常适合用于数据可视化探索。

95.2. 知识点#

  • 关联图

  • 类别图

  • 分布图

  • 回归图

  • 矩阵图

  • 组合图

95.3. Seaborn 介绍#

Matplotlib 应该是基于 Python 语言最优秀的绘图库了,但是它也有一个十分令人头疼的问题,那就是太过于复杂了。3000 多页的官方文档,上千个方法以及数万个参数,属于典型的你可以用它做任何事,但又无从下手。尤其是,当你想通过 Matplotlib 调出非常漂亮的效果时,往往会伤透脑筋,非常麻烦。

Seaborn 基于 Matplotlib 核心库进行了更高阶的 API 封装,可以让你轻松地画出更漂亮的图形。Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻,下面是 Seaborn 官方给出的参考图。

https://cdn.aibydoing.com/aibydoing/images/document-uid214893labid3264timestamp1501118752821.jpg

Seaborn 具有如下特点:

  • 内置数个经过优化的样式效果。

  • 增加调色板工具,可以很方便地为数据搭配颜色。

  • 单变量和双变量分布绘图更为简单,可用于对数据子集相互比较。

  • 对独立变量和相关变量进行回归拟合和可视化更加便捷。

  • 对数据矩阵进行可视化,并使用聚类算法进行分析。

  • 基于时间序列的绘制和统计功能,更加灵活的不确定度估计。

  • 基于网格绘制出更加复杂的图像集合。

除此之外, Seaborn 对 Matplotlib 和 Pandas 的数据结构高度兼容 ,非常适合作为数据挖掘过程中的可视化工具。

95.4. 快速优化图形#

当我们使用 Matplotlib 绘图时,默认的图像样式算不上美观。此时,就可以使用 Seaborn 完成快速优化。下面,我们先使用 Matplotlib 绘制一张简单的图像。

import matplotlib.pyplot as plt
%matplotlib inline

x = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
y_bar = [3, 4, 6, 8, 9, 10, 9, 11, 7, 8]
y_line = [2, 3, 5, 7, 8, 9, 8, 10, 6, 7]

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')
[<matplotlib.lines.Line2D at 0x10f593a50>]
../_images/3aea8085655b7635df2b9b9e0a7dc6f055778c929b2c829de921899394ec79fe.png

使用 Seaborn 完成图像快速优化的方法非常简单。只需要将 Seaborn 提供的样式声明代码 sns.set() 放置在绘图前即可。

import seaborn as sns

sns.set()  # 声明使用 Seaborn 样式

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')
[<matplotlib.lines.Line2D at 0x14f15b3d0>]
../_images/5dde02bcbd402decdca5f0bcfabbf8877735d9158e9ae8a11475cdd91a1b1d63.png

我们可以发现,相比于 Matplotlib 默认的纯白色背景,Seaborn 默认的浅灰色网格背景看起来的确要细腻舒适一些。而柱状图的色调、坐标轴的字体大小也都有一些变化。

sns.set() 的默认参数为:

sns.set(context='notebook', style='darkgrid', palette='deep', font='sans-serif', font_scale=1, color_codes=False, rc=None)

其中:

  • context='' 参数控制着默认的画幅大小,分别有 {paper, notebook, talk, poster} 四个值。其中,poster > talk > notebook > paper

  • style='' 参数控制默认样式,分别有 {darkgrid, whitegrid, dark, white, ticks},你可以自行更改查看它们之间的不同。

  • palette='' 参数为预设的调色板。分别有 {deep, muted, bright, pastel, dark, colorblind} 等,你可以自行更改查看它们之间的不同。

  • 剩下的 font='' 用于设置字体,font_scale= 设置字体大小,color_codes= 不使用调色板而采用先前的 'r' 等色彩缩写。

95.5. Seaborn 绘图 API#

Seaborn 一共拥有 50 多个 API 类,相比于 Matplotlib 数千个的规模,可以算作是短小精悍了。其中,根据图形的适应场景,Seaborn 的绘图方法大致分类 6 类,分别是:关联图、类别图、分布图、回归图、矩阵图和组合图。而这 6 大类下面又包含不同数量的绘图函数。

接下来,我们就通过实际数据进行演示,使用 Seaborn 绘制不同适应场景的图形。

95.6. 关联图#

当我们需要对数据进行关联性分析时,可能会用到 Seaborn 提供的以下几个 API。

关联性分析

介绍

relplot

绘制关系图

scatterplot

多维度分析散点图

lineplot

多维度分析线形图

relplot 是 relational plots 的缩写,其可以用于呈现数据之后的关系,主要有散点图和条形图 2 种样式。本次实验,我们使用鸢尾花数据集进行绘图探索。

在绘图之前,先熟悉一下 iris 鸢尾花数据集。数据集总共 150 行,由 5 列组成。分别代表:萼片长度、萼片宽度、花瓣长度、花瓣宽度、花的类别。其中,前四列均为数值型数据,最后一列花的分类为三种,分别是:Iris Setosa、Iris Versicolour、Iris Virginica。

# 从国内镜像下载 seaborn 数据集避免下一步加载数据集失败
!wget -nc "https://cdn.aibydoing.com/aibydoing/files/seaborn-data.zip"
!unzip seaborn-data.zip -d ~/
iris = sns.load_dataset("iris")
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa

此时,我们指定 \(x\)\(y\) 的特征,默认可以绘制出散点图。

sns.relplot(x="sepal_length", y="sepal_width", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f19b2d0>
../_images/52306ac3f7d3687337ca4e9333749448c08a9b30e25692a4cceb1aeac649ff8d.png

但是,上图并不能看出数据类别之间的联系,如果我们加入类别特征对数据进行着色,就更好一些了。

sns.relplot(x="sepal_length", y="sepal_width", hue="species", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f34ac50>
../_images/93895b0dd7210b6a0e6d2f62e9f7bd29843e8c5a9fc2966ce555ed72bd332a88.png

Seaborn 的函数都有大量实用的参数,例如我们指定 style 参数可以赋予不同类别的散点不同的形状。更多的参数,希望大家通过阅读官方文档了解。

sns.relplot(x="sepal_length", y="sepal_width",
            hue="species", style="species", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f3d4510>
../_images/0dd409682e9534e8565ee8b68d1b36a576a646ba55eef60b5811dce9779e8f3c.png

不只是散点图,该方法还支持线形图,只需要指定 kind="line" 参数即可。线形图和散点图适用于不同类型的数据。线形态绘制时还会自动给出 95% 的置信区间。

sns.relplot(x="sepal_length", y="petal_length",
            hue="species", style="species", kind="line", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f4394d0>
../_images/36590c992a00a6d04b0df83f31aff7a2eabf53cd36e99cb92baef478d7ff03b5.png

你会发现,上面我们一个提到了 3 个 API,分别是:relplotscatterplotlineplot。实际上,你可以把我们已经练习过的 relplot 看作是 scatterplotlineplot 的结合版本。

这里就要提到 Seaborn 中的 API 层级概念,Seaborn 中的 API 分为 Figure-level 和 Axes-level 两种。relplot 就是一个 Figure-level 接口,而 scatterplotlineplot 则是 Axes-level 接口。

Figure-level 和 Axes-level API 的区别在于,Axes-level 的函数可以实现与 Matplotlib 更灵活和紧密的结合,而 Figure-level 则更像是「懒人函数」,适合于快速应用。

例如上方的图,我们也可以使用 lineplot 函数绘制,你只需要取消掉 relplot 中的 kind 参数即可。

sns.lineplot(x="sepal_length", y="petal_length",
             hue="species", style="species", data=iris)
<Axes: xlabel='sepal_length', ylabel='petal_length'>
../_images/75d24308d2fe3aa293105a2278646605524febbb03346782b479d222d831a308.png

95.7. 类别图#

与关联图相似,类别图的 Figure-level 接口是 catplot,其为 categorical plots 的缩写。而 catplot 实际上是如下 Axes-level 绘图 API 的集合:

下面,我们看一下 catplot 绘图效果。该方法默认是绘制 kind="strip" 散点图。

sns.catplot(x="sepal_length", y="species", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f368210>
../_images/decfac3cc6bf487c0406ccffade0b39524ada82d3d4beb29783dc22aec57fad2.png

kind="swarm" 可以让散点按照 beeswarm 的方式防止重叠,可以更好地观测数据分布。

sns.catplot(x="sepal_length", y="species", kind="swarm", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f523b10>
../_images/092cec60fcec413735d68c57343ef37f63279210d9d6d4dff6d753da01fbfdae.png

同理,hue= 参数可以给图像引入另一个维度,由于 iris 数据集只有一个类别列,我们这里就不再添加 hue= 参数了。如果一个数据集有多个类别,hue= 参数就可以让数据点有更好的区分。

接下来,我们依次尝试其他几种图形的绘制效果。绘制箱线图:

sns.catplot(x="sepal_length", y="species", kind="box", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f670a90>
../_images/1320926663c5e35c43c582c59c5f21c5a5b5bf41570c7fc34dd078b34aa163fe.png

绘制小提琴图:

sns.catplot(x="sepal_length", y="species", kind="violin", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f70fa50>
../_images/7eba3594c725ba63c110c3ffe791b8ea378795f5c436b4424fc2955178fe3d00.png

绘制增强箱线图:

sns.catplot(x="species", y="sepal_length", kind="boxen", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f716a10>
../_images/d24fa1fff11559ffb0dea685c87bc255b7707743d5fa6d09a07e25d11454d7e7.png

绘制点线图:

sns.catplot(x="sepal_length", y="species", kind="point", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f80a710>
../_images/4fd3a425867f06ea6c243f5c49914d1d866bb9f0df6caf5d840ea97ffffa8828.png

绘制条形图:

sns.catplot(x="sepal_length", y="species", kind="bar", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f8c4690>
../_images/0a2098489ac99fd47a440a9c8a69c957f91561ce595e86ef0f5a889f6b8ddd02.png

绘制计数条形图:

sns.catplot(x="species", kind="count", data=iris)
<seaborn.axisgrid.FacetGrid at 0x14f913f90>
../_images/6a9853d2a143eb92b731d312433b14adcf0c4d9ed53877b490aeeba45b78bff1.png

95.8. 分布图#

分布图主要是用于可视化变量的分布情况,一般分为单变量分布和多变量分布。当然这里的多变量多指二元变量,更多的变量无法绘制出直观的可视化图形。

Seaborn 提供的分布图绘制方法一般有这几个: jointplotpairplotdistplotkdeplot。接下来,我们依次来看一下这些绘图方法的使用。

Seaborn 快速查看单变量分布的方法是 distplot。默认情况下,该方法将会绘制直方图并拟合核密度估计图。

sns.distplot(iris["sepal_length"])
<Axes: xlabel='sepal_length', ylabel='Density'>
../_images/a472abe3c4ec1129e82179158e4ad78a9020e62865bb1ca4997b4472a4054e07.png

distplot 提供了参数来调整直方图和核密度估计图,例如设置 kde=False 则可以只绘制直方图,或者 hist=False 只绘制核密度估计图。当然,kdeplot 可以专门用于绘制核密度估计图,其效果和 distplot(hist=False) 一致,但 kdeplot 拥有更多的自定义设置。

sns.kdeplot(iris["sepal_length"])
<Axes: xlabel='sepal_length', ylabel='Density'>
../_images/e7d4082ad235bf39b6b5c3a31a5dff21761fad1117bf68d7b29c647625165516.png

jointplot 主要是用于绘制二元变量分布图。例如,我们探寻 sepal_lengthsepal_width 二元特征变量之间的关系。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris)
<seaborn.axisgrid.JointGrid at 0x14fac55d0>
../_images/aee704a19d9a6f014a9c8d1e080c13b38fe7a72505f5ddb0aa545341e3b57e96.png

jointplot 并不是一个 Figure-level 接口,但其支持 kind= 参数指定绘制出不同样式的分布图。例如,绘制出核密度估计对比图。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="kde")
<seaborn.axisgrid.JointGrid at 0x14f1b2e10>
../_images/789394b3e241749f2ea6835cb736a19271efc221db01820a8ee896a80e0b0ff2.png

六边形计数图:

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="hex")
<seaborn.axisgrid.JointGrid at 0x14fc23410>
../_images/d97aeab0637a9953337994d892786152fa5547eaccbdf4594c7c88d03ec9ef70.png

回归拟合图:

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="reg")
<seaborn.axisgrid.JointGrid at 0x14fd66d90>
../_images/38e4c2c3c235ff827fe5e4ff58c4ed1f2e15edb09e7dd6374aeabe6efe30d654.png

最后要介绍的 pairplot 更加强大,其支持一次性将数据集中的特征变量两两对比绘图。默认情况下,对角线上是单变量分布图,而其他则是二元变量分布图。

sns.pairplot(iris)
<seaborn.axisgrid.PairGrid at 0x1568ba110>
../_images/29ed0ac4f4ee790ed4e7e796cec5ca93b697a4a0b5818cbd930bd85b2458098f.png

此时,我们引入第三维度 hue="species" 会更加直观。

sns.pairplot(iris, hue="species")
<seaborn.axisgrid.PairGrid at 0x15705fd90>
../_images/36b001fefd362880a555b4d39021f6fc7d5ddc6e0d965de26d8dab19949c7d32.png

95.9. 回归图#

接下来,我们继续介绍回归图,回归图的绘制函数主要有:lmplotregplot

regplot 绘制回归图时,只需要指定自变量和因变量即可,regplot 会自动完成线性回归拟合。

sns.regplot(x="sepal_length", y="sepal_width", data=iris)
<Axes: xlabel='sepal_length', ylabel='sepal_width'>
../_images/65d6c667dfe904ecf1bdd1de5a299cb9dd8b162326697dd50ebcd33130d29269.png

lmplot 同样是用于绘制回归图,但 lmplot 支持引入第三维度进行对比,例如我们设置 hue="species"

sns.lmplot(x="sepal_length", y="sepal_width", hue="species", data=iris)
<seaborn.axisgrid.FacetGrid at 0x168891f10>
../_images/45437f91f7534efcaf2dffb1d34c0de1a3fd6701441e9ea66e9412c1b1705fac.png

95.10. 矩阵图#

矩阵图中最常用的就只有 2 个,分别是:heatmapclustermap

意如其名,heatmap 主要用于绘制热力图。

import numpy as np

sns.heatmap(np.random.rand(10, 10))
<Axes: >
../_images/2494c9cf0d3143491625cf3f1bd8b3d3933851c1ca5803ce9e2e01ed11d31f42.png

热力图在某些场景下非常实用,例如绘制出变量相关性系数热力图。

除此之外,clustermap 支持绘制 层次聚类 结构图。如下所示,我们先去掉原数据集中最后一个目标列,传入特征数据即可。当然,你需要对层次聚类有所了解,否则很难看明白图像表述的含义。

iris.pop("species")
sns.clustermap(iris)
<seaborn.matrix.ClusterGrid at 0x168872550>
../_images/b8adca5bddda06f536399a474dd8a7634bde110d3d3055c6cbd854062f86533e.png

如果你浏览官方文档,就会发现 Seaborn 中还存在大量已大些字母开始的类,例如 JointGridPairGrid 等。实际上这些类只是其对应小写字母的函数 jointplotpairplot 的进一步封装。当然,二者可能稍有不同,但并没有本质的区别。

除此之外,Seaborn 官方文档 中还有关于 样式控制色彩自定义 等一些辅助组件的介绍。对于这些 API 的应用没有太大的难点,重点需要勤于练习。

95.11. 总结#

本章节对 Seaborn 的用法进行了简单的介绍。这里需要说明一下 Seaborn 和 Matplotlib 之间的关系,Seaborn 并不是为了替代 Matplotlib,而应当被看作是 Matplotlib 的补充。对于 Matplotlib 而言,它具有高度自定义属性,可以实现任何你想要的效果。而 Seaborn 非常简单快捷,几行代码就可以画出还不赖的图形。总之,Matplotlib 擅长于纯粹的绘图,而 Seaborn 则多用于数据可视化探索。


○ 欢迎分享本文链接到你的社交账号、博客、论坛等。更多的外链会增加搜索引擎对本站收录的权重,从而让更多人看到这些内容。