使用 Python 创建热图
已发表: 2023-01-02热图由显示一种颜色的不同阴影的值组成,用于绘制各个值。 通常,图表的深色阴影表示高于浅色阴影的值。 对于明显不同的值,也可以使用完全不同的颜色。 数据值借助图表中的颜色显示。 热图的主要目的是提供给定信息的彩色视觉列表。 热图(或热图)是一种数据可视化技术,它以二维颜色显示现象的大小。 准确地说,热图是一种数据可视化技术,它利用颜色来展示感兴趣的值如何根据其他两个变量的值而变化。 总而言之,使用不同的颜色来表示数据可以让您对数值数据有一个总体的了解。 除此之外,Python 热图还包括执行聚类分析、正则化矩阵、选择特定的调色板以及交换行和列以放置附近相似的值。
例如,您可以使用热图来了解一组城镇的空气污染如何根据一天中的时间准确变化。
可以通过两种方式理解网站热图:查看可视化效果和修改原始数据点。 由于热图的颜色编码特性(红色表示交互最多,蓝色表示最少),点击趋势和问题可以一目了然。
二维热图是一种数据可视化工具,可以以颜色的形式表示现象的大小。 在 Python 中,可以使用 Matplotlib 包绘制二维热图。 有几种方法可用于绘制二维热图。 下面讨论其中一些。
查看我们的数据科学课程以提高自己的技能。
目录
方法一:使用matplotlib.pyplot.imshow()函数
语法:matplotlib.pyplot.imshow(X, cmap=None, norm=None, aspect=None, interpolation=None, alpha=None, vmin=None,
vmax=None, origin=None, extent=None, shape=<不推荐使用的参数>, filternorm=1, filterrad=4.0,
imlim=<不推荐使用的参数>, resample=None, url=None, \, data=None, \\*kwargs)
方法二:使用Seaborn库
为此,我们使用 seaborn.heatmap() 函数
语法:seaborn.heatmap(data, *, vmin=None, vmax=None, cmap=None, center=None, robust=False,annot=None,
fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None,
square=False,xticklabels='auto',yticklabels='auto',mask=None,ax=None,**kwargs)
探索我们的热门数据科学课程
IIITB 的数据科学执行研究生课程 | 商业决策数据科学专业证书课程 | 亚利桑那大学数据科学硕士 |
IIITB 的数据科学高级证书课程 | 马里兰大学数据科学和商业分析专业证书课程 | 数据科学课程 |
方法三:使用matplotlib.pyplot.pcolormesh()函数
语法:matplotlib.pyplot.pcolormesh(*args, alpha=None, norm=None, cmap=None, vmin=None, vmax=None,
shading='flat', antialiased=False, data=None, **kwargs)
Seaborn 是一个 Python 库,借助它的 heatmap() 函数,我们可以轻松创建更好的图表。 本节以一篇文章开头,解释了基于任何类型的数据输入的函数的基本用法。 然后,它将指导您通过各种方式自定义图表,例如控制颜色和数据规范化。
通常,我们在热图上使用一些聚类技术。 这样做是为了将具有类似数字变量模式的项目分组。
一般推荐显示树状图(树状图是显示对象之间层次关系的图。它通常以层次聚类输出的形式制作。树状图的主要功能是找出最合适的方式将对象分配给集群。)
热图的顶部描述了聚类是如何进行的。 最后但同样重要的是,将我们得到的分组与预期结构进行比较可能会有所帮助,显示为附加颜色。
如何在 Python 中解释热图:
2022 年要学习的顶级数据科学技能
SL。 不 | 2022 年要学习的顶级数据科学技能 | |
1个 | 数据分析课程 | 推理统计课程 |
2个 | 假设检验程序 | 逻辑回归课程 |
3个 | 线性回归课程 | 线性代数分析 |
Python 数据可视化——热图
- 将 pandas 导入为 pd. 将 numpy 导入为 np. 将matplotlib .pyplot 导入为 plt。 ……
- 图,ax = plt.subplots(figsize=(10,6)) sns。 heatmap ( data.corr (), center=0, cmap='Blues') ax.set_title('汽车属性的多重共线性') 3. fig, ax = plt.subplots(figsize=(10,6)) sns . 热图(data.corr(), center=0, cmap='BrBG', annot=True)
如何创建热图:
- 加载数据集。
- 制作一个 Python Numpy 数组。
- 在 Python 中生成一个 Pivot。
- 设计一个数组来注释热图。
- 构建 Matplotlib 图并定义绘图。
- 构建热图。
现在的问题是,如何在 Python 中增加 seaborn 热图的注释大小? 很简单——seaborn 可以用基于 matplotlib 的 Python 库来解释,实际上用于数据可视化。
阅读我们流行的数据科学文章
数据科学职业道路:综合职业指南 | 数据科学职业发展:工作的未来就在这里 | 为什么数据科学很重要? 数据科学为企业带来价值的 8 种方式 |
数据科学对管理者的相关性 | 每个数据科学家都应该拥有的终极数据科学备忘单 | 你应该成为数据科学家的 6 大理由 |
数据科学家的一天:他们做什么? | 神话破灭:数据科学不需要编码 | 商业智能与数据科学:有什么区别? |
方法
- 要导入的模块
- 加载或生成数据
- 调用 heatmap () 函数并将 annot 设置为 True。
- 大小必须自定义为 annot_kws 参数
- 待展示地块
改变热图颜色:
seaborn 热图的颜色可以通过使用热图的颜色图的 cmap属性来改变。
热图的类型:
通常有两种类型的热图:
- 网格热图:通过颜色显示值的大小,这些值被布置到行和列的矩阵中,最常见的是基于密度的函数。 下面列出了一些网格热图
- 聚类热图——聚类热图的纯粹目标是简单地在特征和数据点之间建立关联。 这是一种将聚类作为对本质上相似的特征进行分组过程的一部分的热图。
聚类热图也广泛用于生物科学,以研究不同个体之间的基因相似性。
- 空间热图——一个热图有几个方块,热图中的每个方块实际上都根据附近单元格的值分配了一种颜色表示。 颜色的位置取决于特定空间中值的大小。 这些热图实际上是由覆盖在图像顶部的数字画布绘制的数据驱动图。 值高于其他单元格的单元格被指定为暖色,而值低于其他单元格的单元格被指定为冷色。
热图的用途:
- 业务分析:热图用作可视化业务分析工具,它提供有关当前性能、结果以及任何改进范围的真正快速的视觉提示。 热图还可以分析现有数据,并找到可能反映大多数客户居住地的强度区域。 热图也可以不断更新,以反映增长和努力。 这些地图还可以集成到企业的工作流程中,从而成为持续分析的一部分。 这些
以视觉上令人愉悦的方式呈现数据,并且易于理解和与团队成员或客户沟通。
- 网站:热图实际上用于网站,以可视化访问者的数据。 这种可视化可以帮助企业主和营销人员识别某个网页中表现最好和最差的部分。 这些愿景也帮助他们更好地优化网站。
- 探索性数据分析:这也称为 EDA,它是数据科学家为了熟悉所有数据而执行的一项任务。 事实上,所有的初始研究都是为了理解称为EDA的数据。 它也可以解释为在建模任务开始之前分析数据集的过程。 事实上,查看充满数字的电子表格以确定数据集中的重要特征是一项非常无聊的任务。 因此,EDA 是为了总结它们的主要特征和规格,通常使用视觉方法,其中还包括热图。 这些是在高维空间中可视化变量之间关系的迷人方式。 这可以通过使用特征变量作为行标题和列标题轻松完成。
- 分子生物学:热图用于研究 RNA、DNA 等的差异和相似模式。
- 地理可视化:地理空间热图图表在显示地图的地理区域如何根据特定标准相互比较时非常有用。 热图还有助于聚类分析或热点分析,以检测高浓度活动的聚类。 以 Airbnb 租金价格分析为例!
- 营销与销售:热图检测冷点和热点的能力用于通过有针对性的营销提高营销响应率。 热图还有助于检测响应活动的区域、服务不足的市场、客户居住地以及高销售趋势——这些有助于增强产品阵容、利用销售以及建立目标客户群,同时还可以分析区域人口统计数据。
结论
虽然有许多不同的配色方案可以说明热图,但它也具有一组感知优势以及每种配色方案的劣势。 调色板的选择实际上不仅仅是美学,特别是因为热图中的颜色揭示了数据中的模式。 事实上,良好的配色方案可以增强模式发现。 然而,糟糕的选择实际上可以隐藏它。 除此之外,seaborn 热图是网格热图,实际上可以采用各种类型的数据来生成热图。 因此, seaborn heatmap的主要目的是通过数据可视化的方式简单展示相关矩阵。 它还有助于找到多个特征之间的关系以及哪些特征最适合机器学习模型构建。
如果您想更深入地使用 Python,尤其是数据科学,upGrad 会为您带来数据科学领域的执行 PGP。 该计划专为中级 IT 专业人员、希望探索数据科学的软件工程师、非技术分析师、早期职业专业人员等而设计。我们结构化的课程和广泛的支持确保我们的学生毫无困难地充分发挥潜力。