论文中图表怎么选择?最有用的 9个表达关联的图表
2019-03-23论文技巧论文模板屋11341°c
A+ A-很多同学在写论文时不知道图表怎么选择或者选择过于单一,有些图表选择得并不合适。本文总结了在数据分析和可视化中最有用的 9个表达关联(Correlation)的图表。关联图表用于可视化 2 个或更多变量之间的关系。也就是说,一个变量如何相对于另一个变化。图表设计与选择需要遵循以下原则:
在不歪曲事实的情况下传达正确和必要的信息。
设计简单,您不必太费力就能理解它。
从审美角度支持信息而不是掩盖信息。
信息没有超负荷。
1. 散点图(Scatter plot)
散点图是用于研究两个变量之间关系的经典的和基本的图表。如果数据中有多个组,则可能需要以不同颜色可视化每个组。您可以使用 plt.scatterplot() 方便地执行此操作。
2. 带边界的气泡图(Bubble plot with Encircling)
有时,您希望在边界内显示一组点以强调其重要性。在这个例子中,你从数据框中获取记录,并用 encircle() 来使边界显示出来。
3. 带线性回归最佳拟合线的散点图(Scatter plot with linear regression line of best fit)
如果你想了解两个变量如何相互改变,那么最佳拟合线就是常用的方法。下图显示了数据中各组之间最佳拟合线的差异。要禁用分组并仅为整个数据集绘制一条最佳拟合线,请从 sns.lmplot() 调用中删除 hue ='cyl' 参数。
针对每列绘制线性回归线或者,可以在其每列中显示每个组的最佳拟合线。可以通过在 sns.lmplot() 中设置 col=groupingcolumn 参数来实现,如下:
4. 抖动图(Jittering with stripplot)
通常,多个数据点具有完全相同的 X 和 Y 值。结果,多个点绘制会重叠并隐藏。为避免这种情况,请将数据点稍微抖动,以便您可以直观地看到它们。
使用 seaborn 的 stripplot() 很方便实现这个功能。
5. 计数图(Counts Plot)
避免点重叠问题的另一个选择是增加点的大小,这取决于该点中有多少点。因此,点的大小越大,其周围的点的集中度越高。
6. 边缘直方图(Marginal Histogram)
边缘直方图具有沿 X 和 Y 轴变量的直方图。这用于可视化 X 和 Y 之间的关系以及单独的 X 和 Y 的单变量分布。这种图经常用于探索性数据分析(EDA)。
7. 边缘箱形图(Marginal Boxplot)
边缘箱图与边缘直方图具有相似的用途。然而,箱线图有助于精确定位 X 和 Y 的中位数、第 25 和第 75 百分位数。
8. 相关图(Correllogram)
相关图用于直观地查看给定数据框(或二维数组)中所有可能的数值变量对之间的相关度量。
9. 矩阵图(Pairwise Plot)
矩阵图是探索性分析中的最爱,用于理解所有可能的数值变量对之间的关系。它是双变量分析的必备工具。