多批数据箱线图分析 箱线图怎么分析数据

当你在做数据汇总分析、科研调查分析,甚至季度、年度总结报告,需要查看数据的分布情况、有无异常形成结论以辅助进一步分析时,哪个图表可以清晰直观的展现这些信息?
答案是方框图 。
箱形图是用来表示一组数据分布情况的统计图表,因其形状像一个盒子而得名 。
盒子的顶部和底部分别代表上四分位数和下四分位数 。盒子中间是中线,将盒子一分为二 。从方框中延伸出来的线显示了除上下四分位数以外的数据 。因为这两条延长线像胡须一样,所以箱形图也叫箱形胡须图 。有时,单个点会出现在箱线图上 。除了比尔德的终值,这代表了离群值,也可以称为离群值 。
箱线图最大的优点是可以用简单的方式概括一个或多个数值变量的分布,同时不会占用太多的空空间 。通过箱线图,我们可以快速知道一些关键的统计值,如中位数、上下四分位数等 。还可以分析是否存在离群值,离群值是什么 。最后可以利用多个箱线图比较多组数据的分布情况,从而快速得到对数据结构和数据质量的认知 。
【多批数据箱线图分析 箱线图怎么分析数据】例如,在上图中,我们可以看到:
①奥地利、德国、西班牙的平均寿命会高一些 。但是,白俄罗斯、伯利兹和中国的平均预期寿命相对较低(中位数用于衡量总体平均情况) 。
②伯利兹和中国的预期寿命分布比较集中,因为盒子比较短 。然而,在奥地利和德国,预期寿命的分布是分散的 。
③从每个方框图的中位数和上下四位数的距离也可以看出,白俄罗斯和中国的预期寿命分布是比较对称的 。
...
可以看到,箱线图可以读出很多有用的数据,对我们做数据分析也很有帮助 。那么在了解了箱线图的实用性之后,应该如何在Stariver平台上配置箱线图呢?
首先,我们在Stariver平台的图表库中找到盒图,拖动到看板上 。在右边的字段设置中,我们可以看到有一个9字段可以配置 。是不是感觉特别抄袭?没有竞争 。其实这是两种配置方式,满足不同场景下的配置需求 。
比如在这组数据中,有最高温度、最低温度、空气体质量指数、空气体质量等级等记录 。每个城市在每个时间段的 。想找出某个城市某段时间的最高气温,用箱线图配置,应该怎么做?
先说第一种配置方式 。如果我们需要利用前端计算,我们需要配置X轴,Y轴,分组 。因此,我们只需要拖动相应的字段并进行相应的过滤,如下图所示:
1.将“城市”字段拖到X轴上,“最高温度”字段拖到Y轴上(并设置平均值),将“”日期字段拖到分组中(因为最高温度日期是聚合的,所以将日期拖到这里) 。
2.在“条件过滤”中,我们拖入“城市”,筛选出我们想要的城市 。比如我们选择了上海、北京、南京、台北、广州 。
同样,将“日期”拖动到过滤器中,用(a,b)设置上下限 。这里我们把上限设为“2020-01-31”,下限设为“2020-01-01” 。
通过以上设置,我们可以得到2020年1月上海、北京、南京、台北、广州最高气温的平均数据 。
做一个方框图只需要两步,不是很简单吗?
别担心,我们甚至有更简单的制作方法 。
如果你已经提前计算好了每个城市的最大值、最小值、上四分位数、下四分位数、中位数 。
然后直接拖动到相应的字段中进行绘图:
最后,在银河可视化平台上不仅可以配置箱线图,还可以配置其他数据统计的图表 。除了配置图,数字银河还具有强大的数据分析功能(数据过滤、统计和分析) 。当然,这些都是后话,我们会在后面的文章中解释 。
这是在Galaxy可视化平台上配置箱线图的两种方法 。你学会了吗?

    推荐阅读