上半部分的文章,主要介绍了Superset在macOS docker下的安装以及Superset的一些功能介绍,我写这篇文章的目的,无非是记录了如何去实现图形化的学习过程,期间对superset的摸索,希望给大家介绍。 文章中有所不足,因为并没有连接实时数据库等,当然Superset本身是支持的,我也还在摸索当中,看看是否能够对接一些数据接口,现在只是先把自己所了解基本操作分享出来。 根据之前的目录,我们剩下的是关于此次疫情作为案例的一个分析。如果需要了解上半部分的,请跳转至mac 篇三:自建Superset数据可视化平台并创建疫情地图网站(上)
传了一晚上视频,终于在b站审核通过了。大家先看一下视频吧。 案例-新冠肺炎可视化分析设置(以下部分图片因为markdown转化失败所以从张大妈上传,预览看起来压缩比较厉害,不过都有文字说明了) 本来我其实是想把数据清理,可视化,以及生成Dashboard分开来讲,最终再拿疫情数据来分析的。但写着写着,觉得还是,边拿数据做分析,边讲过程会更加让人易懂。 数据清理当我们拿到一份数据的时候,往往我们并不知道自己到底要展现什么东西。特别是当我们拿到的是原始数据,其中可能包含了各种各样的字段。这些字段是否有用,需要看我们到底想要在可视化中看到哪些内容。 数据分析的最大方向是需求的驱动,举个简单的例子,如果说,给你一份公司报销清单的原始数据
我们在获得一份数据,进行整理是需要考虑清楚一下内容:
接下来,我们就去获取一下信息样本的数据。 我用来做疫情地图的数据源于github一个爬虫项目,他会定去去抓去丁香医生的疫情数据信息。链接在此 现有可以下载到的数据已经非常好了。可以看到数据分成了3个纬度,国家,省,城市,并且提供了相应的城市及国家代码。以及每天的合计疑似,死亡,治愈人数。 相比我之前拿到手的抓取数据,每天不定时抓取,一天抓取太多,导致我只能手动删除,只保留每天各省份只留一条数据。 这份数据是否能够直接在superset的地图中直接使用呢?回答是不能,因为superset的地图并没有使用中国国家统计局代码, 所以我们需要添加一个字段。这个字段是ISO3316标准下的中国省份代码。
通过vlookup,我们可以将这部分信息插入现有的疫情数据当中。 修改完成后的数据字段就是这样的。
接下来将表格导出为utf-csv,就可以准备导入superset了。 Sources-Upload a CSV
当上传完成后,准备工作还没有结束,因为csv的上传,导致了大部分的字段(数据)并没有被定义为准确的类型,superset不知道哪个是数据,哪个是时间,又有哪条数据可以被分类。所以我们需要整理这些数据的类型。 看到红框中的红框了么,点击这支小笔。 修改这张表的各项属性。 每张表分为3个tab
至此,数据清晰,和相关整理工作已经好了。接下来我们就可以进入到数据分析环节了。 基本使用-可视化可视化,其实就是通过现有的数据,去创造一个Chart。 Sources-Tables,选择我们刚刚上传的ConV,我们就进入了可以创建图表的界面了。 当我们进入表的时候,是一个默认未经过数据筛选的空白界面,实际上是一个count计算,直接计算了总计的字段。 先通过下图解释一下相关的选择。 接下来,我们就考虑一下,我们需要用哪一种方式来展示数据了,第一考虑的点。我觉得可能是疫情地图时图模式。 那么我们就开始建立第一个视图模式 地图视图
我们来讲一下country map视图中需要进行设置的参数,先看一下图: 这张图看起来是不是没啥意思,那是因为我们的数据中并没有每日增长的人数(当然你可以手动添加数据,通过当日数据减去昨日数据,得出每日增长数据)。所有的数据全是合计数据,所以这张图上的湖北是整个疫情期间确诊的合集数值67,710人。 我们先讲一下得出这张地图的设置:
实际上的动态效果如何呢?我录了一个gif给大家看一下。 接下来,线保存这个视图。保存方式很简单,点击save即可,记得命名。我们可以先不将它添加到dashboard,之后操作。
然后我们依然按照这个模式建设全球疫情地图。 world map的关键设置指标
world map因为屏幕问题,显示上有点挫,未能全部显示,但是还是看的到,虽然美国地图出现了问题,但还是可以看到数据的,445名感染者。(cca的地图在国际标号上好像有一个很大的问题,如果作为公开展示来使用的,我建议大家注意地图中存在缺失情况,所以这里不放图了。) 疫情地图视图基本上内容就到这,你可以通过对原始数据的加减计算,分组组合等方式,做出每日增长地图等等的地图。 但疫情地图虽然看起来清晰,并不能反映太多的信息。 接下来,我们来讲一下多维度时间线地图。 多维度时间线地图如果说,要看趋势情况,最适合的其实是时间折线,其实这个东西用excel也能做,不过相对来说,superset实现的视图效果更好。 先看一下效果图: 时间折线的具体参数如下来,我们先来描述一下我们需要的图查看从12月1日到3月7日之间,全球范围内各个国家大于50的确证人数,为什么要设置大于50,因为如果不做限制,那这张根本没法看,动态数据条根本看不全。根据这句话,我们对时间参数做了以下设置:
现在,你可以根据这个情况,画出国内的时间折线图了,注意计算省份的时候,filter掉重复计算的值。 Sunbrust这个可能是我最喜欢的可视化形势了,因为他可以帮助你从大的层面上发现问题,然后逐层深入。 我们暂且叫它日环吧。还是一样,先用一句话总结我们想到什么东西我想从一张图里面看到现在国内所有的患者总数,各省份的患者总数和占比,以及各个城市的情况 就是这样, 我们解释一下配置参数吧。
实际效果如下:
Force-directed展示这个图的作用其实是互相关联数据,效果如下,我本来考虑的是,全球数据-分支各国数据-再分支各国各省份数据-各省份下的城市数据。 但是我发现数据量太大,看起来就是密密麻麻的线,不太适合我这台小thinkpad 430黑苹果。所以,就两层,国家-省份。 参数设置
superset预制了大量的视图模式,在这里就不会一个个讲完,其他的视图模式,可以自己尝试。接下来就改进入到最后的内容了,dashboard。 DASHBOARD正如我之前说的,BI的精髓就是dashboard了,我们之前做了很多charts层级的东西,那么接下来,我们需要将刚刚创建的chart组合起来。 进入charts选项,任意打开一个刚刚创建的charts,选择保存到一个新的dashboard。 通过将所有的内容合并到dashboard中,我们就可以得到以下的一个总览视图。 Dashboard可以做的事(可以说dashboard就是用最简单的办法创建一个网站)
最终成型的样子大概如下:
|
香港服务器多少钱一个月?哪家的香港服务器
4核4g6M50G盘20G防御云服务器价格多少钱?T
特发集团与华为签署全面合作协议
【身边的AI】高空抛物智能追溯解决方案,站
中海&华为签署战略深化合作协议
华为赵博:数字化转型成为地产企业最确定的
这款TCL K6V指纹锁不到千元即可买到?大品
凯迪仕指纹锁哪款好用?买凯迪仕指纹锁选哪