数据分析与知识发现
    主页 > 综合新闻 >

思考:数据分析与数据后台设计

编辑导语:数据分析是推进业务项目正常进行的必要步骤之一,其中,包含了监控、观察、分析等步骤。那么在这些步骤中,有哪些方面是需要注意的?相应的,数据后台设计又应该如何操作?本篇文章里,作者就数据分析与数据后台设计思路做了梳理和阐述,一起来看一下。

许多年以后,面对诸多的数字时,我一定会想起老师教我假设检验的那个遥远的夏天。

模仿《百年孤独》回忆了一下大学学习试验统计设计课程,彼时的我对于统计学、试验设计等枯燥的课程满不在意,草草学习混完学分,以致于在本科毕业做毕业设计时又不得不恶补做实验、监控数据、观察分析,分析数据的知识,撰写完论文感叹总算脱离了苦海。

但是人生总是有很多“宿命”一般的轮回,当我毕业以后以为脱离了苦海,不用再和枯燥的数字和统计学打交道,然而工作后的数字依然是我离不开的东西。当开发人员每每质疑我,让我拿出数据以及分析结论来证明我的观点以及需求可靠性时,我就和《百年孤独》里的奥雷利亚诺上校一样陷入回忆怀疑过去的选择。

记得做毕业设计实验时,每次紧紧地盯着实验数据,生怕数据波动实验出现异常。实验结束后整理收集好的数据,每过一段时间就要对着一长串跨日的数据想有没有问题,最后靠着人工整理成的Excel“数据后台”再进行深入分析整理,我至今都还记得使用假设检验流程,其中用正交试验方法论证了结论的显著性。勉强完成了一篇看似科学的论文,就这么糊涂的毕业了。

而几年后工作受挫的某一天,想起曾经也这么“专业”地做过数据分析,为什么现在反倒面对数据只能望数生叹了。

于是我想着通过我写毕业论文的这个小故事,分享一些关于数据分析以及设计数据后台的思路,不谈具体的方法,从思考方向上分享一些经验,帮助诸君找到解决问题的思路与方向带来启发。

首先谈谈数据分析的方向。

我将数据分析按照执行顺序分为监控、观察以及分析三个部分,可以理解为监控数据是观察数据的基础,观察数据是分析数据的来源,分析数据是一次数据分析行为的结果。那么就让我们从监控数据开始。

一、监控

平时我们经常说看数据,其实看数据就是监控数据了。监控数据还没有到观察或者分析数据过程,监控的目的在于发现当前的实验或者产品发展是否存在问题或者观察效果。监控数据最大的意义在于及时发现问题以及及时调整,避免问题的产生。

之所以说监控是数据分析最初的过程,是因为数据分析的目的在于解决问题,而当前并没有明确的问题目标需要解决的时候,监控便是最经常进行的一个数据管理环节,此时监控更加偏重于解决隐患。

以上的概念比较枯燥与抽象,不妨看看以下两个例子来感受一下监控的意义。

游戏是目前我们经常接触的产品了,作为游戏的开发者而言,监控同时在线人数,可以帮助开发者及时了解游戏的运行情况以及评估当前服务器等资源的压力情况。

监控同时在线人数,需要细粒度的时间,快速响应的数据计算以便帮助分析者高效且直观地了解游戏同时在线玩家的人数,并做好应对措施。

SLB(负载均衡)是网络服务中常见的功能,对于运维或者服务端开发工程师而言,监控SLB是保证自身服务正常的必须步骤。

与上一例中游戏同时在线人数监控一样,SLB的监控需要极细的时间力度,且非常快速的数据计算,以便运维及服务端工程师及时的了解当前情况,避免服务产生异常。

监控数据是整个数据分析环节的基础,所有的想法均来源于每一次监控获取的信息。对于监控数据,需要达到以下几个要求方能保证监控的质量与效率:

  1. 数据计算要高时效性;
  2. 数据时间粒度小;
  3. 数据指标精简,核心;
  4. 以可视化图表体现。

前两点在举例过程中已有说明,细粒度的时间与快速的计算相应可以及时及客观的响应。由于监控是一个高频的行为,我们不可能针对实验或者产品运行中的每个关注指标都进行监控,所以监控数据时,根据目的必须挑选最为核心、重要的指标监控。

为了保证监控的效率,像我毕业设计时一样依靠人工记录数据的方式十分低效,因为单纯的数字很难直观地反应出数据的变化,因此好的可视化图表可以非常有效地帮助分析者发现问题或者评估效果。