现在的大多数网站分析工具在处理点击流数据时,往往用的是统计学中的基础数据处理和分析方法,比如抽样、汇总、趋势、对比、平均等基本数据统计分析方法,很少有工具会用一些数据挖掘的算法。今天介绍Adobe Analytics中借助统计学实现的一个异常检测功能。

听到异常检测,我们大概可以知道通常做数据异常检测使用的方法:基本方法就是做对比,通过把某个数据与设定好的条件值(或值范围)进行比对,如果变化比例大或者超过某个范围,那么就被认为是异常数据。Adobe Analytics也是应用类似的方法。

Adobe Analytics的异常检测功能是什么?

异常检测是在报表和分析功能,可让您从“噪音”分开“真正的信号”,然后确定导致这些信号或异常现象的潜在因素。换句话说,它可以让你识别统计涨落重要,哪些没有。然后,您可以找出一个真正异常的根本原因。此外,你可以得到可靠的指标( KPI)的预测。通常用的比较多的场景:

  • 急剧下降的平均订单价值和订单量
  • 注册或登录的异常变化
  • 某个登陆页面浏览量趋势
  • 网站跳出率情况是否正常波动
(图片可点击查看大图)
如上图,是某网站针对跳出率的一个异常检测报告,结果显示,截至到12月9日的最近60天(时间可以自定义)内,
共有1天的数据出现异常,异常时间发生在11月12日,异常原因是跳出率高于预测区间的上限。
Adobe Analytics的异常检测报告包括哪些部分?

异常检测报告整体包括三大功能模块:数据训练集时间、数据查看集时间、数据报告区域。

  1. 数据训练集时间:数据训练集,即要进行计算和处理的样本数据的时间范围,数据截止时间在右上角配置。(默认截止到昨天)数据训练集的时间可选项为30天、60天、90天。
  2. 数据查看集时间:与数据训练集时间选项相同,不同点在于数据直接用来验证训练集的结果。
  3. 数据报告区域:异常检测报告区域共分上下两部分。
  • 上面一部分是异常点百分比表,用来显示异常点和距离预测值的百分比。异常点分两类:高于预测值的点显示未绿色,地域预测值的点显示未蓝色,异常点离预测值越远,颜色越深。距离预测值的百分比计算方法为:( (实际值 – 上界值) / (上界值 – 预测值) ) * 100
  • 下面一部分是每日所选指标的走势报表,报表中用灰色的区域表示预测值的上限和下限,用虚线表示预测值,用实现表示实际值。通过该图可以看到该网站每天的跳出率基本符合预期值。(除了11.12)。

要配置异常检测报告非常简单,只需要点击右上角Edit Metric按钮即可进入配置界面,选择相应量度,保存即可。

Adobe Analytics的异常检测背后的算法逻辑是什么?
异常检测的基本原理在文章开头就可以说了,Adobe Analytics本质上使用的是时间序列的预测方法,这三种算法分别是:
· Holt Winters Multiplicative (Triple Exponential Smoothing)——霍尔特温特斯乘法(三重指数平滑法)
· Holt Winters Additive (Triple Exponential Smoothing)——霍尔特温特斯加法(三重指数平滑法)
· Holts Trend Corrected (Double Exponential Smoothing)——Holts趋势校正(双指数平滑法)

这三种算法实际上共同组成了温特斯季节指数平滑模型,其基本思想是把具体线性趋势、季节变动和随机变动的时间序列进行分解研究,并与指数平滑法相结合,分别对长期趋势(Ut)、趋势的增量(bt)和季节变动(Ft)作出估计,与指数平滑法结合起来的预测方法,可以同时处理趋势和季节性变化,并能将随机波动的影响适当地过滤掉,然后建立预测模型,因此,特别适用于包含趋势和季节变化的时间序列的预测问题。

Adobe Analytics的异常检测的应用场景在哪?
  • 异常检测可以针对所有指标,包括默认指标和自定义指标;可使用的维度包括全站级别的维度以及自定义维度。
  • 默认的进入后台设置后就是针对全站进行的异常检测配置,而要进行自定义维度的配置,需要点击配置中的,Add Filter Metric,如下图是针对BD模块进行的UV预警

Adobe Analytics的异常检测有哪些不足?

Adobe终于在前端分析工具中加入了统计学的方法,(除此之外的Webtrekk的路径和页面关联算法也指的称赞),但整体来看还是属于应用的初期,可用点比较小:

  1. 异常检测的Ending时间只能到昨日,数据查看集的时间跟Ending时间相同,这样会导致我们最多只能看到昨天的效。但在实际在业务应用中,预警或预测类的更多的应用场景更多是类似于,“我们现在需要预测出明天的数据是多少”、“然后今天的数据是正常范围吗?”,而Adobe Analytics提供的结果却是,“我告诉你昨天之前的数据怎样”,按照这种工程师的思维,即使你告诉我昨天的数据异常了,也只能“亡羊补牢,为时已晚”了。及时提供预警信息,立即采取行动才是预警的本质意义,预测一个过去发生的事情的意义很小,毕竟它不是一个提供深入洞察的功能。
  2. 异常检测的报告只能通过SC获取,以我们现在的应用实际来看,打开真的很慢~~如果能提供类似于邮件触发、短信或其他类型的触发提示,效果必然提升很多。


除非注明,本博客文章均为 数据研究与商业应用(TonySong) 原创.
转载请注明本文地址: http://www.searchmarketingart.com/adobe-analytics-anomaly-detection.html