网站数据是企业数据的重要组成部分,在大型企业中,数据通常以关系型数据仓库进行存储。当然,部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变,但这仍只是少数。大部分公司仍然是关系型数据仓库(RDB)居于主流。接下来的三篇文章会介绍三种基于Cookie点击流数据仓库构建思路。本篇是第二篇,基于开源的Piwik底层数据的数据仓库作为原型。

Piwik的底层数据表包括piwik_log_visit、piwik_log_conversion、piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action共6个基础表,当然除了这些表以外还有归档表、系统运维表等。

Piwik底层仓库以piwik_log_visit和piwik_log_conversion为事实核心,以piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action为纬度表形成的。

下面是对各个表的基本介绍

  1. piwik_log_visit是网站中的行为数据,每次触发Server Call(简单的理解为页面请求)都会触发一条记录。
  2. piwik_log_conversion是网站中的转化数据(转化包括电子商务转化和目标转化)。
  3. piwik_log_conversion_item是对电子商务转化数据的拓展,包含商品分类、SKU、价格、数量等记录。
  4. piwik_log_link_visit_action是对访问用户的信息拓展,包括自定义变量、服务器请求时间、各种来源页面的ID等。
  5. piwik_goal是对转化目标的拓展,包括匹配类型、目标名称、是否大小写敏感、价值等变量。
  6. piwik_log_action是对页面内容的扩展,每个页面在该表中都对应一条记录,包含页面ID、名称、哈希值、类型等变量。

Piwik数据仓库的模型如下:

这种模型的好处是把一张大表进行查词拆分,并以访问和转化为拆分依据,形成两个事实核心的数据仓库。当然,piwik的数据仓库还是比较简单,由于该工具本身的功能性一般,没有特别多的特色功能,因此也没有很多纬度。不过它的优势在于本地化安装和数据处理,且部署简单,加上其开源性可以节省网站系统费用,底层的数据已经经过一轮清洗,开发难度小,比较容易在初创型公司使用。当然,由于是开源的,该工具没有很好的服务支持,专业并且了解底层的网站分析师是必须的。

我相信,它的基本功能已经可以满足大多数企业的日常需求,很多商用网站分析工具比它好的地方也不过是服务支持较好(看国内服务商情况)、正负向路径的无限扩展(Piwik本身有路径,虽然还不是很强大)、强大的自定义功能(虽然没有太多变量,但piwik的5个自定义群体和虚拟事件基本上可以满足一般需求)、实时数据(Piwik是本地化的,实时性根据系统硬件和定时JOB完成)。因此其开源性、结构化数据、本地化是比较吸引我的地方,我知道有的公司已经基于piwik在做数据仓库开发和上层报表的应用,中小企业百万级的流量处理能力还是没有问题的。



除非注明,本博客文章均为 数据研究与商业应用(TonySong) 原创.
转载请注明本文地址: http://www.searchmarketingart.com/cookie-based-click-stream-data-warehouse-2.html