新书《网站数据挖掘与分析:系统方法与商业实践》出版了

新书《网站数据挖掘与分析:系统方法与商业实践》出版了

或许有的朋友已经看到我在朋友圈或者微信的分享了,没错,我的新书《网站数据挖掘与分析:系统方法与商业实践》终于出版了,想写点什么,作为过去这些年数据工作的总结,同时也希望为正在奋斗的数据工作者提供些借鉴。 首先谈谈这本书的定位。 这不是一本工具说,也不是一本纯技术书籍(虽然里面确实有些代码部署和相对专业数据工具的操作),这本书的重点是围绕企业应用实际,规划出工作框架,然后分解到各个支持和决策环节,最 […]
网站文章
Adobe Analytics和Webtrekk数字分析解决方案剖析和对比(上)

Adobe Analytics和Webtrekk数字分析解决方案剖析和对比(上)

Adobe Analytics和Webtrekk都是数据分析领域的巨擘,一个是美国市场第一,一个欧洲市场第一,都能提供世界一流的数字分析解决方案。我很有幸能有机会深入了解并应用这两种解决方案,同时也深感数字分析领域的发展永远不缺概念,缺的是应用场景和价值提炼。本文将对这两种解决方案做深入剖析和对比。由于文章实在太长,我分为两部分,此文为上篇。
常见的“数据说谎”的3类形态

常见的“数据说谎”的3类形态

日常生活工作中,处处都会与数据打交道,但你知道数据是会“说谎”的,即你看到的数据结果并不是事实。本文介绍一些常见的说谎场景以及如何避免。
数据发挥价值的10个关键点

数据发挥价值的10个关键点

以下是上次跟胡力一起做活动时演讲的一个PPT,现分享出来,无论形式还是内容框架上,希望能给大家一些启发。TonySong宋天龙
点击流数据中非结构化数据的挖掘(一)——文本

点击流数据中非结构化数据的挖掘(一)——文本

非结构化数据是大数据数据多样化的的一个特点,而点击流中的数据是多样化数据的一部分。依托强大的网站分析工具,可以得到最细粒度的原始数据(Raw Data),如果这些原始数据仅仅用来看看报表,那意义太小。非结构化化数据包括文本、视频、文档、音频、甚至地理位置信息等等,本篇介绍的是点击流中的非结构化数据的文本挖掘应用——当然,核心还是如何更好的应用这些非结构化数据。
统计学在点击流数据中的应用范例——Adobe Analytics异常检测

统计学在点击流数据中的应用范例——Adobe Analytics异常检测

现在的大多数网站分析工具在处理点击流数据时,往往用的是统计学中的基础数据处理和分析方法,比如抽样、汇总、趋势、对比、平均等基本数据统计分析方法,很少有工具会用一些数据挖掘的算法。今天介绍Adobe Analytics中借助统计学实现的一个异常检测功能。
Webtrekk——一款值得关注的商用网站分析工具

Webtrekk——一款值得关注的商用网站分析工具

了解Webtrekk这款产品,是通过之前的合作伙伴;但真正认识这款产品,则是通过公司前段时间的招标。最近由于工作的需要,深入研究了下Webtrekk,发现这款工具绝非是我在之前发布文章中的这么简单(文章具体见 网站分析工具Webtrekk快速预览),因为在功能上、用户体验上、代码部署便捷性、与外部数据大打通它都是很多可圈可点地方。
数据杂想——数据不是万能的

数据杂想——数据不是万能的

一切大数据时代的畅想让我们觉得:通过数据,我们可以总结规律,挖掘价值,甚至为业务指明方向,我们可以为公司的老板、决策者、执行者所用,我们是他们非常重要的部分甚至是最重要的部分。但一切美好的畅想过后,我们发现数据不是万能的。一切认为数据是万能的想法和认为数据什么也不能的想法同样的无知。
如何定位并真正发挥数据的价值?

如何定位并真正发挥数据的价值?

数据的传统角色是幕后支持,但互联网时代给了数据现在前台第一线的机会,现在的站内推荐,个性化落地页,站外智能投放只是一个缩影,此时这些业务直接由数据智慧主导,效果如何立竿见影。我相信数据会在更多场景下从幕后走到前台,辅助支持是其次,主导驱动才是关键!
关于公司总分数据体系的架构思考

关于公司总分数据体系的架构思考

经常会有关于数据架构的讨论:数据部门应该独立还是下放到业务中心?最近经过一段时间的架构调整,加上之前经历的一些业务测试,现在把总结的关于数据应该集中还是下放的基本情况分享下。 我们的数据架构经历过从分散到业务中心到数据集中在数据中心但业务对接业务中心,最后是形成数据中心总体把控,数据人员直接下放到业务中心的转变。 关于这三种模式,相信大家都有所了解,但到底哪种模式更适合企业?
网站分析师如何成长

网站分析师如何成长

经常回有朋友问我,我到底是怎么接触网站这个领域的,我在这个领域是怎样学习和成长的,今天总结下我对于网站分析的一隅之见,算不上深度,顶多是经验之谈。
基于COOKIE的点击流数据仓库构建思路(三)

基于COOKIE的点击流数据仓库构建思路(三)

网站数据是企业数据的重要组成部分,在大型企业中,数据通常以关系型数据仓库进行存储。当然,部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变,但这仍只是少数。大部分公司仍然是关系型数据仓库(RDB)居于主流。接下来的三篇文章会介绍三种基于Cookie的点击流数据仓库构建思路。本篇是第三篇,基于Webtrekk、Webtrends底层数据的数据仓库作为原型。
基于COOKIE的点击流数据仓库构建思路(二)

基于COOKIE的点击流数据仓库构建思路(二)

网站数据是企业数据的重要组成部分,在大型企业中,数据通常以关系型数据仓库进行存储。当然,部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变,但这仍只是少数。大部分公司仍然是关系型数据仓库(RDB)居于主流。接下来的三篇文章会介绍三种基于Cookie的点击流数据仓库构建思路。本篇是第一篇,基于开源的Piwik底层数据的数据仓库作为原型。