Urchin 的报告数据存储在各个配置文件所独有的每月数据库中(注:Urchin分析后的数据是按月归档),这些数据库一般位于 Urchin 的 data/reports 目录下。每个配置经过处理的数据库大小为原日志大小的 5% 至 10%。默认情况下,Urchin 会保留每月的这些配置文件数据库,但经过长时间的数据积累数据量会变大,导致Urchin处理后的数据占用空间越来越大,并且在用户查看时也会降低Urchin的响应效率。因此,需要优化 Urchin 配置文件每月数据库的磁盘存储空间。

优化 Urchin 配置文件每月数据库的磁盘存储空间的方法通常有以下五种:

  1. 将配置文件设置为,在处理日志后自动删除原始跟踪数据
  2. 设置配置文件以存档历史记录数据
  3. 限制保留历史记录报告数据的月份数。
  4. 压缩配置文件数据库。
  5. 合理设置数据库自动备份。

方法 1:在处理日志后,删除原始跟踪数据

可对配置文件加以配置,以便在处理完成后删除原始访问者和会话信息。这可改善大型网站的性能,降低所存储的数据量。请注意:选择此配置后,跨日期的会话会显示为两个会话(一天一个会话),而不是一个会话。对大部分网站来说,结果中的差异可以忽略不计。

对配置文件加以配置,以便在处理完成后删除原始访问者和会话信息:

  1. 在管理界面中,点击”配置”,然后再点击”Urchin 配置文件”–>”配置文件”。
  2. 修改所需配置文件。
  3. 在”存储/数据库”标签中,将”保留原始跟踪数据”字段设为”关闭”。
  4. 点击”更新”。

方法 2:自动存档历史记录数据

可对配置文件加以配置,将每月历史记录数据压缩到存档文件中。报告可以查看存档的数据,但不会再为已存档的月份处理额外的点击。

对配置文件加以配置以存档历史记录数据:

  1. 在管理界面中,点击”配置”,然后再点击”Urchin 配置文件”–>”配置文件”。
  2. 修改所需配置文件。
  3. 在”存储/数据库”标签中,将”存档数据库”字段设为”打开”。
  4. 为”在此后存档数据库”字段指定月份数字(此选项指定数据保留多少个月后开始自动存档)。
  5. 点击”更新”。

方法 3:定期移除不用的配置文件数据

Urchin配置文件data/reports/profile-name”目录下的数据是可以移动的,因此对于不使用的数据信息定期移除移除即可。这是最简单直接的方法,建议通过自动脚本实现。

方法 4:压缩配置文件数据库

将旧的 Urchin 每月数据库压缩所产生存档的大小一般只有未压缩前数据库集的 20% 到 30% 左右。虽然 Urchin 报告引擎无法直接读取 ZIP 存档,但它可随时从 ZIP 存档中提取所需数据库。报告引擎不会删除已解压缩的数据库,这可提高用户查看 Urchin 报告时对数据的访问速度。不过,原始的 ZIP 存档会保留在原处,因此定期清除操作可直接删除解压缩后的数据库,以重新获取磁盘空间。

方法5:合理设置数据库自动备份

数据库备份和清除功能提供了对配置文件备份信息的设置:

  • 启用自动回滚数据库,如果处理过程中途停止或中断,数据可以自动得到修复。Urchin 会自动检测到这种情况并将数据回滚到最近的备份(如果有),然后再继续。
  • 清除备份,使用此选项可以根据需保留在下一选项中的备份的数量,自动清除以前的备份。如果启用此功能,Urchin 将自动删除以前的备份,以控制存储量。
  • 要保留的备份数,此选项可为上述清除功能指定每月保留的备份数量。

通常从优化服务器占用空间的角度考虑会关闭备份所有功能,但从配置文件运行安全角度考虑,可以启用备份功能。

Urchin 数据库存储技术概述

对于每个 Urchin 配置文件,Urchin 会在名为 YYYYMM(年月) 的目录下,维护每月存储的一组数据库文件。这些目录分别包含约 50 个为报告引擎提供数据的文件。这些目录和数据库文件以其存储数据的月份来命名。完整的数据库列表是:

  • YYYYMM-uhed –> 数据库标头
  • YYYYMM-usti –> 字符串索引
  • YYYYMM-ustd –> 字符串数据
  • YYYYMM-udai –> 汇总表索引
  • YYYYMM-udXX –> 汇总数据表(XX 由数据地图的表编号替换)。
  • YYYYMM-uvii –> 访问者索引
  • YYYYMM-uvid –> 访问者数据
  • YYYYMM-used –> 会话数据
  • YYYYMM-upad –> 路径数据
  • YYYYMM-utrd –> 交易数据 (Ecommerce)
  • YYYYMM-uitd –> 项目数据 (Ecommerce)
  • YYYYMM-ulti –> 日志跟踪索引
  • YYYYMM-ultd –> 日志跟踪数据
  • YYYYMM-utod –> 总计数据
  • YYYYMM-uhid –> 柱状图数据
  • YYYYMM-umad –> 访问者矩阵数据

每一组数据库对于所包含数据的月份来说都是完整的。因为每月的数据库集之间并无相关性,因此可对每个数据库集独立进行存档和修剪操作,其他月份的数据不会受到影响。

正常操作下会保留每个月的整套月份数据库文件。不过,Urchin 日志处理引擎只会使用这些数据库文件的 4 个文件。这些数据库文件是:

  • YYYYMM-usti
  • YYYYMM-udai
  • YYYYMM-ulti
  • YYYYMM-ultd

Urchin 日志处理引擎会使用下列数据库文件处理跨群体和访问者深入查看报告。删除这些内容仅会影响到这些报告功能。

  • YYYYMM-uvii
  • YYYYMM-uvid
  • YYYYMM-used
  • YYYYMM-upad
  • YYYYMM-utrd
  • YYYYMM-uitd

这些数据库包含有关访问者、会话、路径、交易和产品的信息。这些文件会使用当月所需总存储空间的某个百分比,大约 10% 到 50% 左右。因此,如果将”配置文件配置”的”存储/数据库”屏幕的”保留原始跟踪数据”选项设为关闭的话,即可赢得较大的磁盘空间。

建议只有访问量极高、保留原始跟踪数据会造成磁盘或 CPU 资源消耗问题的网站,才停用”保留原始跟踪数据”选项。



除非注明,本博客文章均为 数据研究与商业应用(TonySong) 原创.
转载请注明本文地址: http://www.searchmarketingart.com/reduce-urchin-database-disk-storage-space.html