日志设置是Urchin系统运行的基础部分,直接决定了底层数据源和数据容量。日志设置包含三个部分:①设置日志源位置,②设置日志源文件路径,③设置日志格式。

一、设置日志源位置

日志源位置包括本地和远程两个选项。注意:本地和远程是相对于Urchin系统与Urchin分析用的日志位置决定的,Urchin系统与日志源处于同一台服务器,那就属于本地;如果是两台服务器,那就属于远程。

二、设置日志源路径

日志源路径,即服务器上日志存放的位置,日志路径中可以用通配符与日期替代(通常情况下都需要用通配符代替)。Urchin 能让您在日志文件路径中指定通配符与日期匹配变量。执行 Urchin 任务并读取日志路径时,会对这些变量进行转换,并与您系统中的目录和文件名比较匹配情况。

* 星号匹配 0 个或多个连续字符

注意:

  • 此环境中星号的工作方式类似于 UNIX 或 DOS 中命令 Shell 的文件名匹配方式,不同于正则表达式的匹配方式:此字符是与前导字符的 0 个或多个实例相匹配。用户能够随意合并这些变量。
  • 星号则只能用于日志文件路径的文件名部分。
  • 星号只能使用一次(Urchin6只能用一次,Urchin7可以多次)。

举个例子,比如日志路径E:\log\下面,那这部分是固定的,假设Log包的命名方式是:YYMMDD.access.log.gz(如120812.access.log.gz代表12年8月12日)。日志过滤规则会根据我们日志安排的不同而异:

  • 假如所有日志都在这个文件夹里,那我们可以直接用*.access.log.gz过滤;
  • 假如我们只需要过滤8月份日志,那过滤字段为12*.access.log.gz;
  • 假如我们只需要过滤每个月12号日志,那过滤字段为12*12.access.log.gz;

三、设置Log日志格式

Log日志格式根据Urchin系统设置时的格式选定。

日志源对Urchin设置非常重要,通常情况下,全站日志源会应用到全站其他所有配置文件,因此日志源设置后,尽量不要更改日志源路径及做日志源命名规则,以免对其他配置文件造成影响。

 

另外:日志文件大小有限制吗?

Urchin 的日志处理引擎可以处理大于 2GB 的网络服务器日志;因为 Urchin 是利用 zlib 库解压缩文件,无论是用 bzip (.bz2)、gzip (.gz) 还是 zip (.zip) 压缩的文件都可以处理。

不过,Urchin 的日志处理引擎是使用 util 目录中的 zip/unzip 二进制程序来创建各配置文件报告数据的备份与存档。如果某月的报告数据大到文件压缩后仍超过 2GB,Urchin 就无法创建备份或存档;而且除非停用自动备份与存档功能,否则日志处理也会失败。这种情况下,需要利用其他外部实用程序手动备份文件。



除非注明,本博客文章均为 数据研究与商业应用(TonySong) 原创.
转载请注明本文地址: http://www.searchmarketingart.com/wildcard-and-date-substitution-in-log-path.html