最近在搞APACHE日志分析,装好了awstats之后,这两天进行了观察,
报表日期 月 1 月 2010
首次参观日期 2010年01月12日 11:04
最近参观日期 2010年01月13日 23:59
参观者 参观人次 网页数 文件数 字节
浏览器流量 * 77 226 (2.93 参观人次/参观者) 508979 (2252.11 网页数/参观) 509492 (2254.38 文件数/参观) 13.67 G字节 (63430.28 K字节/参观)
非浏览器流量 * 117312 122716 736.24 M字节
这边的结果很让人费解,通过google统计网站的独立IP访问量有2W做,这里显示的数字相差甚远。 后面的网页数和文件数又都与实际相吻合。 经过查找原因发现 apache日志里记录的IP地址不正确,大部分都是cdn的节点地址。 产生的原因很显然是因为CDN造成的,之前在网站后台程序里读取用户IP地址也出现了类似问题。 可以使用print_r($_SERVER) (PHP语言),查找到真实的用户IP地址,本站为 $_SERVER[‘HTTP_CDN-SRC-IP']. 这个是CDN携带的真实的客户IP地址(这里不计较用户是否使用代理)。 但在APACHE的日志记录里如何使用这个值呢? 本人在GOOGLE和百度里查找了许久都没有找到相应的资料或者说解决方案,只好自己思考寻求了。
仔细看了下APACHE里日志记录的相关配置,针对LogFormat:
LogFormat "%h %l %u %t /"%r/" %>s %b /"%{Referer}i/" /"%{User-Agent}i/"" combined
我思索里面的%{Referer}和%{User-Agent} 是如何取得的, 这两个是在程序里也是经常会用到的东西,客户端发送请求的时候 这两个信息都是作为头详细发送到服务器的。后来查看了下访问时的所有头信息,如下:
代码如下:
Array
(
[Cdn-Src-Ip] => 222.44.46.58
[Accept] => image/gif, image/jpeg, image/pjpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*
[Accept-Language] => zh-cn
[User-Agent] => Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727)
[Host] => www.875.cn
[Cookie] => __utma=217127135.1188793388.1263188369.1263364666.1263368206.5; __utmz=217127135.1263368206.5.2.utmcsr=211.167.92.250|utmccn=(referral)|utmcmd=referral|utmcct=/cgi-bin/awstats/awstats.pl; viewedShopsID=621; viewedShopsPP=%u6B27%u5C1A%u574A
[Accept-Encoding] => gzip
[Via] => 1.1 hnay40:80 (Cdn Cache Server V2.0)
[Connection] => keep-alive
)
当然rerfer的时候也会有rerfer信息出现在头部信息里,上面也有Cookie、Host、User-Agent等信息,这些信息都是可以在apache配置文件里可以使用的变量,当然这里Cdn-Src-Ip正是我想要的客户的真实IP地址。 于是推测${Cdn-Src-Ip}在日志记录格式里应该也是可以使用的。 后面的i应该是指忽略大小写的意思。于是得出一个解决方案:
新闻热点
疑难解答