一 db ,file i/o应用层面速度的比较
关于数据库的i/o操作,将很早以前看过的摘录也整理下:
1. 对于i/o操作,大部分是在和buffer打交道,注意这个buffer是数据库控制的buffer,而不是操作系统的page buffer,真正的物理io,是要对读入数据进行 合理化的预先组织,即 预先读,排队,分块写,小数据量写入。
2.对于物理i/o动作,db可以通过raw/cooked设备来实现,在raw设备上操作的话,db自己管理设备以及数据在raw设备上的存储细节,也就是说db对于实际的物理存储是了解的,比如说,有2块device,上面各自分别有2个raw devices,那么db可以用2个theread在2个device上面同时动作,对于同一device上面的logical volum, db对数据的预先安排可以大大提高io性能.而文件系统上的io由于有double-buffer,所以数据库所有对io的优化基本上没作用(因为db的buffer通常比os的io buffer大的多,当db buffer对应的os buffer映射失败的时候,io就要通过物理io来完成了,并且db并不知道实际的io操作在物理设备上的实现细节(比如文件系统在物理设备上的位置))。
3.所有物理的io动作最后还是对应到了r/w操作,只不过在raw方式下的r/w是对设备直接操作的,不需要借助于文件系统实现.
4. 对于写操作,数据库与文件相比,不占任何优势(都是立即写磁盘)。唯一就是写入的数据在buffer里面可控的。
即使是一般的文件读写,一般的io操作,因为有page buffer,读写,SEEK,再读写,仍然比数据库快的多。但是这个在多次读的情况下,就不一定了,数据库的buffer操作,比page buffer快许多。
其实总体看来,数据库的强大在于cache的充分运用,和其无敌的查询功能。其优势是体现的大量数据的查询、统计以及并发读写,不是在速度上。
那么在不需要关系运算,不需要海量操作,或者不需要立即查询数据的情况下,用文件来代替数据库进行数据记录,会是一个很好的选择。
二 动机
之前做过一个数据统计的处理,因为数据量比较大,不可能对每条及时数据进行入库处理。原因主要是两个,一个是立即写入数据库的速度慢,影响及时统计的效率;另一个是,数据的后期分析,从数据库顺序读取数据也要比文件系统的顺序读取慢很多。在数据量大的情况下,不能满足在有限时间内的数据整理工作。
基于以上原因,就开始考虑及时数据的缓存处理。缓存处理分两层,一个是memcache层,一个是文件系统层。即先将当前到来的数据,记录在memcache中,在memcache数据队列长度达到一定限度时,就将memcache的缓存数据转移到文件进行存储。
三 代码
很早之前写的代码,先抄在下面:
[php]
<?php
/**
*=------------------------------------------------------------------------=
* InstantRecorder.php
*=------------------------------------------------------------------------=
*
*
* Copyright(c) 2008 by guigui. All rights reserved.
* @author guigui <evan_gui@163.com>
* @version $Id: InstantRecorder.php, v 1.0 2008/4/21 $
* @package systen
* @link http://www.guigui8.com/index.php/archives/108.html
*
* history:
* 1. add this file. (by 桂桂 on 2008/4/21)
*/
define('INSTANT_DATA_SEP', '|g|'); //及时存储的数据 字段间的分隔符
define('MAX_MEM_QUEUE_LENGTH', 1000); //memcached中允许存在记录条数的最大值
/**
*=--------------------------------------------------------------------=
* class InstantRecorder
*=--------------------------------------------------------------------=
*
* 及时数据记录类 的 工场类
*
*/
class InstantRecorder
{
/**
* 获取及时数据记录的对象实例
*
* @param string $mode
* @param string $dir - 最终存储文件时,数据文件被存储的目录路径
* @param string $dataFileSurfix - 最终存储文件时,数据文件名的后缀
* @return InstantMemcachedRecorder or InstantFileRecorder object
*/
static public function getRecorder($mode, $dir = '', $dataFileSurfix = '') {
switch (trim($mode)) {
case 'mem':
return new InstantMemcachedRecorder($dir, $dataFileSurfix);
break;
case 'file':
return new InstantFileRecorder($dir, $dataFileSurfix);
break;
default:
return new InstantFileRecorder($dir, $dataFileSurfix);
}// end of switch
}//end of function
}//end of class
/**
*=--------------------------------------------------------------------=
* class InstantMemcachedRecorder
*=--------------------------------------------------------------------=
*
* 用memcache记录及时数据的处理类
*
* 注:memcache记录的数据,最终要被写到文件中去;
* 写入时机根据memcache设置的缓存队列长度而定。
* 请通过setQueueLength()方法设置队列长度。
*
*/
class InstantMemcachedRecorder
{
private $_host = "127.0.0.1"; //提供memcache服务的主机
private $_port = "11211"; //memcache使用端口号
private $_dataFileSurfix; //数据文件名的后缀
private $_baseDir; //数据文件的目录路径
private $_memcachedObj; //memcached对象句柄
private $_queueLenth; //memcached允许的某个索引对应的记录队列条数的最大值
/**
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
* Public Methods
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
*/
/**
* memcache及时数据记录的对象构造函数
*
* @param string $dir - 最终存储文件时,数据文件被存储的目录路径
* @param string $dataFileSurfix - 最终存储文件时,数据文件名的后缀
* @return InstantMemcachedRecorder object
*/
public function __construct($dir = '', $dataFileSurfix = '') {
if (empty($dir)) {
$dir = dirname(__FILE__) . DIRECTORY_SEPARATOR;
}
if (empty($dataFileSurfix)) {
$dataFileSurfix = '_noname.txt';
}
$this->setBaseDir($dir);
$this->setDataFileSurfix($dataFileSurfix);
$this->_queueLenth = MAX_MEM_QUEUE_LENGTH;
}
/**
* 设置memcache缓存队列的长度
*
* @param unknown_type $len
* @return unknown
*/
public function setQueueLength($len=0) {
$len = intval($len);
if ($len < 1) return false;
$this->_queueLenth = $len;
}
/**
* 设置数据文件的文件缀名
*
* @param unknown_type $str
*/
public function setDataFileSurfix($str) {
$this->_dataFileSurfix = $str;
}
/**
* 设置数据文件名
*
* @param unknown_type $str
*/
public function setDateFileName($str) {
$this->_dateFileName = $str;
}
/**
* 设置数据文件的目录路径
*
* @param unknown_type $dir
*/
public function setBaseDir($dir) {
$this->_baseDir = $dir;
}
/**
* 将数据进行及时记录
*
* @param string $data
* @return boolean
*/
public function record($data) {
//
// 1. detect and initiate memcache module, if not found, the then use file writing strategy.
//
if (!class_exists('Memcache') || !function_exists('memcache_connect')) {
$file_recorder = new InstantFileRecorder($this->_baseDir, $this->_dataFileSurfix);
return $file_recorder->record($data);
} else {
$this->_initMemcached();
}
//
//2. write data into memcache.
//
$data_key_prefix = trim($this->_baseDir) . trim($this->_dataFileSurfix);
$num_key = $data_key_prefix . '_num';
$cur_queue_num = intval($this->_memcachedObj->get($num_key));
$data_key = $data_key_prefix . $cur_queue_num;
$this->_memcachedObj->set($data_key, $data . "/r/n");
if ($cur_queue_num >= $this->_queueLenth - 1) {
//if the record time surplus 23:55, we write all memcached data into file.
$this->_writeIntoFile($data_key_prefix, $this->_queueLenth);
$this->_memcachedObj->set($num_key, 0);
} else {
$this->_memcachedObj->set($num_key, $cur_queue_num + 1);
//if the record time surplus 23:55, we write all memcached data into file.
if (intval(date('Hi')) >= 2355) {
$this->_writeIntoFile($data_key_prefix, $cur_queue_num + 1);
$this->_memcachedObj->set($num_key, 0);
}
}
return true;
}
/**
* 将所有通过本类处理的所有memcache数据,立即写入到文件
*
* @return unknown
*/
public function clearMemData() {
$this->_initMemcached();
$data_key_prefix = trim($this->_baseDir) . trim($this->_dataFileSurfix);
return $this->_writeIntoFile($data_key_prefix);
}
/**
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
* Private Methods
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
*/
/**
* 初始化memcache对象句柄
*
*/
private function _initMemcached() {
$this->_memcachedObj = new Memcache();
$this->_memcachedObj->connect($this->_host, $this->_port)
or die ("Could not connect memcached server!");
}
/**
* 将memcache缓存的数据 立即 写入到指定的 文件
*
* @param string $data_key_prefix - 被写入的memcache数据key的前缀名
* @param integer $flush_queue_len - 设置写入的队列长度(默认为0,表示都写入)
*/
private function _writeIntoFile($data_key_prefix, $flush_queue_len=0) {
$flush_queue_len == 0 && $flush_queue_len = $this->_queueLenth;
$file_recorder = new InstantFileRecorder($this->_baseDir, $this->_dataFileSurfix);
$data = '';
for ($i = 0; $i < $flush_queue_len; $i++) {
$data_key = $data_key_prefix . $i;
$data .= $this->_memcachedObj->get($data_key);
$this->_memcachedObj->set($data_key, '');
}
$data = substr($data, 0, -2);
$file_recorder->record($data);
}
private function _needFlush() { }
}//end of class
/**
*=--------------------------------------------------------------------=
* class InstantFileRecorder
*=--------------------------------------------------------------------=
*
* 用文件记录及时数据的处理类
*
* 注意:因为对文件数据后期综合分析工作是在第二天凌晨进行,为防程序运行
* 过程中出现异常导致分析不完全,需要设置分析日期时间点的记录文件。
* 这个在分析文件数据的时候,需要通过
*
*/
class InstantFileRecorder
{
private $_dateFileName;
private $_dataFileSurfix;
private $_baseDir;
private $_lastTimestamp;
/**
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
* Public Methods
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
*/
public function __construct($dir = '', $dataFileSurfix = '') {
if (empty($dir)) {
$dir = dirname(__FILE__) . DIRECTORY_SEPARATOR;
}
if (empty($dataFileSurfix)) {
$dataFileSurfix = '_noname.txt';
}
$this->setBaseDir($dir);
$this->setDataFileSurfix($dataFileSurfix);
}
/**
* 将数据记录到文件中
*
* 最终写入数据的文件名为basedir/年月/日_dataFileSurfix
*
* @param string $data - 被写入数据
*/
public function record($data) {
$dir = $this->_baseDir . date('Ym');
if (!is_dir($dir)) {
$this->_mkdirs($dir, 0777);
}
$filename = $dir . DIRECTORY_SEPARATOR . date('d') . $this->_dataFileSurfix;
$data .= "/r/n";
$this->_writeover($filename, $data, 'a+');
}
/**
* 设置文件后缀
*
*
* @param string $str - 文件后缀
*/
public function setDataFileSurfix($str) {
$this->_dataFileSurfix = $str;
}
/**
* 设置分析日期点的记录文件名
*
*
* @param string $str - 文件后缀
*/
public function setDateFileName($str) {
$this->_dateFileName = $str;
}
public function setBaseDir($dir) {
$this->_baseDir = $dir;
}
/**
* useless function, just for adapting instantMemcachedFileRecorder's interface...
*
* @return unknown
*/
public function setQueueLength($len=0) {
$len = intval($len);
if ($len < 1) return false;
}
/**
* 获取文件数据文件所在目录路径
*
* @return unknown
*/
public function getBaseDir() {
return $this->_baseDir;
}
//////////////////////////////////////////////////////////////
// 以下公有方法,用来在读取数据文件 进行后期分析的相关处理
/////////////////////////////////////////////////////////////
/**
* 在整个数据文件读取分析工作完毕之后,需要向日期点记录文件写入分析数据的时间记录
*
* @return unknown
*/
public function recordDate() {
$dir = $this->_baseDir;
if (!is_dir($dir)) {
$this->_mkdirs($dir, 0777);
}
$file_name = $dir . $this->_dateFileName;
$this_timestamp = empty($this->_lastTimestamp) ? time() - 86400 : $this->_lastTimestamp + 86400;
$this->_writeover($file_name, $this_timestamp . '|' . date('Y-m-d', $this_timestamp), 'r+');
}
/**
* 根据初始化的数据文件参数,获取该数据文件所在的完整路径
*
* @return string - 数据文件路径
*/
public function getFullDataFilePath() {
$timestamp = ($this->_lastTimestamp == null) ? $this->getLastAnalyzeTime() : $this->_lastTimestamp;
$timestamp = empty($timestamp) ? time() - 86400 : $timestamp + 86400; //默认分析昨天的数据
$dir = $this->_baseDir . date('Ym', $timestamp);
return $dir . DIRECTORY_SEPARATOR . date('d', $timestamp) . $this->_dataFileSurfix;
}
/**
* 根据设置的日期记录文件 获取 上次分析过的文件数据所在日期时间戳
*
* @return unknown
*/
public function getLastAnalyzeTime() {
$file_name = $this->_baseDir . $this->_dateFileName;
if (!file_exists($file_name)) {
return '';
}
$data = explode('|', file_get_contents($file_name));
$this->_lastTimestamp = isset($data[0]) ? $data[0] : '';
return $this->_lastTimestamp;
}
/**
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
* Private Methods
*=-------------------------------------------------------------------=
*=-------------------------------------------------------------------=
*/
/**
* create multi dirs.
*/
private function _mkdirs($dir,$mode=0664){
if(!is_dir($dir)){
$this->_mkdirs(dirname($dir), $mode);
@mkdir($dir,$mode);
}
return ;
}
/**
* 进行数据文件的写操作。注意本方法是fopen,fclose各一次,所以请慎重使用。
*
* @return unknown
*/
private function _writeover($filename, $data, $method="rb+", $iflock=1, $chmod=1) {
touch($filename);
$handle = fopen($filename, $method);
if (!is_resource($handle)) {
return false;
}
$iflock && flock($handle, LOCK_EX);
fwrite($handle, $data);
if($method == "rb+") ftruncate($handle, strlen($data));
fclose($handle);
$chmod && @chmod($filename, 0777);
return true;
}
}
//设置文件缓存的目录
?>
[/php]
四 使用示例
1. 记录数据处理
[php]$instat_recorder = InstantRecorder::getRecorder('mem', 'cache/instant_data/', '_filename.txt');
$arr_args = array(
'key1' => 'val1',
'key2' => 'val2'
);
$instant_recorder->record(implode(INSTANT_DATA_SEP, $arr_args));[/php]
2. 读取数据处理
[php]$instat_recorder = InstantRecorder::getRecorder('file', 'cache/instant_data/', '_filename.txt');
$instat_recorder->setDateFileName('last_analyze_time.inc');
$_analyzing_data_file = $this->_instantRecorder->getFullDataFilePath();
$fp = fopen($this->_analyzingDataFile, 'r+');
if (!$fp) {
return false;
}
while (!feof($fp)) {
// process of analyzing data...
}[/php]
五 其他
代码写的不好,只是提供思路。不当之处请指正^_^
(ps: 欢迎访问本人blog http://www.guigui8.com )
新闻热点
疑难解答