在PHP中解压缩LZO流


Decompressing an LZO stream in PHP

我在AmazonS3上有很多LZO压缩的日志文件,我想从PHP中读取这些文件。AWS SDK提供了一个很好的StreamWrapper来有效地读取这些文件,但由于文件是压缩的,我需要先解压缩内容,然后才能处理它。

我已经安装了PHP-LZO扩展,它允许我执行lzo_decompress($data),但由于我处理的是流而不是完整的文件内容,我认为我需要一次消耗一个LZO压缩块的字符串。换句话说,我想做一些类似的事情:

$s3 = S3Client::factory( $myAwsCredentials );
$s3->registerStreamWrapper();
$stream = fopen("s3://my_bucket/my_logfile", 'r');
$compressed_data = '';
while (!feof($stream)) {
    $compressed_data .= fread($stream, 1024);
    // TODO: determine if we have a full LZO block yet
    if (contains_full_lzo_block($compressed_data)) {
        // TODO: extract the LZO block
        $lzo_block = get_lzo_block($compressed_data);
        $input = lzo_decompress( $lzo_block );
        // ...... and do stuff to the decompressed input
    }
}
fclose($stream);

两个TODO是我不确定该做什么的地方:

  1. 检查数据流以确定我是否有完整的LZO块
  2. 正在提取此块进行解压缩

由于压缩是由Amazon(s3distCp)完成的,我无法控制块的大小,所以我可能需要检查传入流以确定块的大小——这是正确的假设吗?

(理想情况下,我会直接在流上使用自定义StreamFilter,但我以前找不到任何人这样做过)

好的,通过PHP执行命令可以用很多不同的方式完成,比如:

$command = 'gunzip -c /path/src /path/dest';
$escapedCommand = escapeshellcmd($command);
system($escapedCommand);

或者

shell_exec('gunzip -c /path/src /path/dest');

将完成这项工作。现在是执行什么命令的问题,在Linux下有一个很好的命令行工具lzop,它可以提取或压缩lzop文件。

你可以通过以下方式使用它:

lzop -dN sources.lzo

所以你的最终代码可能很简单:

shell_exec('lzop -dN s3://my_bucket/my_logfile');