如何使用PHP和PDO计算MySQL表中行子集的大小(以字节为单位)


How to calculate the size (in byte) of a subset of rows from a MySQL table using PHP with PDO?

首先,我正在使用PHP 5.4.11与PDO扩展和MySQL 5.1.66(在Debian Squeeze上)的共享主机服务。

目前我正在开发一项服务,其中用户在数据库中存储数据的配额有限。目前,只有一个表用于存储userdata,必须根据配额观察这个表(但这可能会改变)。所有表都使用InnoDB存储引擎和utf8_unicode_ci排序规则来保存文本列。让我们假设与配额相关的表有以下列:

+--------------+-----------+
| Column name  |   Type    |
+--------------+-----------+
| id           | int       |
| userId       | int       |
| created      | timestamp |
| lastModified | timestamp |
| description  | varchar   |
| content      | text      |
+--------------+-----------+

现在我需要计算属于特定用户的所有行的字节大小。我已经搜索了文档和谷歌,但只发现其他人问类似的问题,没有得到一个满意的答案。

我知道MySQL的LENGTH()函数,但因为它是一个字符串函数,它不返回(固定长度)数字和日期/时间字段占用的空间。如果只考虑字符串字段,用户可能会用空字符串填充数据库,而不会达到配额。我也知道,在MySQL中,每一行的描述都有一些开销,但我不想把它包含在计算中。(作为等效,我想要计算实际文件大小,而不是磁盘上的文件大小。)

此外,我不想依赖于特定的表结构,因为这可能会改变,并且必须记住更新计算配额的函数。

由于缺乏现有的解决方案,我想出了自己的解决方案(见下文)。但是它也有一些缺点,例如:

  • 它需要一个表中使用的数据类型及其各自大小的列表。
  • 它不能准确地处理FLOAT(p), DECIMAL(M,D), NUMERIC(M,D)BIT(M)数据类型(尽管可以实现)。
  • 需要两个单独的查询。

现在,这是我想出来的:

$db = new PDO(...);
$tablename = 'users';
$userId = 1;
// Make a list of type sizes in bytes - null indicates string types of
// varying size. If there is a type used in the database which is not
// listed here, an exception will be thrown.
$typeSizes = array(
    'int' => 4,
    'timestamp' => 4,
    'varchar' => null,
    'text' => null
  );
// Get datatypes used in the table.
$sql = 'SELECT COLUMN_NAME, DATA_TYPE FROM INFORMATION_SCHEMA.COLUMNS '
     . 'WHERE TABLE_NAME=?';
$stmt = $db->prepare($sql);
$stmt->bindValue(1, $tablename);
$stmt->execute();
$colTypes = array_map('reset', array_map('reset',
                       $stmt->fetchAll(PDO::FETCH_GROUP|PDO::FETCH_ASSOC)));
// Iterate over the existing columns. Sum up sizes of fixed size columns to
// get a 'fixed-size-factor' for a row. Make a list of varying size columns.
$fixedSizeFactor = 0;
$varyingSizeCols = array();
foreach ($colTypes as $colName => $colType) {
  if (array_key_exists($colType, $typeSizes)) {
    if ($typeSizes[$colType] !== null) {
      $fixedSizeFactor += $typeSizes[$colType];
    } else {
      $varyingSizeCols[] = $colName;
    }
  } else {
    $msg = "Unhandled column type '$colType' - unable to calculate used "
         . 'storage. Probably the $typeSizes array needs to be updated.';
    throw new Exception($msg);
  }
}
// Get number of all records of the user and the size of his data in
// varying size columns.
$sumArgument = 0;
if (count($varyingSizeCols) > 0) {
  $sumArgument = 'LENGTH(' . implode(') + LENGTH(', $varyingSizeCols) . ')';
}
$sql = 'SELECT SUM(' . $sumArgument . ') AS size, COUNT(*) AS count FROM '
     . $tablename . ' WHERE userId=?';
$stmt = $db->prepare($sql);
$stmt->bindValue(1, $userId);
$stmt->execute();
$result = $stmt->fetch(PDO::FETCH_ASSOC);
// Calculate used storage.
$usedStorage = $result['count'] * $fixedSizeFactor + $result['size'];

我的问题是:是否有一种更"原生",更少hackish的方法来做到这一点?如果没有,您对性能优化有什么建议吗?

忘记数字和日期吧,真的,如果因为这些字段而限制用户,这是非常便宜的…

使用LENGTH(用于文本)和OCTET_LENGTH(用于blobs)方法,这应该足够了。

如果你真的没有足够的存储空间,你必须准确地为每个用户分配,不要忘记还有日志管理,这将增加磁盘空间,这取决于用户对数据库的使用情况。