我在mysql中存储了一些哈希值,我会通过汉明距离进行比较来获取这些哈希值。
存储的哈希值如下:
qw 1 ffe71b001820a1fd
qw 2 ffffb81c1c3838a0
qw 3 fff8381c1c3e3828
qw 4 fffa181c3c2e3920
qw 5 fffa981c1c3e2820
qw 6 ff5f1c38387c1c04
qw 7 fff1e0c1c38387ef
qw 8 fffa181c1c3e3820
qw 9 fffa381c1c3e3828
我通常像这样获取:
SELECT product_id, HAMMING_DISTANCE(phash, 'phashfromuserinput') ;
但是在 mysql 汉明距离是按位运算符,如果字符串只是数字,我可以这样做:
SELECT pagedata,BIT_COUNT(pagecontent^'$encrypted')searchengine WHERE pagecontent > 2 ; ")
它仅适用于整数(数字),但我的要求是处理数字和字母,例如:
74898fababfbef46 and 95efabfeba752545
从我的小研究中,我知道首先我必须将字段转换为binary
然后通过使用CAST
或CONVERT
来使用bitcount
,例如:
SELECT BIT_COUNT( CONV( hash, 2, 10 ) ^
0b0000000101100111111100011110000011100000111100011011111110011011 )
或
SELECT BIT_COUNT(CAST(hash AS BINARY)) FROM data;
这可以将数据转换为binary
并使用bitcount
.现在出现了一个问题,存储在mysql
中的varbinary
字符/哈希已经是字母数字,如果我将字段转换为varbinary
并bitcount
那么它将不起作用,因为存储的哈希不是二进制字符串。
我该怎么办?
我指的是 php 汉明距离匹配示例:
function HammingDistance($bin1, $bin2) {
$a1 = str_split($bin1);
$a2 = str_split($bin2);
$dh = 0;
for ($i = 0; $i < count($a1); $i++)
if($a1[$i] != $a2[$i]) $dh++;
return $dh;
}
echo HammingDistance('10101010','01010101'); //returns 8
但是我不明白如何与mysql匹配并获取,因为我无法在mysql中实现它。
以最后两个数字为例:
SELECT BIT_COUNT( CAST(CONV('fffa181c1c3e3820', 16, 10) AS UNSIGNED) ^
CAST(CONV('fffa381c1c3e3828', 16, 10) AS UNSIGNED) ) ;
--> 2
- 哈希值是十六进制。
- 转换需要以
BIGINT UNSIGNED
结束。
如果您有 MD5(128 位)或 SHA1(160 位)哈希,我们将不得不通过 SUBSTR()
、Xor 每对、BIT_COUNT 拆分它们,然后添加结果。
编辑以使用列名称:
SELECT BIT_COUNT( CAST(CONV( a.pagecontent , 16, 10) AS UNSIGNED) ^
CAST(CONV( b.pagecontent , 16, 10) AS UNSIGNED) ) ;