Mysql hamming расстояние шестнадцатеричных значений

У меня есть хеши, хранящиеся в mysql, которые я бы выбрал при сравнении с расстоянием hamming.

Хэши хранятся:

qw 1 ffe71b001820a1fd 
qw 2 ffffb81c1c3838a0 
qw 3 fff8381c1c3e3828 
qw 4 fffa181c3c2e3920 
qw 5 fffa981c1c3e2820 
qw 6 ff5f1c38387c1c04 
qw 7 fff1e0c1c38387ef 
qw 8 fffa181c1c3e3820 
qw 9 fffa381c1c3e3828

Я обычно выбираю как:

SELECT product_id, HAMMING_DISTANCE(phash, 'phashfromuserinput') ;

Но в mysql расстояние hamming - это побитовый оператор, который я могу сделать, если строки были только номерами:

SELECT pagedata,BIT_COUNT(pagecontent^'$encrypted')searchengine WHERE pagecontent > 2 ; ")

Он работает только в integer (number), но мое требование - работа с числами и алфавитами, например:

74898fababfbef46 and 95efabfeba752545

Из моего небольшого исследования я знаю, что сначала мне нужно преобразовать поле в binary, а затем использовать bitcount с помощью CAST или CONVERT, например:

SELECT BIT_COUNT( CONV( hash, 2, 10 ) ^ 
0b0000000101100111111100011110000011100000111100011011111110011011 )

или

SELECT BIT_COUNT(CAST(hash AS BINARY)) FROM data;

Это нормально, как преобразование данных в binary и использование bitcount. Теперь возникает вопрос, что varbinary символы/хэши, хранящиеся в mysql, уже являются буквенно-цифровыми, и если я преобразую поле в varbinary и bitcount, тогда он не будет работать, поскольку хранимые хэши не являются двоичными строками.

Что мне делать?

Я ссылался на пример соответствия расстояния php hamming:

function HammingDistance($bin1, $bin2) {
    $a1 = str_split($bin1);
    $a2 = str_split($bin2);
    $dh = 0;
    for ($i = 0; $i < count($a1); $i++) 
        if($a1[$i] != $a2[$i]) $dh++;
    return $dh;
}

echo HammingDistance('10101010','01010101'); //returns 8

Но я не понимаю, как совпадать с mysql и fetch, потому что я не могу реализовать его в mysql.

Ответы

Ответ 1

Используя два последних числа в качестве примера:

SELECT BIT_COUNT( CAST(CONV('fffa181c1c3e3820', 16, 10) AS UNSIGNED) ^
                  CAST(CONV('fffa381c1c3e3828', 16, 10) AS UNSIGNED) ) ;
--> 2
  • Хеши являются шестнадцатеричными.
  • Для преобразования требуется BIGINT UNSIGNED.

(Если у вас были хэши MD5 (128 бит) или SHA1 (160 бит), нам пришлось бы разбить их через SUBSTR(), Xor каждую пару, BIT_COUNT, а затем добавить результаты.)

Изменить для использования имени столбца:

SELECT BIT_COUNT( CAST(CONV( a.pagecontent , 16, 10) AS UNSIGNED) ^
                  CAST(CONV( b.pagecontent , 16, 10) AS UNSIGNED) ) ;