SIMD, подписанный с неподписанным умножением для 64-разрядных * 64-бит до 128 бит

Я создал функцию, которая выполняет 64-битную * 64-битную до 128-битной, используя SIMD. В настоящее время я реализовал его с использованием SSE2 (acutally SSE4.1). Это означает, что он одновременно выполняет два 64b * 64b до 128b. Та же идея может быть распространена на AVX2 или AVX512, предоставляя четыре или восемь 64b * 64 до 128b продуктов одновременно. Я основывал свой алгоритм на http://www.hackersdelight.org/hdcodetxt/muldws.c.txt

Этот алгоритм выполняет одно беззнаковое умножение, одно подписанное умножение и два подписанных * неподписанных умножения. Подписанные * подписанные и неподписанные * неподписанные операции просты в использовании с помощью _mm_mul_epi32 и _mm_mul_epu32. Но смешанные подписанные и неподписанные продукты вызвали у меня проблемы. Рассмотрим, например.

Произведение двойного слова должно быть 0xc000000080000000. Но как вы можете получить это, если предположите, что ваш компилятор знает, как обрабатывать смешанные типы? Вот что я придумал:

Используя SSE, это можно сделать следующим образом:

Это дает правильный результат. Но я должен сделать это дважды (один раз при возведении в квадрат), и теперь это значительная часть моей функции. Есть ли более эффективный способ сделать это с SSE4.2, AVX2 (четыре 128-битных продукта) или даже с AVX512 (восемь 128-битных продуктов)?

Возможно, есть более эффективные способы сделать это, чем с SIMD? Это много расчетов, чтобы получить верхнее слово.

Изменить: на основе комментария @ElderBug похоже, что способ сделать это не с SIMD, а с инструкцией mul. Для чего это стоит, если кто-то хочет увидеть, насколько это сложно, вот полная рабочая функция (я только что заработал, поэтому я ее не оптимизировал, но я не думаю, что это того стоит).

Ухудшается. Существует не _mm_srai_epi64 instrinsic/инструкция до AVX512, поэтому я должен был сделать свой собственный.

Моя реализация _mm_srai_epi64 выше неполна. Я думаю, что использовал Agner Fog Vector Class Library. Если вы посмотрите в файле vectori128.h, вы найдете

Ответы

Ответ 1

Правильный способ рассмотрения пределов пропускной способности целочисленного умножения с использованием различных инструкций заключается в том, сколько "битов продукта" вы можете вычислить за цикл.

mulx выводит один результат 64x64 → 128 каждый цикл; что 64x64 = 4096 бит продукта за цикл "

Если вы объединяете мультипликатор на SIMD из инструкций, которые умножают 32x32 → 64 бит, вы должны иметь возможность получать четыре результата в каждом цикле в соответствии с mulx (4x32x32 = 4096). Если не было никакой арифметики, кроме множителей, вы бы просто сломались даже на AVX2. К сожалению, как вы уже заметили, существует множество арифметических операций, отличных от множителей, поэтому это полный отказ от исходного оборудования.

Ответ 2

Я нашел решение SIMD, которое намного проще и не нуждается в продуктах signed*unsigned. ~~Я больше не уверен, что SIMD (по крайней мере, с AVX2 и AV512) не может конкурировать с mulx.~~ В некоторых случаях SIMD может конкурировать с mulx. Единственный случай, о котором я знаю, - это умножение больших чисел на FFT.

Трюк состоял в том, чтобы сначала выполнить беззнаковое умножение, а затем исправить. Я узнал, как это сделать из этого ответа 32-bit-signed-multiplication-without-using-64-bit-data-type. Коррекция проста для (hi,lo) = x*y сначала выполнить беззнаковое умножение, а затем исправить hi следующим образом:

hi -= ((x<0) ? y : 0)  + ((y<0) ? x : 0)

Это можно сделать с помощью встроенного SSE4.2 _mm_cmpgt_epi64

void muldws1_sse(__m128i x, __m128i y, __m128i *lo, __m128i *hi) {    
    muldwu1_sse(x,y,lo,hi);    
    //hi -= ((x<0) ? y : 0)  + ((y<0) ? x : 0);
    __m128i xs = _mm_cmpgt_epi64(_mm_setzero_si128(), x);
    __m128i ys = _mm_cmpgt_epi64(_mm_setzero_si128(), y);           
    __m128i t1 = _mm_and_si128(y,xs);
    __m128i t2 = _mm_and_si128(x,ys);
           *hi = _mm_sub_epi64(*hi,t1);
           *hi = _mm_sub_epi64(*hi,t2);
}

Код для беззнакового умножения проще, поскольку для него не нужны смешанные продукты signed*unsigned. Кроме того, поскольку он без знака, ему не нужен арифметический сдвиг вправо, который имеет только инструкцию для AVX512. На самом деле следующей функции требуется только SSE2:

void muldwu1_sse(__m128i x, __m128i y, __m128i *lo, __m128i *hi) {    
    __m128i lomask = _mm_set1_epi64x(0xffffffff);

    __m128i xh     = _mm_shuffle_epi32(x, 0xB1);    // x0l, x0h, x1l, x1h
    __m128i yh     = _mm_shuffle_epi32(y, 0xB1);    // y0l, y0h, y1l, y1h

    __m128i w0     = _mm_mul_epu32(x,  y);          // x0l*y0l, x1l*y1l
    __m128i w1     = _mm_mul_epu32(x,  yh);         // x0l*y0h, x1l*y1h
    __m128i w2     = _mm_mul_epu32(xh, y);          // x0h*y0l, x1h*y0l
    __m128i w3     = _mm_mul_epu32(xh, yh);         // x0h*y0h, x1h*y1h

    __m128i w0l    = _mm_and_si128(w0, lomask);     //(*)
    __m128i w0h    = _mm_srli_epi64(w0, 32);

    __m128i s1     = _mm_add_epi64(w1, w0h);
    __m128i s1l    = _mm_and_si128(s1, lomask);
    __m128i s1h    = _mm_srli_epi64(s1, 32);

    __m128i s2     = _mm_add_epi64(w2, s1l);
    __m128i s2l    = _mm_slli_epi64(s2, 32);        //(*)
    __m128i s2h    = _mm_srli_epi64(s2, 32);

    __m128i hi1    = _mm_add_epi64(w3, s1h);
            hi1    = _mm_add_epi64(hi1, s2h);

    __m128i lo1    = _mm_add_epi64(w0l, s2l);       //(*)
    //__m128i lo1    = _mm_mullo_epi64(x,y);          //alternative

    *hi = hi1;
    *lo = lo1;
}

В этом случае используется

4x mul_epu32
5x add_epi64
2x shuffle_epi32
2x and
2x srli_epi64
1x slli_epi64
****************
16 instructions

AVX512 имеет встроенный _mm_mullo_epi64, который может вычислять lo с одной инструкцией. В этом случае можно использовать альтернативу (прокомментировать строки с комментарием (*) и раскомментировать альтернативную строку):

5x mul_epu32
4x add_epi64
2x shuffle_epi32
1x and
2x srli_epi64
****************
14 instructions

Чтобы изменить код для полной ширины AVX2, замените _mm на _mm256, si128 на si256, а __m128i на __m256i для AVX512 замените их на _mm512, si512 и __m512i.