SIMD minmag и maxmag - программирование

Я хочу реализовать SIMD функции minmag и maxmag. Насколько я понимаю, эти функции

Я хочу, чтобы они были для float и double, а мое целевое оборудование - Haswell. Мне действительно нужен код, который вычисляет оба. Вот что я имею для SSE4.1 для double (код AVX почти идентичен)

Однако это не так эффективно, как хотелось бы. Есть ли лучший способ или, по крайней мере, альтернативный подход?. Я хотел бы попытаться избежать порта 1, так как у меня уже есть много дополнений/вычитаний с использованием этого порта. Экран _mm_cmple_pd переходит в порт 1.

Основная функция, которая меня интересует, следующая:

Изменить: моя цель - two_sum_MinMax быть быстрее, чем two_sum ниже:

Изменить: вот конечная функция, за которой я работаю. Он делает 20 добавлений/подсетей, все из которых идут в порт 1 на Хасуэлл. Используя мою реализацию two_sum_MinMax в этом вопросе, она доходит до 16 add/subs на порту 1, но имеет более низкую задержку и все еще медленнее. Вы можете увидеть сборку для этой функции и узнать больше о том, почему меня это волнует в оптимизировать для быстрого умножения, но медленного добавления-fma-и-doubledouble

Ответы

Ответ 1

Здесь альтернативная реализация, которая использует меньше инструкций:

static inline void maxminmag_test(__m128d & a, __m128d & b) {
    __m128d cmp     = _mm_add_pd(a, b); // test for mean(a, b) >= 0
    __m128d amin    = _mm_min_pd(a, b);
    __m128d amax    = _mm_max_pd(a, b);
    __m128d minmag  = _mm_blendv_pd(amin, amax, cmp);
    __m128d maxmag  = _mm_blendv_pd(amax, amin, cmp);
    a = maxmag, b = minmag;
}

Он использует несколько тонкий алгоритм (см. ниже) в сочетании с тем фактом, что мы можем использовать бит знака в качестве маски выделения.

Он также использует предложение @EOF для использования только одной маски и переключения порядка операндов, который сохраняет инструкцию.

Я тестировал его с небольшим количеством случаев и, похоже, соответствовал вашей первоначальной реализации.

Алгоритм:

 if (mean(a, b) >= 0)       // this can just be reduced to (a + b) >= 0
 {
     minmag = min(a, b);
     maxmag = max(a, b);
 }
 else
 {
     minmag = max(a, b);
     maxmag = min(a, b);
 }