Когда компилятор переупорядочивает инструкции AVX на Sandy, это влияет на производительность?

Пожалуйста, не говорите, что это преждевременная микрооптимизация. Я хочу понять, насколько это возможно, учитывая мои ограниченные знания, как работает описанная функция и сборка SB, и убедитесь, что мой код использует эту архитектурную функцию. Благодарим вас за понимание.

Я начал учиться intrinsics несколько дней назад, поэтому ответ может показаться очевидным для некоторых, но у меня нет надежного источника информации, чтобы понять это.

Мне нужно оптимизировать некоторый код для CPU Sandy Bridge (это требование). Теперь я знаю, что он может сделать один AVX умножить и добавить один AVX за цикл и прочитать эту статью:

который показывает, как это можно сделать на С++. Таким образом, проблема в том, что мой код не будет автоматически сгенерирован с использованием Intel-компилятора (что является еще одним требованием к задаче), поэтому я решил реализовать его вручную, используя встроенные функции следующим образом:

Причина, по которой я вручную разворачиваю цикл, как это объясняется здесь:

Говорят, вам нужно разворачиваться в 3 раза, чтобы добиться лучшей производительности на Сэнди. Мое наивное тестирование подтверждает, что это действительно работает лучше, чем без разворачивания или 4-кратного разворота.

ОК, так вот проблема. Компилятор icl от Intel Parallel Studio 15 генерирует это:

Для меня это похоже на беспорядок, где исправлен правильный порядок (добавьте рядом с умножением, требуемым для использования удобной функции SB).

Кроме того, когда есть только одна итерация цикла, порядок является хорошим и чистым, то есть загружать, умножать, добавлять, как и должно быть.

Ответы

Ответ 1

С процессорами x86 многие люди ожидают получить максимальные FLOPS от точечного продукта

for(int i=0; i<n; i++) sum += a[i]*b[i];

но это оказывается не в этом.

Что может дать максимальный FLOPS, это

for(int i=0; i<n; i++) sum += k*a[i];

где k - константа. Почему CPU не оптимизирован для точечного продукта? Я могу спекулировать. Оптимизированы для оптимизации процессоров BLAS. BLAS рассматривает строительный блок многих других процедур.

Процедуры BLAS уровня 1 и уровня 2 становятся границами полосы пропускания памяти при увеличении n. Это только подпрограммы Level-3 (например, Matrix Multiplication), которые могут быть связаны с вычислением. Это связано с тем, что вычисления Уровня 3 идут как n^3, а чтение - как n^2. Таким образом, CPU оптимизирован для подпрограмм уровня 3. Процедуры уровня 3 не нуждаются в оптимизации для одного точечного продукта. Им нужно читать только одну матрицу за итерацию (sum += k*a[i]).

Из этого можно сделать вывод, что количество бит, которые необходимо читать каждому циклу для получения максимальных FLOPS для подпрограмм уровня 3, это

read_size = SIMD_WIDTH * num_MAC

где num_MAC - это число операций умножения с накоплением, которые могут выполняться в каждом цикле.

                   SIMD_WIDTH (bits)   num_MAC  read_size (bits)  ports used
Nehalem            128                 1         128              128-bits on port 2
Sandy Bridge       256                 1         256              128-bits port 2 and 3
Haswell            256                 2         512              256-bits port 2 and 3
Skylake            512                 2        1024              ?

Для Nehalem-Haswell это согласуется с тем, на что способно аппаратное обеспечение. На самом деле я не знаю, что Skylake сможет читать 1024 бит за такт, но если он не может быть AVX512 не очень интересным, я уверен в своей догадке. Хороший участок для Nahalem, Sandy Bridge и Haswell для каждого порта можно найти на http://www.anandtech.com/show/6355/intels-haswell-architecture/8

До сих пор я игнорировал цепи задержки и зависимостей. Чтобы действительно получить максимальные FLOPS, вам нужно развернуть цикл по крайней мере три раза на Sandy Bridge (я использую четыре, потому что мне неудобно работать с краткими тремя)

Лучший способ ответить на ваш вопрос о производительности - найти теоретическую лучшую производительность, которую вы ожидаете для своей операции, а затем сравнить, насколько близко к ней подходит ваш код. Я называю это эффективностью. Сделав это, вы обнаружите, что, несмотря на переупорядочение инструкций, которые вы видите в сборке, производительность все еще хороша. Но есть много других тонких проблем, которые вам могут потребоваться. Вот три проблемы, с которыми я столкнулся:

l1-memory-bandwidth-50-drop-in-efficiency-using-addresses-which-differ-by-4096.

get-peak-bandwidth-on-haswell-in-the-l1-cache-only-getting-62%

difference-in-performance-between-msvc-and-gcc-for-highly-optimized-matrix-multp.

Я также предлагаю вам использовать IACA для изучения производительности.