Увеличение количества промахов в кэше при векторизации кода

Я векторизовал точечное произведение между двумя векторами с SSE 4.2 и AVX 2, как вы можете видеть ниже. Код был скомпилирован с GCC 4.8.4 с флагом оптимизации -O2. Как и ожидалось, производительность улучшилась с обоими (и AVX 2 быстрее, чем SSE 4.2), но когда я профилировал код с PAPI, я узнал, что общее количество промахов (в основном L1 и L2) сильно увеличилось:

Возможно, что-то не так с моим кодом или это нормальное поведение?

Edit2: Ниже вы можете найти сравнение промахов кеша L1 между векторизованным и не-векторизованным кодом для большего N (N на промах х-метки и L1 на метке y). В принципе, для большего N в векторизованной версии все еще больше пропусков, чем в не-вексеризованной версии.

Ответы

Ответ 1

Ростислав прав, что компилятор авто-векторизации, и из документации GCC на -O2:

"- O2 Оптимизируйте еще больше. GCC выполняет почти все поддерживаемые оптимизации, которые не связаны с компрометацией космической скорости." (отсюда: https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html)

GCC с флагом -O2 пытается сгенерировать наиболее эффективный код без предпочтения размера или скорости кода.

Итак, с точки зрения циклов ЦП, автоинъектированный код -O2 потребует наименьшего количества ватт, но не будет самым быстрым или наименьшим кодом. Это лучший пример для кода, который работает на мобильных устройствах и в многопользовательских системах, и они, как правило, предпочитают использование С++. Если вы хотите абсолютную максимальную скорость, независимо от того, сколько ватт она использует, попробуйте -O3 или -Ofast, если ваша версия GCC поддерживает их, или пойдите с вашими оптимизированными вручную оптимизированными решениями.

Причиной этого, вероятно, является комбинация двух факторов.

Во-первых, более быстрый код генерирует больше запросов в память/кеш за тот же промежуток времени, что подчеркивает алгоритмы предсказания предварительной выборки. Кэш L1 не очень большой, обычно 1 МБ - 3 МБ, и используется для всех запущенных процессов на этом ядре ЦП, поэтому ядро ЦП не может выполнить предварительную выборку до тех пор, пока ранее не будет использован предварительно выделенный блок. Если код работает быстрее, тем меньше времени на предварительную выборку между блоками, и в коде, который эффективно работает с каналами, больше пропусков кэша будет выполняться до того, как процессорное ядро остановится полностью, пока ожидающие выборки не будут завершены.

И во-вторых, современные операционные системы обычно делят однопоточные процессы между несколькими ядрами, динамически изменяя аффинность потоков, чтобы использовать дополнительный кеш на нескольких ядрах, хотя он не может запускать какой-либо из кода параллельно - например, заполните кеш-память ядра 0 вашими данными, а затем запустите их при заполнении кеша 1-го ядра, а затем запустите ядро 1, заправляя кеш-память ядра 0, округлите до завершения. Этот псевдо- parallelism улучшает общую скорость однопоточных процессов и должен значительно уменьшать промахи в кэше, но может быть выполнен только в особых обстоятельствах... конкретные обстоятельства, при которых хорошие компиляторы будут генерировать код, когда это возможно.

Ответ 2

Как вы можете видеть в некоторых комментариях, промахи в кеше исходят из повышения производительности.

Например, с недавними процессорами вы сможете выполнить 2 AVX2 add или mul в каждом цикле, чтобы 512 бит в каждом цикле. Время, затрачиваемое на загрузку данных, будет выше, так как потребуется несколько строк кэша.

Кроме того, в зависимости от конфигурации вашей системы, гиперпоточности, аффинности и т.д., ваш планировщик может делать другие вещи, одновременно загрязняя ваш кеш другими потоками/процессами.

Последнее. В настоящее время процессоры довольно эффективны, чтобы распознавать простые шаблоны, как тот, который у вас есть с очень маленькими циклами, и затем автоматически будет использовать предварительную выборку после нескольких итераций. В любом случае этого не будет достаточно, чтобы исправить проблему с размером кеша.

Попробуйте разные размеры для N, вы должны увидеть интересные результаты. Кроме того, сначала выровняйте свои данные и убедитесь, что если вы используете 2 переменных, они не используют одну и ту же строку кэша.