Я пытаюсь получить полную пропускную способность в кэше L1 для следующей функции на процессорах Intel

Я получаю около 95% пика с процессорами SandyBridge/IvyBridge с этой функцией (используя сборку с NASM). Однако, используя Хасуэлл, я достигаю только 62% пика, если не разворачиваю петлю. Если я развожусь 16 раз, я получаю 92%. Я не понимаю этого.

Я решил написать свою функцию в сборке, используя NASM. Основной цикл в сборке выглядит следующим образом.

Как показано в руководстве Agner Fog Optimizing Assembly в примерах 12.7-12.11, он делает почти то же самое (но для y[i] = y[i] +k*x[i]) для Pentium M, Core 2, Sandy Bridge, FMA4 и FMA3. Мне удалось воспроизвести его код более или менее самостоятельно (на самом деле у него небольшая ошибка в примере FMA3, когда он транслирует). Он дает подсчет размера инструкций, плавкие операционные операции, порты выполнения в таблицах для каждого процессора, за исключением FMA4 и FMA3. Я попытался сам сделать эту таблицу для FMA3.

Размер относится к длине инструкции в байтах. Причина, по которой инструкции add и jne имеют половину μop, - они сливаются в один макрооператор (не путать с μOP-слиянием, который все еще использует несколько портов), и нужен только порт 6 и один μop. Команда vfmadd231ps может использовать порт 0 или порт 1. Я выбрал порт 0. Нагрузка vmovaps может использовать порт 2 или 3. Я выбрал 2 и имел vfmadd231ps использовать порт 3.. Чтобы соответствовать таблицам Agner Fog, и, поскольку я считаю, что имеет смысл сказать, что инструкция, которая может идти на разные порты, одинаково подходит для каждой из 1/2 времени, я назначил 1/2 для портов vmovaps и vmadd231ps может перейти к.

На основе этой таблицы и того факта, что все процессоры Core2 могут выполнять четыре микрофона каждый такт, кажется, что этот цикл должен быть возможен каждый такт, но мне не удалось его получить. Может кто-нибудь объяснить мне, почему я не могу приблизиться к максимальной пропускной способности для этой функции на Haswell без разворота? Возможно ли это без разворачивания, и если да, то как это сделать? Позвольте мне пояснить, что я действительно пытаюсь максимизировать ILP для этой функции (я не только хочу максимальной пропускной способности), так что причина я не хотите разворачиваться.

Edit: Вот обновление, так как Iwillnotexist Idonotexist показал использование IACA, что магазины никогда не используют порт 7. Мне удалось сломать 66% -ный барьер без разворачивания и сделать это за один такт на каждой итерации без разворота (теоретически). Пусть сначала проблема с хранилищем.

Стивен Канон, упомянутый в комментарии о том, что модуль генерации адресов (AGU) в порту 7 может обрабатывать только простые операции, такие как [base + offset], а не [base + index]. В справочном руководстве по оптимизации Intel единственное, что я нашел, - это комментарий к порту7, который говорит "Simple_AGU", без определения каких простых средств. Но затем Iwillnotexist Idonotexist нашел в комментариях IACA, что эта проблема уже упоминалась шесть месяцев назад, в которой сотрудник Intel написал 11/11/2014:

Стивен Канон предлагает "использовать адрес магазина как смещение для операндов загрузки". Я пробовал это вот так

Это действительно заставляет магазин использовать port7. Однако есть еще одна проблема, заключающаяся в том, что vmadd231ps не сливается с нагрузкой, которую вы можете видеть из IACA. Он также нуждается в инструкции cmp, которую моя первоначальная функция не выполняла. Таким образом, в хранилище используется меньше микроопераций, но cmp (или, скорее, add, так как макрос cmp с jne) нуждается в еще одном. IACA сообщает о пропускной способности блока 1,5. На практике это составляет примерно 57% от пика.

Но я нашел способ заставить команду vmadd231ps сработать с нагрузкой. Это можно сделать только с использованием статических массивов с адресацией [абсолютный 32-разрядный адрес + индекс], как это. Евгений Клюев оригинал предложил это.

Где src1_end, src2_end и dst_end - конечные адреса статических массивов.

Это воспроизводит таблицу в моем вопросе с четырьмя сплавленными микрооперациями, которые я ожидал.Если вы поместите это в IACA, он сообщит о пропускной способности блока 1,0. Теоретически это должно быть так же, как и версии SSE и AVX. На практике он достигает около 72% от пика. Это нарушает 66% -ный барьер, но это все еще далеко от 92%, которое я разворачиваю 16 раз. Так что на Хасуэле единственный способ приблизиться к пику - это развернуть. Это не обязательно для Core2 через мост Ivy, но это на Haswell.

Вот код C/С++ Linux, чтобы проверить это. Код NASM отправляется после кода C/С++. Единственное, что вам нужно изменить, это частотный номер. В строке double frequency = 1.3; замените 1.3 тем, что работает (не номинальная) частота ваших процессоров (что в случае i5-4250U с отключенным турбонаддувом в BIOS составляет 1,3 ГГц).

Ответы

Ответ 1

Анализ IACA

Используя IACA (анализатор кода архитектуры Intel) показывает, что слияние макроопераций действительно происходит и что это не проблема. Это Mystical, кто прав: Проблема в том, что в магазине не используется порт 7 вообще.

IACA сообщает следующее:

Intel(R) Architecture Code Analyzer Version - 2.1
Analyzed File - ../../../tests_fma
Binary Format - 64Bit
Architecture  - HSW
Analysis Type - Throughput

Throughput Analysis Report
--------------------------
Block Throughput: 1.55 Cycles       Throughput Bottleneck: FrontEnd, PORT2_AGU, PORT3_AGU

Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
|  Port  |  0   -  DV  |  1   |  2   -  D   |  3   -  D   |  4   |  5   |  6   |  7   |
---------------------------------------------------------------------------------------
| Cycles | 0.5    0.0  | 0.5  | 1.5    1.0  | 1.5    1.0  | 1.0  | 0.0  | 1.0  | 0.0  |
---------------------------------------------------------------------------------------

N - port number or number of cycles resource conflict caused delay, DV - Divider pipe (on port 0)
D - Data fetch pipe (on ports 2 and 3), CP - on a critical path
F - Macro Fusion with the previous instruction occurred
* - instruction micro-ops not bound to a port
^ - Micro Fusion happened
# - ESP Tracking sync uop was issued
@ - SSE instruction followed an AVX256 instruction, dozens of cycles penalty is expected
! - instruction not supported, was not accounted in Analysis

| Num Of |                    Ports pressure in cycles                     |    |
|  Uops  |  0  - DV  |  1  |  2  -  D  |  3  -  D  |  4  |  5  |  6  |  7  |    |
---------------------------------------------------------------------------------
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [rdi+rax*1]
|   2    | 0.5       | 0.5 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [rsi+rax*1]
|   2    |           |     | 0.5       | 0.5       | 1.0 |     |     |     | CP | vmovaps ymmword ptr [rdx+rax*1], ymm1
|   1    |           |     |           |           |     |     | 1.0 |     |    | add rax, 0x20
|   0F   |           |     |           |           |     |     |     |     |    | jnz 0xffffffffffffffec
Total Num Of Uops: 6

В частности, заявленная пропускная способность блока в циклах (1.5) очень хорошо работает с эффективностью 66%.

Сообщение на веб-сайте IACA об этом самом явлении на Tue, 03/11/2014 - 12:39 было встречено этим ответом сотрудника Intel на Tue, 03/11/2014 - 23:20:

Port7 AGU может работать только с магазинами с простым адресом памяти (без индексного регистра). Вот почему приведенный выше анализ не показывает использование порта7.

Это решительно решает, почему Порт 7 не используется.

Теперь сравним это с 32-кратным развернутым контуром (получается, что unroll16 shoudl на самом деле называется unroll32):

Intel(R) Architecture Code Analyzer Version - 2.1
Analyzed File - ../../../tests_fma
Binary Format - 64Bit
Architecture  - HSW
Analysis Type - Throughput

Throughput Analysis Report
--------------------------
Block Throughput: 32.00 Cycles       Throughput Bottleneck: PORT2_AGU, Port2_DATA, PORT3_AGU, Port3_DATA, Port4, Port7

Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
|  Port  |  0   -  DV  |  1   |  2   -  D   |  3   -  D   |  4   |  5   |  6   |  7   |
---------------------------------------------------------------------------------------
| Cycles | 16.0   0.0  | 16.0 | 32.0   32.0 | 32.0   32.0 | 32.0 | 2.0  | 2.0  | 32.0 |
---------------------------------------------------------------------------------------

N - port number or number of cycles resource conflict caused delay, DV - Divider pipe (on port 0)
D - Data fetch pipe (on ports 2 and 3), CP - on a critical path
F - Macro Fusion with the previous instruction occurred
* - instruction micro-ops not bound to a port
^ - Micro Fusion happened
# - ESP Tracking sync uop was issued
@ - SSE instruction followed an AVX256 instruction, dozens of cycles penalty is expected
! - instruction not supported, was not accounted in Analysis

| Num Of |                    Ports pressure in cycles                     |    |
|  Uops  |  0  - DV  |  1  |  2  -  D  |  3  -  D  |  4  |  5  |  6  |  7  |    |
---------------------------------------------------------------------------------
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x20]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x20]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x20], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x40]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x40]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x40], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x60]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x60]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x60], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x80]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x80]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x80], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0xa0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0xa0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0xa0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0xc0]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0xc0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0xc0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0xe0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0xe0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0xe0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x100]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x100]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x100], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x120]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x120]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x120], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x140]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x140]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x140], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x160]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x160]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x160], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x180]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x180]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x180], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x1a0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x1a0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x1a0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x1c0]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x1c0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x1c0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x1e0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x1e0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x1e0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x200]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x200]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x200], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x220]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x220]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x220], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x240]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x240]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x240], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x260]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x260]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x260], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x280]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x280]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x280], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x2a0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x2a0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x2a0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x2c0]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x2c0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x2c0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x2e0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x2e0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x2e0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x300]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x300]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x300], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x320]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x320]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x320], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x340]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x340]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x340], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x360]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x360]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x360], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x380]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x380]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x380], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x3a0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x3a0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x3a0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x3c0]
|   2^   | 1.0       |     |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x3c0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x3c0], ymm1
|   1    |           |     | 1.0   1.0 |           |     |     |     |     | CP | vmovaps ymm1, ymmword ptr [r9+0x3e0]
|   2^   |           | 1.0 |           | 1.0   1.0 |     |     |     |     | CP | vfmadd231ps ymm1, ymm2, ymmword ptr [r10+0x3e0]
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 | CP | vmovaps ymmword ptr [r11+0x3e0], ymm1
|   1    |           |     |           |           |     | 1.0 |     |     |    | add r9, 0x400
|   1    |           |     |           |           |     |     | 1.0 |     |    | add r10, 0x400
|   1    |           |     |           |           |     | 1.0 |     |     |    | add r11, 0x400
|   1    |           |     |           |           |     |     | 1.0 |     |    | cmp r9, rcx
|   0F   |           |     |           |           |     |     |     |     |    | jnz 0xfffffffffffffcaf
Total Num Of Uops: 164

Мы видим здесь микропланирование и правильное планирование хранилища в Порт 7.

Ручной анализ (см. выше)

Теперь я могу ответить на второй из ваших вопросов: Возможно ли это без разворачивания, и если да, то как это сделать?. Ответ - нет.

Я заполнил массивы x, y и z слева и справа с большим количеством буфера для эксперимента ниже и изменил внутренний цикл на следующее:

.L2:
vmovaps         ymm1, [rdi+rax] ; 1L
vmovaps         ymm0, [rsi+rax] ; 2L
vmovaps         [rdx+rax], ymm2 ; S1
add             rax, 32         ; ADD
jne             .L2             ; JMP

Это намеренно не использует FMA (только загрузки и хранилища), и все инструкции загрузки/хранения не имеют зависимостей, так как поэтому не должно быть никаких опасностей, предотвращающих их проблему в любых портах выполнения.

Затем я тестировал каждую перестановку первой и второй нагрузок (1L и 2L), хранилище (S1) и добавление (A), оставляя условный переход (J) в конце, и для каждого из них я проверил каждую возможную комбинацию смещений x, y и z на 0 или -32 байта (чтобы исправить тот факт, что переупорядочивание add rax, 32 перед одним из Индексы r+r приведут к тому, что нагрузка или хранилище будут нацелены на неправильный адрес). Цикл был выровнен до 32 байтов. Тесты выполнялись на i7-4700MQ с частотой 2,4 ГГц с отключенным TurboBoost с помощью echo '0' > /sys/devices/system/cpu/cpufreq/boost под Linux и с использованием 2.4 для постоянной частоты. Вот результаты эффективности (максимум 24):

Cases: 0           1           2           3           4           5           6           7
       L1  L2  S   L1  L2  S   L1  L2  S   L1  L2  S   L1  L2  S   L1  L2  S   L1  L2  S   L1  L2  S   
       -0  -0  -0  -0  -0  -32 -0  -32 -0  -0  -32 -32 -32 -0  -0  -32 -0  -32 -32 -32 -0  -32 -32 -32
       ________________________________________________________________________________________________
12SAJ: 65.34%      65.34%      49.63%      65.07%      49.70%      65.05%      49.22%      65.07%
12ASJ: 48.59%      64.48%      48.74%      49.69%      48.75%      49.69%      48.99%      48.60%
1A2SJ: 49.69%      64.77%      48.67%      64.06%      49.69%      49.69%      48.94%      49.69%
1AS2J: 48.61%      64.66%      48.73%      49.71%      48.77%      49.69%      49.05%      48.74%
1S2AJ: 49.66%      65.13%      49.49%      49.66%      48.96%      64.82%      49.02%      49.66%
1SA2J: 64.44%      64.69%      49.69%      64.34%      49.69%      64.41%      48.75%      64.14%
21SAJ: 65.33%*     65.34%      49.70%      65.06%      49.62%      65.07%      49.22%      65.04%
21ASJ: Hypothetically =12ASJ
2A1SJ: Hypothetically =1A2SJ
2AS1J: Hypothetically =1AS2J
2S1AJ: Hypothetically =1S2AJ
2SA1J: Hypothetically =1SA2J
S21AJ: 48.91%      65.19%      49.04%      49.72%      49.12%      49.63%      49.21%      48.95%
S2A1J: Hypothetically =S1A2J
SA21J: Hypothetically =SA12J
SA12J: 64.69%      64.93%      49.70%      64.66%      49.69%      64.27%      48.71%      64.56%
S12AJ: 48.90%      65.20%      49.12%      49.63%      49.03%      49.70%      49.21%*     48.94%
S1A2J: 49.69%      64.74%      48.65%      64.48%      49.43%      49.69%      48.66%      49.69%
A2S1J: Hypothetically =A1S2J
A21SJ: Hypothetically =A12SJ
A12SJ: 64.62%      64.45%      49.69%      64.57%      49.69%      64.45%      48.58%      63.99%
A1S2J: 49.72%      64.69%      49.72%      49.72%      48.67%      64.46%      48.95%      49.72%
AS21J: Hypothetically =AS21J
AS12J: 48.71%      64.53%      48.76%      49.69%      48.76%      49.74%      48.93%      48.69%

Мы можем заметить несколько вещей из таблицы:

Несколько плато результатов, но только два основных: чуть меньше 50% и около 65%.
L1 и L2 могут свободно переключаться между собой, не влияя на результат.
Отмена доступа на -32 байта может изменить эффективность.
Образцы, которые нас интересуют (Load 1, Load 2, Store 1 и Jump с добавлением в любом месте и с соответствующими смещениями -32) все одинаковы, и все в верхнем плато:
- 12SAJ Случай 0 (без смещения), с эффективностью 65,34% (самый высокий)
- 12ASJ Случай 1 (S-32) с эффективностью 64.48%
- 1A2SJ Случай 3 (2L-32, S-32), с эффективностью 64.06%
- A12SJ Случай 7 (1L-32, 2L-32, S-32), с эффективностью 63,99%
Всегда существует хотя бы один "случай" для каждой перестановки, позволяющий выполнять на более высоком плато эффективности. В частности, случай 1 (где S-32), по-видимому, гарантирует это.
Случаи 2, 4 и 6 гарантируют выполнение на нижнем плато. У них есть общее, что одна или обе нагрузки смещены на -32, а хранилище нет.
Для случаев 0, 3, 5 и 7 это зависит от перестановки.

Отсюда мы можем сделать хотя бы несколько выводов:

Для портов выполнения 2 и 3 действительно не важно, какой адрес загрузки они генерируют и загружают.
Слияние макросов с параметрами add и jmp не поддается какой-либо перестановке инструкций (в частности, при смещении Case 1), что приводит к выводу, что вывод @Evgeny Kluev неверен: расстояние от add из jne, по-видимому, не влияет на их слияние. Теперь я уверен, что Хасуэлл ROB справляется с этим правильно.
- Что видел Евгений (начиная с 12SAJ с эффективностью 65% до остальных с эффективностью 49% в рамках Case 0) был следствием исключительно стоимости адресов, загруженных и сохраненных, а не из-за неспособности от ядра к макро-предохранителю добавление и ветвь.
- Кроме того, слияние макросов должно происходить, по крайней мере, некоторое время, так как среднее время цикла составляет 1,5 CC. Если бы не было слияния макросов, это было бы минимальным значением 2CC.
Проверяя все допустимые и недопустимые перестановки инструкций в не развернутом цикле, мы не видели ничего выше 65,34%. Это эмпирически отвечает "нет" на вопрос, можно ли использовать полную пропускную способность без разворота.

Я выдвигаю гипотезу о нескольких возможных объяснениях:

Мы видим некоторые извращенные извращения из-за значения адресов относительно друг друга.
- Если бы это так, существовал бы набор смещений x, y и z, который обеспечивал бы максимальную пропускную способность. Быстрые случайные тесты с моей стороны, похоже, не поддерживают это.
Мы видим, что цикл работает в одношаговый режим; Итерации цикла чередуются в одном такте, затем два.
- Это может быть слияние макро-op, на которое влияют декодеры. От Agner Fog:
  
  Плавкие арифметические/логические инструкции не могут быть декодированы в последнем из четырех декодеров на процессорах Sandy Bridge и Ivy Bridge. Я не проверял, относится ли это также к Хасуэлю.
- Кроме того, каждый другой тактовый цикл выдает команду "неправильному" порту, блокируя следующую итерацию за один дополнительный такт. Такая ситуация была бы самокорректирована в следующем такте, но оставалась бы колебательной.
  - Если кто-то имеет доступ к счетчикам производительности Intel, он должен посмотреть события UOPS_EXECUTED_PORT.PORT_[0-7]. Если колебания не происходят, все используемые порты будут привязаны одинаково в течение соответствующего периода времени; Иначе, если произойдет осцилляция, будет раскол на 50%. Особенно важно посмотреть на порты Mystical, отмеченные (0, 1, 6 и 7).

И вот что, я думаю, не происходит:

Я не верю, что скомпилированный арифметический + ветвь uop блокирует выполнение, перейдя в порт 0, поскольку предсказанные ветки отправляются исключительно на порт 6 (см. Таблицы инструкций Agner Fog под Haswell -> Control transfer instructions). После нескольких итераций цикла выше предсказатель ветвления узнает, что эта ветка является циклом и всегда предсказывает, как принято.

Я считаю, что это проблема, которая будет решена с помощью счетчиков производительности Intel.

Получение максимальной пропускной способности на Haswell в кеше L1: получение только 62%

Ответы

Ответ 1

Анализ IACA

Ручной анализ (см. выше)