Эффект выравнивания кода в основных петлях синхронизации в сборке

То, как я буду это делать, это поместить его в другой длинный цикл, подобный этому

Что я нахожу, так это то, что выбранное выравнивание может существенно повлиять на время (до +10%). Мне непонятно, как выбрать выравнивание кода. Есть три места, о которых я могу подумать, где я могу захотеть выровнять код

Еще одна вещь, которую я обнаружил, заключается в том, что если я добавлю другую процедуру в свой исходный файл, то изменение одной команды (например, удаление инструкции) может существенно повлиять на время следующей функции, даже если они являются независимыми функциями. Я даже видел, что это в прошлом влияло на процедуру в другом объектном файле.

Я прочитал раздел 11.5 "Выравнивание кода" в Agner Fog оптимизирует сборку руководства, но мне все еще не ясно, как наилучшим образом выровняйте мой код для тестирования производительности. Он приводит пример, 11.5, о временном цикле, который я действительно не соблюдаю.

В настоящее время получение самой высокой производительности из моего кода - игра угадывания разных значений и мест выравнивания.

Я хотел бы знать, есть ли интеллектуальный метод для выбора выравнивания? Должен ли я выровнять внутренний и наружный овраги? Только внутренняя петля? Запись в функцию также? Используете ли короткие или длинные проблемы NOP?

Меня интересует Хасуэлл, затем SNB/IVB, а затем Core2.

Я попробовал NASM и YASM и обнаружил, что это одна из областей, где они значительно различаются. NASM только вставляет однобайтные инструкции NOP, где YASM вставляет многобайтовые NOP. Например, выравнивая внутренний и внешний контуры выше 32 байтов, NASM вставил 20 инструкций NOP (0x90), где, когда YASM вставил следующее (из objdump)

До сих пор я не наблюдал существенной разницы в производительности с этим. Похоже, что это выравнивание не имеет значения длины инструкции. Но Агнер пишет в разделе кода выравнивания:

Если вы хотите сыграть с выравниванием и посмотреть сами эффекты, вы можете найти как сборку, так и код C, который я использую. Замените double frequency = 3.6 на эффективную частоту вашего CPU. Вы можете отключить турбо.

Вот код C, который я использую для вызова процедур сборки и времени их

Я не уверен, что сегмент кода получает абсолютный 32-байтовый выровненный адрес или только относительный.

Ответы

Ответ 1

Что касается вашего последнего вопроса об относительном (внутрисегментном) выравнивании и абсолютном (в памяти во время выполнения), вам не нужно слишком беспокоиться. Как раз под разделом руководства, которое вы указали, которое предупреждает о ALIGN, не проверяя выравнивание раздела, у вас есть следующее:

И ALIGN, и ALIGNB неявно вызывают макрос SECTALIGN. Подробнее см. В разделе 4.11.13.

Таким образом, в основном ALIGN не проверяет правильность выравнивания, но вызывает макрос SECTALIGN, чтобы выравнивание было разумным. В частности, все неявные вызовы SECTALIGN должны гарантировать, что раздел будет выровнен с наибольшим выравниванием, заданным любым вызовом выравнивания.

Предупреждение о ALIGN не проверяется, вероятно, применимо только к более неясным случаям, например, при сборке в форматах, которые не поддерживают выравнивание разделов, при указании выравнивания больше, чем поддерживаемого секцией, или когда SECTALIGN OFF вызывается для отключения SECTALIGN.

Ответ 2

Ваш цикл должен идеально (примерно) выполнить за одну итерацию за такт, имея четыре му-оп (add/jne - один). Критический вопрос - предсказуемость ветки внутреннего цикла. До 16 итераций он должен быть предсказан в коде времени, всегда один и тот же, но после этого вы можете борется. Во-первых, чтобы ответить на ваш вопрос, выравнивание ключей для синхронизации заключается в том, чтобы гарантировать, что ни код после jne.L2, ни первая команда после .L2 не пересекают 32-байтовую границу. Я предполагаю, что вопрос реальный заключается в том, как заставить его работать быстрее, и если моя гипотеза о > 16 итерациях верна, основная задача состоит в том, чтобы сделать предсказание ветвления. Чтобы ваши временные моменты были короче, должно быть легко - достаточно иметь несколько ветвей, которые все предсказуемы. Однако, чтобы сделать конечный код быстрее, зависит от того, как изменяются реальные значения rax, и это будет зависеть также от процедуры, которая вызывает цикл.