Почему векторизация дерева делает этот алгоритм сортировки 2x медленнее?

Алгоритм сортировки этот вопрос становится в два раза быстрее (!), если включен в gcc (4.7.2). Сильно упрощенный C-код этого вопроса (оказалось, что я могу инициализировать массив со всеми нулями, странное поведение производительности остается, но это делает рассуждение намного проще):

После долгой игры с флагами оптимизации оказалось, что -ftree-vectorize также дает это странное поведение, поэтому мы можем взять -fprofile-arcs из вопроса. После профилирования с помощью perf я обнаружил, что единственное релевантное различие:

Быстрый случай gcc -std=c99 -O2 simp.c (работает в 3.1s)

Медленный случай gcc -std=c99 -O2 -ftree-vectorize simp.c (работает в 6.1s)

Что касается первого фрагмента: учитывая, что массив содержит только нули, мы всегда переходим к .L3. Это может сильно выиграть от предсказания ветвей.

Я полагаю, что инструкции cmovl не могут воспользоваться предсказанием ветвления.

Обновление: Так как оно появилось в комментариях: странное поведение производительности w.r.t. флаг -ftree-vectorize остается со случайными данными. Как указывает Якк, для сортировки выбора на самом деле сложно создать набор данных, который привел бы к множеству неверных предсказаний отрасли.

Так как он также появился: у меня есть процессор Core i5.

На основе комментария Якка, я создал тест. Код ниже (онлайн без повышения), конечно, уже не является алгоритмом сортировки; Я только вынул внутреннюю петлю. Его единственная цель - изучить эффект предсказания ветвей: Мы пропускаем ветвь if в цикле for с вероятностью p.

Это будет обозначаться как no cmov, флаг -fno-if-conversion был указан Turix в его ответе.

g++ -std=c++11 -O2 -fno-if-conversion -lboost_chrono -lboost_system -lrt branch3.cpp

Время выполнения как функция параметра Бернулли p

Код с инструкцией cmov абсолютно нечувствителен к p. Код без инструкции cmov является победителем, если p<0.26 или 0.81<p и не более 4.38x быстрее (p=1). Конечно, худшая ситуация для предсказателя ветвления составляет около p=0.5, где код на 1.58x медленнее, чем код с инструкцией cmov.

Ответы

Ответ 1

Примечание. Отвечено на вопрос до добавления графика к вопросу; некоторые ссылки на код сборки здесь могут быть устаревшими.

(адаптирован и расширен из нашего выше чата, что было достаточно стимулирующим, чтобы заставить меня сделать немного больше исследований.)

Сначала (согласно нашему чату выше), кажется, что ответ на ваш первый вопрос "да". В векторном "оптимизированном" коде оптимизация (отрицательно) влияет на производительность - это предикация ветки a, тогда как в исходном коде производительность (положительно) влияет на предсказание ветвления. (Обратите внимание на дополнительный " a" в первом.)

Повторите свой третий вопрос: хотя в вашем случае фактически нет векторизации, начиная с шага 11 ( "Условное исполнение" ) здесь, кажется, что один шагов, связанных с оптимизацией векторизации, - это "сгладить" условные выражения в целых циклах, как этот бит в вашем цикле:

if (a[j] < a[lowerElementIndex]
    lowerElementIndex = j;

По-видимому, это происходит, даже если нет векторизации.

Это объясняет, почему компилятор использует условные инструкции перемещения (cmovl). Цель состоит в том, чтобы полностью избежать ветки (в отличие от попытки правильно ее предсказать). Вместо этого две команды cmovl будут отправляться по конвейеру до того, как будет получен результат предыдущего cmpl, и результат сравнения будет "переадресован", чтобы включить/предотвратить перемещение до их обратной записи (т.е. До они фактически вступают в силу).

Обратите внимание, что если цикл был векторизован, это могло бы стоить того, чтобы он дошел до точки, где несколько итераций через цикл могли эффективно выполняться параллельно.

Тем не менее, в вашем случае попытка оптимизации на самом деле обходится, потому что в сплющенном цикле два условных перемещения отправляются через конвейер каждый раз через цикл. Это само по себе также может быть не так уж и плохим, за исключением того, что существует опасность RAW-данных, которая вызывает второе перемещение (cmovl %esi, %ecx), чтобы ждать завершения доступа к массиву/памяти (movl (%rsp,%rsi,4), %esi), даже если результат будет в конечном счете проигнорирован. Отсюда огромное время, потраченное на это cmovl. (Я бы ожидал, что это проблема с тем, что ваш процессор не имеет достаточно сложной логики, встроенной в реализацию предикации/пересылки, чтобы справиться с опасностью.)

С другой стороны, в неоптимизированном случае, как вы правильно поняли, предсказание ветвления может помочь избежать необходимости ждать результата соответствующего доступа к массиву/памяти (инструкция movl (%rsp,%rcx,4), %ecx). В этом случае, когда процессор правильно прогнозирует взятую ветвь (которая для массива all-0 будет выполняться каждый раз, но [равно] в случайном массиве должно [по-прежнему] быть ~~грубо~~ больше, чем [ отредактировано за комментарий @Yakk] в полтора раза), ему не нужно ждать, пока доступ к памяти завершится, и поставит в очередь следующие несколько инструкций в цикле. Таким образом, при правильных прогнозах вы получаете импульс, тогда как в неверных прогнозах результат не хуже, чем в "оптимизированном" случае, и, более того, лучше из-за способности иногда избегать двухзначных "cmovl инструкций в трубопровод.

[Следующее было удалено из-за моего ошибочного предположения о вашем процессоре за ваш комментарий.]
Вернемся к вашим вопросам, я бы предложил посмотреть на эту ссылку выше, чтобы узнать больше о флагах, относящихся к векторизации, но, в конце концов, я уверен, что прекрасно игнорировать эту оптимизацию, учитывая, что ваш Celeron не способен (в этом контексте).

[Добавлено после удаления выше]
Повторите свой второй вопрос ( "... как я могу предотвратить gcc от испускания этой инструкции..." ), вы можете попробовать флаги -fno-if-conversion и -fno-if-conversion2 (не уверены, что они всегда работают - они больше не работают мой mac), хотя я не думаю, что ваша проблема связана с инструкцией cmovl вообще (т.е. я не всегда буду использовать эти флаги), просто с ее использованием в этом конкретном контексте (где предсказание ветвлений будет очень полезный, данный @Yakk указывает на ваш алгоритм сортировки).