Почему мой более сложный цикл C быстрее?

Я смотрю на производительность memchr -подобных функций и сделал интересное наблюдение.

Это check.c с тремя реализациями, чтобы найти смещение символа \n в строке:

Я запускаю эти функции в строке байтов, которая может быть описана выражением Haskell (concat $ replicate 10000 "abcd") ++ "\n" ++ "hello" - это 10000 раз asdf, затем новая строка для поиска, а затем hello. Конечно, все 3 реализации возвращают одинаковое смещение: 40000, как ожидалось.

Интересно, что при компиляции с gcc -O2 время выполнения этой строки:

(Я использую библиотеку criterion для измерения этих времен с статистической точностью.)

Я не могу объяснить это самому себе. Почему mem2 намного быстрее, чем два других?

Сборка, созданная с помощью gcc -S -O2 -o check.asm check.c:

Ответы

Ответ 1

Мое лучшее предположение заключается в том, что это связано с зависимостью регистра - если вы посмотрите на основной цикл с 3 командами в mem1, у вас есть круговая зависимость от rax. Naïvely, это означает, что каждая команда должна дождаться окончания последней - на практике это означает, что если инструкции не будут удалены достаточно быстро, микроархитектура может закончиться из регистров, чтобы переименовать и просто отказаться и свалиться на бит.

В mem2 факт, что в цикле есть 4 команды, а возможно, и тот факт, что больше явного конвейера при использовании как rax, так и edx/dl - вероятно, дает исключение - аппаратное обеспечение исполнения заказа легче, поэтому оно более эффективно конвейеризуется.

Я не претендую на роль эксперта, так что это может быть полная глупость, но на основе того, что я изучил Agner Fog абсолютное золото в оптимизации Intel детали, это не кажется совершенно необоснованной гипотезой.

Изменить: из интереса я тестировал mem1 и mem2 на моей машине (Core 2 Duo E7500), скомпилированный с -O2 -falign-functions = 64 на тот же самый ассемблерный код. Вызывая либо функцию с заданной строкой 1 000 000 раз в цикле, и используя Linux time, я получаю ~ 19 с для mem1 и ~ 18.8s для mem2 - намного меньше, чем разница 25% в новой микроархитектуре. Угадайте, что нужно купить i5...

Ответ 2

Ваш вход таков, что быстрее mem2. Каждая буква на входе, отличная от "\n", имеет значение больше, чем "$", поэтому условие if является ложным из первой части выражения (x <= '$') и второй части выражения ( x == '\n' || x == '\ 0') никогда не выполняется. Если вы будете использовать "####" вместо "abcd", я подозреваю, что выполнение будет медленнее.

Ответ 3

В кэше тест mem1() берет на себя основную нагрузку на кеш.

Запустите тест mem1() сначала и снова как последний, и используйте второй раз, поскольку он отражает загрунтованный кеш, как и другие тесты. Уверенно это будет быстрее и более справедливое сравнение времени.