Скорость доступа к локальным и глобальным переменным в gcc/g++ на разных уровнях оптимизации

Я обнаружил, что разные уровни оптимизации компилятора в gcc дают совершенно разные результаты при доступе к локальной или глобальной переменной в цикле. Причина этого меня удивила в том, что если доступ к одному типу переменной более оптимизирован, чем доступ к другому, я бы подумал, что gcc-оптимизация будет использовать этот факт. Вот два примера (в С++, но их C-копии дают практически одинаковые тайминги):

который использует глобальную переменную long global, по сравнению с

На уровне оптимизации -O0 время по существу равно (как и ожидалось), при -O1 оно несколько быстрее, но все равно равно, но из -O2 версия с использованием глобальной переменной намного быстрее (фактор 7 или около того).

С другой стороны, в следующих фрагментах кода, где start указывает на блок байтов размера SIZE:

Здесь при -O0 тайминги близки, хотя версия, использующая локальную переменную, немного быстрее, что не кажется слишком неожиданным, поскольку, возможно, оно будет храниться в регистре, тогда как global не будет. Затем при -O1 и выше версия с использованием локальной переменной значительно быстрее (более 50% или 1,5 раза). Как отмечалось ранее, это меня удивляет, потому что я думаю, что для gcc было бы так же легко, как использовать локальную переменную (в сгенерированном оптимизированном коде) для последующего назначения глобальной.

Итак, мой вопрос: что это за глобальные и локальные переменные, которые заставляют gcc выполнять определенные оптимизации только одному типу, а не другому?

Некоторые детали, которые могут быть или не быть релевантными: я использовал gcc/g++ версию 3.4.5 на машине с RHEL4 с двумя одноядерными процессорами и 4 ГБ оперативной памяти. Значение, которое я использовал для SIZE, являющегося макросом препроцессора, составляло 1000000000. Блок байтов во втором примере был динамически распределен.

Ниже приведены некоторые временные выходы для уровней оптимизации от 0 до 4 (в том же порядке, что и выше):

ИЗМЕНИТЬ Это сгенерированная сборка для первых двух фрагментов с переключателем -O2, где наибольшая разница. Насколько я понимаю, это похоже на ошибку в компиляторе: 0x3b9aca00 является SIZE в шестнадцатеричном формате, 0x80496dc должен быть адресом глобального. Я проверил с новым компилятором, и этого больше не происходит. Однако разница во второй паре фрагментов аналогична.

Наконец, вот код оставшихся фрагментов, теперь сгенерированный gcc 4.3.3 с использованием -O3 (хотя старая версия, похоже, генерирует аналогичный код). Похоже, что global2 (..) компилируется в функцию, обращающуюся к глобальной ячейке памяти на каждой итерации цикла, где local2 (..) использует регистр. Мне все еще не ясно, почему gcc не будет оптимизировать глобальную версию, используя регистр в любом случае. Это просто недостающая функция, или это действительно приведет к неприемлемому поведению исполняемого файла?

Ответы

Ответ 1

Локальная переменная tmp, адрес которой не занят, не может указываться указателем p, и компилятор может оптимизировать соответственно. Гораздо сложнее сделать вывод о том, что глобальная переменная global не указана, если она не была static, поскольку адрес этой глобальной переменной можно было бы взять в другой блок компиляции и передать.

Если чтение сборки указывает на то, что компилятор заставляет себя загружать из памяти чаще, чем вы ожидали, и вы знаете, что сглаживание, о котором он беспокоится, не может существовать на практике, вы можете помочь ему, скопировав глобальную переменную в локальную переменная в верхней части функции и использование только локальной в остальной части функции.

Наконец, обратите внимание, что если указатель p имел другой тип, компилятор мог бы вызывать "правила строгого сглаживания" для оптимизации независимо от его неспособности сделать вывод, что p не указывает на global. Но поскольку lvalues типа char часто используются для наблюдения за представлением других типов, имеется учет такого псевдонима, и компилятор не может воспользоваться этим ярлыком в вашем примере.

Ответ 2

Глобальная переменная = глобальная память и подвержена сглаживанию (читайте как: плохо для оптимизатора - должна читать-модифицировать-писать в худшем случае).

Локальная переменная = регистр (если компилятор действительно не может это сделать, иногда она также должна помещаться в стек, но стек практически гарантированно находится в L1)

Доступ к регистру осуществляется по порядку одного цикла, доступ к памяти составляет порядка 15-1000 циклов (в зависимости от того, находится ли строка кэша в кеше и не является недействительной другим ядром, и в зависимости от того, в TLB).