Использование этого указателя вызывает странную деоптимизацию в горячем цикле

Недавно я столкнулся с странной деоптимизацией (или, скорее, упущенной возможностью оптимизации).

Рассмотрим эту функцию для эффективной распаковки массивов трехбитовых целых чисел в 8-битные целые числа. Он распаковывает 16 ints в каждой итерации цикла:

Вот сгенерированная сборка для частей кода:

Он выглядит довольно эффективно. Просто a shift right, за которым следует and, а затем a store в буфер target. Но теперь посмотрите, что произойдет, когда я сменил функцию на метод в структуре:

Я думал, что сгенерированная сборка должна быть совершенно одинаковой, но это не так. Вот его часть:

Как вы видите, мы вводили дополнительную избыточность load из памяти перед каждой сменой (mov rdx,QWORD PTR [rdi]). Похоже, что указатель target (который теперь является членом вместо локальной переменной) должен быть всегда перезагружен перед сохранением в нем. Это значительно замедляет код (около 15% в моих измерениях).

Сначала я подумал, что, возможно, модель памяти С++ обеспечивает, чтобы указатель-член не мог быть сохранен в регистре, но его нужно перезагрузить, но это казалось неудобным выбором, поскольку это сделало бы много жизнеспособных оптимизаций невозможным. Поэтому я был очень удивлен, что компилятор не сохранил target в регистре здесь.

Я попытался кэшировать указатель на себя в локальную переменную:

Этот код также дает "хороший" ассемблер без дополнительных магазинов. Поэтому я предполагаю следующее: компилятору не разрешается поднимать нагрузку указателя на элемент структуры, поэтому такой "горячий указатель" всегда должен храниться в локальной переменной.

Используемый компилятор был g++ 4.8.2-19ubuntu1 с оптимизацией -O3. Я также пробовал clang++ 3.4-1ubuntu3 с аналогичными результатами: Clang даже способен векторизовать метод с помощью локального указателя target. Однако использование указателя this->target дает тот же результат: дополнительная нагрузка указателя перед каждым хранилищем.

Я проверил ассемблер некоторых подобных методов, и результат тот же: Кажется, что элемент this всегда должен быть перезагружен перед хранилищем, даже если такую нагрузку можно просто вытащить за пределы цикла. Мне придется переписать много кода, чтобы избавиться от этих дополнительных хранилищ, главным образом, путем кэширования указателя в локальную переменную, объявленную выше горячего кода. Но я всегда думал, что с такими деталями, как кеширование указателя в локальной переменной, наверняка будет претендовать на преждевременную оптимизацию в эти дни, когда компиляторы стали настолько умными. Но, похоже, я здесь не так.. Кэширование указателя элемента в горячем контуре кажется необходимым методом ручной оптимизации.

Ответы

Ответ 1

Сглаживание указателя кажется проблемой, по иронии судьбы между this и this->target. Компилятор учитывает довольно неприличную возможность, которую вы инициализировали:

this->target = &this

В этом случае запись в this->target[0] изменит содержимое this (и, следовательно, this- > target).

Проблема с псевдонимом памяти не ограничивается приведенным выше. В принципе, любое использование this->target[XX] с учетом (in) соответствующего значения XX может указывать на this.

Я лучше разбираюсь в C, где это можно устранить, объявив переменные указателя с помощью ключевого слова __restrict__.

Ответ 2

Строгие правила сглаживания позволяют char* выполнять псевдоним любого другого указателя. Таким образом, this->target может иметь псевдоним this, а в вашем методе кода - первую часть кода,

target[0] = t & 0x7;
target[1] = (t >> 3) & 0x7;
target[2] = (t >> 6) & 0x7;

на самом деле

this->target[0] = t & 0x7;
this->target[1] = (t >> 3) & 0x7;
this->target[2] = (t >> 6) & 0x7;

как this может быть изменен при изменении содержимого this->target.

Как только this->target кэшируется в локальную переменную, псевдоним больше невозможен с локальной переменной.

Ответ 3

Проблема заключается в строгом псевдониме, в котором говорится, что нам разрешен псевдоним через char *, и поэтому это предотвращает оптимизацию компилятора в ваш случай. Нам не разрешают псевдоним с помощью указателя другого типа, который будет undefined поведения, обычно на SO, мы видим эту проблему, которая является попыткой пользователя с помощью несовместимых типов указателей.

Казалось бы разумным реализовать uint8_t как unsigned char, и если мы посмотрим на cstdint на Coliru, он включает stdint.h, который typedefs uint8_t выглядит следующим образом:

typedef unsigned char       uint8_t;

если вы использовали другой тип char, тогда компилятор должен иметь возможность оптимизировать.

Это описано в стандартном разделе проекта С++ 3.10 Lvalues и rvalues, в котором говорится:

Если программа пытается получить доступ к сохраненному значению объекта через значение gl, отличное от одного из следующие типы: undefined

и включает следующую марку:

a char или неподписанный char тип.

Заметьте, я разместил комментарий о возможной работе вокруг в вопросе, который спрашивает, когда isuint8_t ≠ unsigned char? и рекомендация:

Тривиальное обходное решение, однако, заключается в использовании ключевого слова ограничения или скопируйте указатель на локальную переменную, адрес которой никогда не берется так что компилятору не нужно беспокоиться о том, будет ли uint8_t объекты могут использовать его.

Так как С++ не поддерживает ключевое слово ограничения, вы должны полагаться на расширение компилятора, например gcc использует __restrict__, поэтому это не полностью переносимо но другое предложение должно быть.