Как измерить накладные расходы на вызовы функций?

Я хотел измерить и сравнить накладные расходы на различные вызовы функций. Разные в смысле двух альтернативных способов борьбы с расширением класса при минимизации модификации кода:

Оба этих параметра сравниваются с вызовом никакой функции вообще. Я также знаю, что NVI идиома обычно используется при проектировании классов, поддерживающих динамический полиморфизм - пример, который я использовал, был просто ориентиром для накладных расходов,

Вот код, который я пытался использовать для этой цели:

Я скомпилировал код с помощью gcc 4.8.2 и на машине Linux x86_64 со следующей моделью процессора: Intel (R) Core (TM) i7-4700MQ CPU @2.40GHz.

Доступ к функции виртуального члена осуществляется в одном тесте через необработанный указатель, а другой - через unique_ptr. Сначала я скомпилировал код без каких-либо оптимизаций:

и выполнил 1000 тестов со следующей командой оболочки:

Файл результатов, который я построил, используя следующий gnuplot script (отметить логарифмическую ось y):

Для неоптимизированного кода диаграмма выглядит так:

Q1 Действительно ли вызов виртуальной функции через unique_ptr становится самым дорогим, потому что он включает перенаправление, когда разыменования указатель на управляемый объект?

Затем я включил оптимизацию и скомпилировал код с помощью:

Q2: Являются ли виртуальные члены наиболее дорогостоящими в этом случае, поскольку при доступе через указатель базового класса или ссылку (отправка виртуальной таблицы включена), невозможно для компилятор, чтобы сделать их встроенными?

Q3: Этот вопрос заставил меня опубликовать все это: как в оптимизированной диаграмме возможно, что статические и членские политики в конечном итоге быстрее, чем развернутый код для этого простого примера?

Изменить: создание result volatile и компиляция с включенными оптимизациями увеличивает время выполнения политик намного больше, но они похожи на код необработанного умножения:

Изменить, изменив код так, чтобы результат был добавлен вместо назначенного (предложенный dyk в комментариях) без использования volatile:

с той же диаграммой, что и для исходного кода.

Ответы

Ответ 1

Глядя на разборку -O3 -march=native -std=c++11 на ваш код, показано, что компилятор делает "слишком большую" оптимизацию, обнаруживая ненужное повторное воздействие на ту же неиспользуемую переменную. Как было предложено в комментариях, я использовал += вместо =. Я также инициализировал result = 0 и main возвращает result вместо 0, чтобы убедиться, что компилятор вычисляет его значение. Этот модифицированный код дает:

noFunction, staticPolicy и memberPolicy опускается как mulsd, addsd, addsd, то есть скалярная инструкция SSE. Clang также не вектурирует (с вариантами ванили), но Intel icc делает (он генерирует векторные и не векторные версии и прыжки в зависимости от выравнивания и подсчета итераций).
virtualMemberFunction и virtualMemberFunctionRaw приводят к вызову динамической функции (без дешифрования и вставки)

Вы можете сами убедиться, вставив код здесь.

Чтобы ответить на ваш Q1 "указатель vs unique_ptr в сборке отладки": в -O0 вызовы не встроены автоматически, в частности, unique_ptr::operator-> вызывается явно без вложения, так что 2 вызова функции на итерацию вместо 1 для обычных указателей. Эта разница исчезает для оптимизированных построек

Чтобы ответить на ваш Q2, можно ли встраивать виртуальные вызовы: в этом примере gcc и clang не строят вызов, потому что они, вероятно, не выполняют достаточно статического анализа. Но вы можете им помочь. Например, с clang 3.3 (но не 3.2, а не gcc), объявляющим метод как const и __attribute((pure)) выполняет задание. В gcc (4.8, pre-4.9) я попытался маркировать метод как final и скомпилировать с помощью -fwhole-program, но это не устранило вызов. Так что да в этом конкретном случае можно де виртуализировать, но не надежно. В общем, jitted компиляторы (С#, Java) лучше де виализуют, потому что они могут сделать лучшее предположение из информации о времени выполнения.