Невозможно принудительно включить функцию С++ с помощью компилятора Intel

(__m512d - это собственное сопоставление типа данных для регистров SIMD в архитектуре Intel MIC)

Поскольку эта функция довольно короткая и часто вызывается, я бы хотел, чтобы она была встроена при каждом вызове. Но компилятор Intel, похоже, неохотно встраивает эту функцию даже после использования опций -inline-forceinline и -O3. В нем сообщается, что "Forceinline not honored for call..." при компиляции. Поскольку я должен использовать некоторые специфичные для компилятора функции, например. тип __m512d, компилятор Intel - мой единственный вариант.

Структура файла довольно проста. Функция vec_add определяется в заголовочном файле mic.h, который включен в другой файл test.cc. Функция vec_add просто вызывается повторно в цикле, и в ней нет указателей на функции. A упрощенная версия кода в test.cc выглядит так:

Я пробовал всевозможные подсказки, такие как __attribute__((always_inline)), __forceinline и параметр компилятора -inline-forceinline, ни один из которых не работал.

Я собрал весь соответствующий код в упрощенной форме. Вы можете попробовать, если у вас есть компилятор Intel. Используйте опцию -Winline для просмотра встроенных отчетов и -inline-forceinline для принудительной вставки.

У вас есть идея, почему эта функция не может быть встроена? И как я могу получить его inlined в конце концов (я не хочу обращаться к макросам)?

Ответы

Ответ 1

По какой-то причине Intel Compiler не выполняет функции функций в выгруженном коде (я не так хорошо знаком с этой концепцией, поэтому не знаю, какая техническая причина для этого). См. effective-use-of-the-intel-compilers-offload-features для получения дополнительной информации (просто найдите "встроенный" ).

Цитата из связанной статьи:

Функция Встраивание в конструкцию выгрузки

Иногда для обеспечения максимальной производительности сгенерированный код. Функции, вызываемые непосредственно внутри разгрузки #pragma не встроены компилятором, даже если они отмечены как встроенные. к обеспечить оптимальную производительность кода в регионах разгрузки, либо вручную встроенные функции, или поместить всю конструкцию разгрузки в ее собственную функция.

...

Одним из решений является функция inline вручную, как показано в функции v2.

Другое решение - переместить конструкцию разгрузки в ее собственную как показано в функции v3.

Если я правильно понимаю это, лучше всего сделать для вас петли в отдельную функцию, которая также отмечена __attribute ((target (mic))).