Инструкции SSE 4, созданные Visual Studio 2013 Update 2 и Update 3

Если я скомпилирую этот код в VS 2013 Update 2 или Update 3: (ниже приведено обновление 3)

с включенными инструкциями SSE2, но не AVX/AVX2, компилятор в выпуске генерирует:

который содержит, помимо прочего, инструкции pmaxsd.

pmaxsd инструкции инструкции SSE4_1 или инструкции AVX, насколько я могу судить, а не инструкции SSE2.

Это не происходит в обновлении VS2013 1 или обновлении 0.

Есть ли способ заставить Visual Studio генерировать инструкции SSE2, но не инструкции SSE4, такие как pmaxsd? Является ли это известной ошибкой в обновлении Visual Studio 2/3? Есть ли обходной путь? Visual Studio больше не поддерживает процессоры Core2?

Вот более сложная версия приведенного выше кода, который компилирует (в соответствии с настройками по умолчанию) код, который выдает CPU Core2:

у нас есть тест, который переходит в версию "одного шага", если либо (A) цикл меньше 8 длинный, либо (B) у нас нет поддержки SSE3/SSE4.

который не имеет инструкций SSE. Однако важной частью является падение. Если eax (параметр итерации) проходит 10, он проваливается в:

который представляет собой код, который находит максимальный результат как результатов одноступенчатой версии, так и результатов SSE4. Третья инструкция pmaxsd, которая является инструкцией SSE4_1 и не защищена __isa_available.

Есть ли параметр компилятора или обходной путь, который может оставить автоматическую векторию неповрежденной, не вызывая инструкции SSE4_1 на компьютерах с поддержкой Core2 SSE2? Есть ли ошибка в моем коде, которая вызывает это?

Обратите внимание, что мои попытки удалить двойной вложенный характер цикла, похоже, заставляют проблему уйти.

Ответы

Ответ 1

Это документальное поведение:

В Auto-Vectorizer также используется новый набор инструкций SSE4.2, если ваш компьютер поддерживает его.

Если вы посмотрите на код, который генерирует компилятор, вы увидите, что использование инструкций SSE4.2 зависит от теста времени выполнения:

cmp DWORD PTR ___isa_available, 2
jl  SHORT [email protected]

Значение 2 здесь по-видимому, означает SSE4.2.

Однако я смог подтвердить ошибку во втором примере. Оказывается, ядро Core 2, которое я использовал, поддерживает SSE4.1 и инструкцию PMAXSD, поэтому мне пришлось протестировать ее на ПК с процессором Pentium 4, чтобы получить исключение из-за незаконных команд. Вы должны отправить отчет об ошибке в Microsoft Connect. Не забудьте упомянуть конкретную модель процессора Core 2, в которой ваш примерный код не работает.

Что касается обходного пути, я могу предложить только изменить уровень оптимизации для затронутой функции. Переход от оптимизации скорости к оптимизации для размера, похоже, генерирует тот же самый код, который будет использоваться только с инструкциями SSE2. Вы можете использовать #pragma optimize для переключения уровня оптимизации следующим образом:

#pragma optimize("s", on)

long Code(Buffer* buff)
{
     ...
}

#pragma optimize("", on)

Как зарегистрированный в этом отчете об ошибке, /d2Qvec-sse2only - это недокументированный флаг, который работает с обновлением 3 (и, возможно, обновлением 2), чтобы предотвратить компилятор выводит команды SSE4. Естественно, это может предотвратить некоторые векторы. /d2Qvec-sse2only может перестать работать в любой момент ( "подлежит будущему изменению без уведомления" ), возможно, в будущих версиях VC.

Microsoft утверждает, что эта проблема исправлена в обновлении 4 и в обновлении 4 CTP 2 (не для использования в производстве).