Я написал программу и скомпилировал ее для платформы x64 и x86 в Visual Studio 2010 на Intel Core i5-2500. Для версии x64 требуется около 19 секунд, а x86 занимает около 17 секунд. Что может быть причиной такого поведения?

Ответы

Ответ 1

Короткий ответ: Это компилятор с икотой. x64 оптимизатор не работает.

Длинный ответ:

Эта версия x86 очень медленная, если SSE2 отключен. Но я могу воспроизвести результаты с поддержкой SSE2 в x86.

Если вы погрузитесь в сборку этого внутреннего цикла. Версия x64 имеет две дополнительные копии памяти в конце.

x86:

[email protected]:
movsd   xmm2, QWORD PTR [eax-8]
movsd   xmm0, QWORD PTR [eax-16]
movsd   xmm3, QWORD PTR [eax]
movapd  xmm1, xmm0
mulsd   xmm0, QWORD PTR [email protected]
movapd  xmm7, xmm2
mulsd   xmm2, QWORD PTR [email protected]
mulsd   xmm7, xmm5
mulsd   xmm1, xmm4
addsd   xmm1, xmm7
movapd  xmm7, xmm3
mulsd   xmm3, QWORD PTR [email protected]
mulsd   xmm7, xmm6
add eax, 24                 ; 00000018H
addsd   xmm1, xmm7
addsd   xmm0, xmm2
movq    QWORD PTR [ecx], xmm1
addsd   xmm0, xmm3
movq    QWORD PTR [ecx+8], xmm0
lea edx, DWORD PTR [eax-16]
add ecx, 16                 ; 00000010H
cmp edx, esi
jne SHORT [email protected]

64:

[email protected]:
movsdx  xmm3, QWORD PTR [rdx-8]
movsdx  xmm5, QWORD PTR [rdx-16]
movsdx  xmm4, QWORD PTR [rdx]
movapd  xmm2, xmm3
mulsd   xmm2, xmm6
movapd  xmm0, xmm5
mulsd   xmm0, xmm7
addsd   xmm2, xmm0
movapd  xmm1, xmm4
mulsd   xmm1, xmm8
addsd   xmm2, xmm1
movsdx  QWORD PTR r$109492[rsp], xmm2
mulsd   xmm5, xmm9
mulsd   xmm3, xmm10
addsd   xmm5, xmm3
mulsd   xmm4, xmm11
addsd   xmm5, xmm4
movsdx  QWORD PTR r$109492[rsp+8], xmm5
mov rcx, QWORD PTR r$109492[rsp]
mov QWORD PTR [rax], rcx
mov rcx, QWORD PTR r$109492[rsp+8]
mov QWORD PTR [rax+8], rcx
add rax, 16
add rdx, 24
lea rcx, QWORD PTR [rdx-16]
cmp rcx, rbx
jne SHORT [email protected]

Версия x64 имеет намного больше (необъяснимых) ходов в конце цикла. Это похоже на некоторую копию данных с памятью на память.

EDIT:

Оказывается, оптимизатор x64 не может оптимизировать следующую копию:

(*i2) = r;

Вот почему внутренний цикл имеет две дополнительные копии памяти. Если вы измените цикл на это:

std::for_each(m.begin(), m.end(),
    [&](const Vector& v)
{
    i2->x = Dot(axisX, v);
    i2->y = Dot(axisY, v);
    ++i2;
});

Это устраняет копии. Теперь версия x64 так же быстро, как и версия x86:

x86: 0.0249423
x64: 0.0249348

Извлеченные уроки: Компиляторы не идеальны.

Ответ 2

Я не отвечаю на ваш вопрос, но я думаю, что стоит упомянуть:

Вы не должны писать векторные классы самостоятельно. Для векторов с фиксированной длиной используйте boost:: Array или cv:: Vec2d и cv:: Vec3d, который имеет встроенные точки и другие быстрые функции, такие как операция +, - и т.д. (также предлагается cv:: Vec < type, length > )

Ответ 3

64-бит обычно немного медленнее 32-битного (для кода, который специально не использует преимущества 64-битных функций). Одна из особых проблем заключается в том, что указатели больше, уменьшая количество, которое может храниться в кеше.

Почему программа С++, скомпилированная для платформы x64, медленнее, чем компилируется для x86?

Ответы

Ответ 1

EDIT:

Ответ 2

Ответ 3