Visual С++ x64 добавить с переносом
Поскольку для ADC не существует встроенного асинхронного метода, и я не могу использовать встроенный ассемблер для архитектуры x64 с Visual С++, что делать, если я хочу написать функцию с помощью add with carry, но включите ее в Пространство имен С++?
(Эмуляция с помощью операторов сравнения не является вариантом. Этот 256-мегабитный add имеет критическую производительность.)
Ответы
Ответ 1
В MSVC теперь есть instrinsic для ADC
: _addcarry_u64
. Следующий код
#include <inttypes.h>
#include <intrin.h>
#include <stdio.h>
typedef struct {
uint64_t x1;
uint64_t x2;
uint64_t x3;
uint64_t x4;
} uint256;
void add256(uint256 *x, uint256 *y) {
unsigned char c = 0;
c = _addcarry_u64(c, x->x1, y->x1, &x->x1);
c = _addcarry_u64(c, x->x2, y->x2, &x->x2);
c = _addcarry_u64(c, x->x3, y->x3, &x->x3);
_addcarry_u64(c, x->x4, y->x4, &x->x4);
}
int main() {
//uint64_t x1, x2, x3, x4;
//uint64_t y1, y2, y3, y4;
uint256 x, y;
x.x1 = x.x2 = x.x3 = -1; x.x4 = 0;
y.x1 = 2; y.x2 = y.x3 = y.x4 = 0;
printf(" %016" PRIx64 "%016" PRIx64 "%016" PRIx64 "%016" PRIx64 "\n", x.x4, x.x3, x.x2, x.x1);
printf("+");
printf("%016" PRIx64 "%016" PRIx64 "%016" PRIx64 "%016" PRIx64 "\n", y.x4, y.x3, y.x2, y.x1);
add256(&x, &y);
printf("=");
printf("%016" PRIx64 "%016" PRIx64 "%016" PRIx64 "%016" PRIx64 "\n", x.x4, x.x3, x.x2, x.x1);
}
выводит следующий результат сборки из Visual Studio Express 2013
mov rdx, QWORD PTR x$[rsp]
mov r8, QWORD PTR x$[rsp+8]
mov r9, QWORD PTR x$[rsp+16]
mov rax, QWORD PTR x$[rsp+24]
add rdx, QWORD PTR y$[rsp]
adc r8, QWORD PTR y$[rsp+8]
adc r9, QWORD PTR y$[rsp+16]
adc rax, QWORD PTR y$[rsp+24]
который имеет один add
и три ADC
, как ожидалось.
Edit:
Кажется, есть некоторая путаница в отношении того, что делает _addcarry_u64
. Если вы посмотрите на документацию Microsoft, для которой я связан в начале этого ответа, это показывает, что для этого не требуется специальное оборудование. Это создает ADC
, и он будет работать на всех процессорах x86-64 (и _addcarry_u32
будет работать на более старых процессорах). Он отлично работает в системе Ivy Bridge, в которой я тестировал ее.
Однако _addcarryx_u64
требует adx
(как показано в документации MSFT), и действительно, он не запускается в моей системе Ivy Bridge.
Ответ 2
VS2010 имеет встроенную поддержку для компиляции и связывания кода, написанного в сборке и переведенного MASM (ml64.exe). Вам просто нужно перепрыгнуть через несколько обручей, чтобы включить его:
- Щелкните правой кнопкой мыши проект в окне "Обозреватель решений", "Построить настройки", отметьте "masm".
- Проект + Добавить новый элемент, выберите шаблон файла С++, но назовите его something.asm
- Убедитесь, что у вас есть целевая платформа платформы x64 для проекта. Build + Configuration Manager, выберите "x64" в комбо "Активная платформа решений". Если отсутствует, выберите
<New>
и выберите x64 из первого комбо. Если вам не хватает, вам придется повторно запустить настройку и добавить поддержку для 64-разрядных компиляторов.
Напишите код сборки с использованием синтаксиса MASM, ссылка здесь. Учебник по быстрому запуску находится здесь.
Скелет для кода сборки выглядит следующим образом:
.CODE
PUBLIC Foo
Foo PROC
ret ; TODO: make useful
Foo ENDP
END
И вызывается из кода на С++ следующим образом:
extern "C" void Foo();
int main(int argc, char* argv[])
{
Foo();
return 0;
}
Доступна полная поддержка отладки, вам обычно потребуется, по крайней мере, использовать окно Debug + Windows + Registers.
Ответ 3
Я реализовал 256-битное целое число с использованием массива unsigned long long
и использовал сборку x64 для реализации добавления с переносом. Здесь вызывающий С++:
#include "stdafx.h"
extern "C" void add256(unsigned long long *a, unsigned long long * b, unsigned long long *c);
int _tmain(int argc, _TCHAR* argv[])
{
unsigned long long a[4] = {0x8000000000000001, 2, 3, 4};
unsigned long long b[4] = {0x8000000000000005, 6, 7, 8};
unsigned long long c[4] = {0, 0, 0, 0};
add256(a, b, c); // c[] == {6, 9, 10, 12};
return 0;
}
add256
реализуется в сборке:
; void add256(unsigned long long *a, unsigned long long * b, unsigned long long *c)
.CODE
PUBLIC add256
add256 PROC
mov qword ptr [rsp+18h],r8
mov qword ptr [rsp+10h],rdx
mov qword ptr [rsp+8],rcx
push rdi
; c[0] = a[0] + b[0];
mov rax,qword ptr 16[rsp]
mov rax,qword ptr [rax]
mov rcx,qword ptr 24[rsp]
add rax,qword ptr [rcx]
mov rcx,qword ptr 32[rsp]
mov qword ptr [rcx],rax
; c[1] = a[1] + b[1] + CARRY;
mov rax,qword ptr 16[rsp]
mov rax,qword ptr [rax+8]
mov rcx,qword ptr 24[rsp]
adc rax,qword ptr [rcx+8]
mov rcx,qword ptr 32[rsp]
mov qword ptr [rcx+8],rax
; c[2] = a[2] + b[2] + CARRY;
mov rax,qword ptr 16[rsp]
mov rax,qword ptr [rax+10h]
mov rcx,qword ptr 24[rsp]
adc rax,qword ptr [rcx+10h]
mov rcx,qword ptr 32[rsp]
mov qword ptr [rcx+10h],rax
; c[3] = a[3] + b[3] + CARRY;
mov rax,qword ptr 16[rsp]
mov rax,qword ptr [rax+18h]
mov rcx,qword ptr 24[rsp]
adc rax,qword ptr [rcx+18h]
mov rcx,qword ptr 32[rsp]
mov qword ptr [rcx+18h],rax
; }
pop rdi
ret
add256 endp
end
Я знаю, что вы указываете, что не хотите эмулировать добавление с переносным решением и хотите получить высокопроизводительное решение, но, тем не менее, вы можете рассмотреть следующее решение на С++, которое имеет хороший способ моделирования 256-битных чисел:
#include "stdafx.h"
int _tmain(int argc, _TCHAR* argv[])
{
unsigned long long a[4] = {0x8000000000000001, 2, 3, 4};
unsigned long long b[4] = {0x8000000000000005, 6, 7, 8};
unsigned long long c[4] = {0, 0, 0, 0};
c[0] = a[0] + b[0]; // 6
c[1] = a[1] + b[1] + (c[0] < a[0]); // 9
c[2] = a[2] + b[2] + (c[1] < a[1]); // 10
c[3] = a[3] + b[3] + (c[2] < a[2]); // 12
return 0;
}