Добавление нескольких слов с использованием флага переноса

GCC имеет 128-битные целые числа. Используя их, я могу заставить компилятор использовать инструкции mul (или imul только с одним операндом). Например

создает mul. Я использовал это для создания функции 128x128 до 256 (см. Конец этого вопроса перед обновлением для кода, если вам это интересно).

Теперь я хочу сделать 256-битное дополнение, и я не нашел способ заставить компилятор использовать ADC, кроме как с помощью сборки. Я мог бы использовать ассемблер, но я хочу встроенные функции для повышения эффективности. Компилятор уже создает эффективную функцию от 128x128 до 256 (по причине, которую я объяснял в начале этого вопроса), поэтому я не понимаю, почему я должен переписать это в сборке (или любые другие функции, которые компилятор уже реализует эффективно).

Вот встроенная функция сборки, с которой я пришел:

Зачем нужна сборка? Почему компилятор не компилирует функцию add256 для использования флагов переноса? Есть ли способ заставить компилятор сделать это (например, могу ли я изменить add256, чтобы он это сделал)? Что делать для компилятора, который не поддерживает встроенную сборку (написать все функции в сборке?) Почему для этого не существует?

Мой вопрос в основном дублирует эти вопросы:

Кстати, MSVC уже имеет _umul128 собственный. Таким образом, хотя MSVC не имеет __int128, встроенный _umul128 может быть использован для генерации mul и, следовательно, умножения на 128 бит.

Инструктаж MULX доступен с BMI2 в Хасуэлле. Для процессоров Broadwell доступны инструкции ADCX и ADOX. Слишком плохо, что для ADC, который был доступен с 8086 в 1979 году, не существует. Это решит проблему встроенной сборки.

Изменить: на самом деле __int128 будет использовать MULX, если BMI2 определен (например, с помощью -mbmi2 или - march=haswell).

Я попробовал добавить Clang с несущими носителями, как предложено Lưu Vĩnh Phúc

но это не сгенерировано ADC, и это сложнее, чем я ожидаю.

Ответы

Ответ 1

Я нашел решение с ICC 13.0.01, используя встроенный _addcarry_u64

void add256(uint256 *x, uint256 *y) {
    unsigned char c = 0;
    c = _addcarry_u64(c, x->x1, y->x1, &x->x1);
    c = _addcarry_u64(c, x->x2, y->x2, &x->x2);
    c = _addcarry_u64(c, x->x3, y->x3, &x->x3);
        _addcarry_u64(c, x->x4, y->x4, &x->x4);
}

производит

L__routine_start_add256_0:
add256:
        xorl      %r9d, %r9d                                    #25.9
        movq      (%rsi), %rax                                  #22.9
        addq      %rax, (%rdi)                                  #22.9
        movq      8(%rsi), %rdx                                 #23.9
        adcq      %rdx, 8(%rdi)                                 #23.9
        movq      16(%rsi), %rcx                                #24.9
        adcq      %rcx, 16(%rdi)                                #24.9
        movq      24(%rsi), %r8                                 #25.9
        adcq      %r8, 24(%rdi)                                 #25.9
        setb      %r9b                                          #25.9
        ret                                                     #26.1

Я скомпилирован с -O3. Я не знаю, как включить adx с ICC. Может быть, мне нужен ICC 14?

Точно 1 addq и три adcq, как я ожидаю.

С помощью Clang результат с использованием -O3 -madx представляет собой беспорядок

add256(uint256*, uint256*):                  # @add256(uint256*, uint256*)
movq    (%rsi), %rax
xorl    %ecx, %ecx
xorl    %edx, %edx
addb    $-1, %dl
adcq    %rax, (%rdi)
addb    $-1, %cl
movq    (%rdi), %rcx
adcxq   %rax, %rcx
setb    %al
movq    8(%rsi), %rcx
movb    %al, %dl
addb    $-1, %dl
adcq    %rcx, 8(%rdi)
addb    $-1, %al
movq    8(%rdi), %rax
adcxq   %rcx, %rax
setb    %al
movq    16(%rsi), %rcx
movb    %al, %dl
addb    $-1, %dl
adcq    %rcx, 16(%rdi)
addb    $-1, %al
movq    16(%rdi), %rax
adcxq   %rcx, %rax
setb    %al
movq    24(%rsi), %rcx
addb    $-1, %al
adcq    %rcx, 24(%rdi)
retq

Без включения -madx в Clang результат не намного лучше.

Изменить: У MSVC уже есть _addcarry_u64. Я попробовал это, и это было так же хорошо, как ICC (1x add и 3x adc).