Поймите код сборки, сгенерированный простой программой C

Я пытаюсь понять код уровня сборки для простой программы на C, проверив его с помощью дизассемблера gdb.

Ниже приведен код C:

#include <stdio.h>

void function(int a, int b, int c) {
   char buffer1[5];
   char buffer2[10];
}

void main() {
  function(1,2,3);
}

Ниже приведен код разборки для main и function

gdb) disass main
Dump of assembler code for function main:
0x08048428 <main+0>:    push   %ebp
0x08048429 <main+1>:    mov    %esp,%ebp
0x0804842b <main+3>:    and    $0xfffffff0,%esp
0x0804842e <main+6>:    sub    $0x10,%esp
0x08048431 <main+9>:    movl   $0x3,0x8(%esp)
0x08048439 <main+17>:   movl   $0x2,0x4(%esp)
0x08048441 <main+25>:   movl   $0x1,(%esp)
0x08048448 <main+32>:   call   0x8048404 <function>
0x0804844d <main+37>:   leave  
0x0804844e <main+38>:   ret
End of assembler dump.

(gdb) disass function
Dump of assembler code for function function:
0x08048404 <function+0>:    push   %ebp
0x08048405 <function+1>:    mov    %esp,%ebp
0x08048407 <function+3>:    sub    $0x28,%esp
0x0804840a <function+6>:    mov    %gs:0x14,%eax
0x08048410 <function+12>:   mov    %eax,-0xc(%ebp)
0x08048413 <function+15>:   xor    %eax,%eax
0x08048415 <function+17>:   mov    -0xc(%ebp),%eax
0x08048418 <function+20>:   xor    %gs:0x14,%eax
0x0804841f <function+27>:   je     0x8048426 <function+34>
0x08048421 <function+29>:   call   0x8048340 <[email protected]>
0x08048426 <function+34>:   leave  
0x08048427 <function+35>:   ret    
End of assembler dump.

Я ищу ответы на следующие вопросы:

как работает адресация, я имею в виду (main + 0), (main + 1), (main + 3)
В основном, почему используется $0xfffffff0,% esp
В функции используется% gs: 0x14,% eax,% eax, -0xc (% ebp).
Если кто-то может объяснить, шаг за шагом, это будет очень полезно.

Ответы

Ответ 1

Причиной "странных" адресов, таких как main+0, main+1, main+3, main+6 и т.д., является то, что каждая команда принимает переменное количество байтов. Например:

main+0: push %ebp

является однобайтовой инструкцией, поэтому следующая инструкция находится в main+1. С другой стороны,

main+3: and $0xfffffff0,%esp

является трехбайтовой инструкцией, поэтому следующая инструкция после этого находится в main+6.

И, поскольку вы спрашиваете в комментариях, почему movl, кажется, принимает переменное количество байтов, объяснение этого выглядит следующим образом.

Длина команды зависит не только от кода операции (например, movl), но также и режимов адресации для операндов (то, что работает операционный код). Я специально не проверял ваш код, но я подозреваю, что

movl $0x1,(%esp)

инструкция, вероятно, короче, потому что нет никакого смещения - она просто использует esp в качестве адреса. Если что-то вроде:

movl $0x2,0x4(%esp)

требует все, что movl $0x1,(%esp), плюс дополнительный байт для смещения 0x4.

Фактически, здесь сеанс отладки, показывающий, что я имею в виду:

Microsoft Windows XP [Version 5.1.2600]
(C) Copyright 1985-2001 Microsoft Corp.

c:\pax> debug
-a
0B52:0100 mov word ptr [di],7
0B52:0104 mov word ptr [di+2],8
0B52:0109 mov word ptr [di+0],7
0B52:010E
-u100,10d
0B52:0100 C7050700      MOV     WORD PTR [DI],0007
0B52:0104 C745020800    MOV     WORD PTR [DI+02],0008
0B52:0109 C745000700    MOV     WORD PTR [DI+00],0007
-q
c:\pax> _

Вы можете видеть, что вторая команда со смещением фактически отличается от первой без нее. Он один байт длиннее (5 байт вместо 4, чтобы удерживать смещение) и фактически имеет другое кодирование c745 вместо c705.

Вы также можете увидеть, что вы можете кодировать первую и третью инструкцию двумя разными способами, но они в основном делают то же самое.

Инструкция and $0xfffffff0,%esp - это способ заставить esp находиться на определенной границе. Это используется для обеспечения правильного выравнивания переменных. Многие обращения к памяти на современных процессорах будут более эффективными, если они будут следовать правилам выравнивания (например, 4-байтовое значение должно быть выровнено с 4-байтной границей). Некоторые современные процессоры даже вызовут ошибку, если вы не будете следовать этим правилам.

После этой инструкции вам гарантировано, что esp меньше или равно его предыдущему значению и выравнивается с 16-байтовой границей.

Префикс gs: просто означает использовать регистр сегмента gs для доступа к памяти, а не по умолчанию.

Инструкция mov %eax,-0xc(%ebp) означает взять содержимое регистра ebp, вычесть 12 (0xc), а затем поместить значение eax в эту ячейку памяти.

Повторите объяснение кода. Ваша функция function в основном одна большая не-операционная. Сгенерированная сборка ограничивается установкой и удалением кадров стека, а также некоторой проверкой повреждения кадров стека, которая использует вышеупомянутую ячейку памяти %gs:14.

Он загружает значение из этого местоположения (возможно, что-то вроде 0xdeadbeef) в фрейм стека, выполняет его работу, затем проверяет стек, чтобы убедиться, что он не был поврежден.

Его работа, в данном случае, ничто. Итак, все, что вы видите, это элемент управления функциями.

Настройка стека происходит между function+0 и function+12. Все после этого настраивает код возврата в eax и срывает фрейм стека, включая проверку коррупции.

Аналогично, main состоит из установки фрейма стека, нажимает параметры для function, вызывая function, срывая фрейм стека и выходя из него.

Комментарии добавлены в код ниже:

0x08048428 <main+0>:    push   %ebp                 ; save previous value.
0x08048429 <main+1>:    mov    %esp,%ebp            ; create new stack frame.
0x0804842b <main+3>:    and    $0xfffffff0,%esp     ; align to boundary.
0x0804842e <main+6>:    sub    $0x10,%esp           ; make space on stack.

0x08048431 <main+9>:    movl   $0x3,0x8(%esp)       ; push values for function.
0x08048439 <main+17>:   movl   $0x2,0x4(%esp)
0x08048441 <main+25>:   movl   $0x1,(%esp)
0x08048448 <main+32>:   call   0x8048404 <function> ; and call it.

0x0804844d <main+37>:   leave                       ; tear down frame.
0x0804844e <main+38>:   ret                         ; and exit.

0x08048404 <func+0>:    push   %ebp                 ; save previous value.
0x08048405 <func+1>:    mov    %esp,%ebp            ; create new stack frame.
0x08048407 <func+3>:    sub    $0x28,%esp           ; make space on stack.
0x0804840a <func+6>:    mov    %gs:0x14,%eax        ; get sentinel value.
0x08048410 <func+12>:   mov    %eax,-0xc(%ebp)      ; put on stack.

0x08048413 <func+15>:   xor    %eax,%eax            ; set return code 0.

0x08048415 <func+17>:   mov    -0xc(%ebp),%eax      ; get sentinel from stack.
0x08048418 <func+20>:   xor    %gs:0x14,%eax        ; compare with actual.
0x0804841f <func+27>:   je     <func+34>            ; jump if okay.
0x08048421 <func+29>:   call   <_stk_chk_fl>        ; otherwise corrupted stack.
0x08048426 <func+34>:   leave                       ; tear down frame.
0x08048427 <func+35>:   ret                         ; and exit.

Я думаю, что причина для %gs:0x14 может быть очевидна сверху, но на всякий случай я расскажу здесь.

Он использует это значение (дозорный) для размещения в текущем фрейме стека, чтобы, если что-то в функции делало что-то глупое, как писать 1024 байта в 20-байтовый массив, созданный в стеке, или в вашем случае:

char buffer1[5];
strcpy (buffer1, "Hello there, my name is Pax.");

тогда контролер будет перезаписан, и проверка в конце функции обнаружит это, вызвав функцию отказа, чтобы вы знали, а затем, вероятно, прерывается, чтобы избежать других проблем.

Если он помещал 0xdeadbeef в стек, и это было изменено на что-то еще, тогда xor с 0xdeadbeef создаст ненулевое значение, которое будет обнаружено в коде с инструкцией je.

Соответствующий бит перефразируется здесь:

          mov    %gs:0x14,%eax     ; get sentinel value.
          mov    %eax,-0xc(%ebp)   ; put on stack.

          ;; Weave your function
          ;;   magic here.

          mov    -0xc(%ebp),%eax   ; get sentinel back from stack.
          xor    %gs:0x14,%eax     ; compare with original value.
          je     stack_ok          ; zero/equal means no corruption.
          call   stack_bad         ; otherwise corrupted stack.
stack_ok: leave                    ; tear down frame.

Ответ 2

Pax дал окончательный ответ. Однако, для полноты, я думал, что добавлю примечание о том, как сам GCC показать вам созданную им сборку.

Опция -S для GCC сообщает ей прекратить компиляцию и записать сборку в файл. Обычно он либо передает этот файл ассемблеру, либо для некоторых целей сам записывает объектный файл.

Для примера кода в вопросе:

#include <stdio.h>

void function(int a, int b, int c) {
   char buffer1[5];
   char buffer2[10];
}

void main() {
  function(1,2,3);
}

команда gcc -S q3654898.c создает файл с именем q3654898.s:

        .file   "q3654898.c"
        .text
.globl _function
        .def    _function;      .scl    2;      .type   32;     .endef
_function:
        pushl   %ebp
        movl    %esp, %ebp
        subl    $40, %esp
        leave
        ret
        .def    ___main;        .scl    2;      .type   32;     .endef
.globl _main
        .def    _main;  .scl    2;      .type   32;     .endef
_main:
        pushl   %ebp
        movl    %esp, %ebp
        subl    $24, %esp
        andl    $-16, %esp
        movl    $0, %eax
        addl    $15, %eax
        addl    $15, %eax
        shrl    $4, %eax
        sall    $4, %eax
        movl    %eax, -4(%ebp)
        movl    -4(%ebp), %eax
        call    __alloca
        call    ___main
        movl    $3, 8(%esp)
        movl    $2, 4(%esp)
        movl    $1, (%esp)
        call    _function
        leave
        ret

Очевидна одна вещь: мой GCC (gcc (3.4) (mingw-vista special r3)) по умолчанию не включает код проверки стека. Я предполагаю, что есть опция командной строки, или что если я когда-нибудь обойдусь, чтобы подтолкнуть мою MinGW-установку к более актуальному GCC, чтобы он мог.

Изменить: Подталкивается сделать это с помощью Pax, вот еще один способ заставить GCC выполнять большую часть работы.

C:\Documents and Settings\Ross\My Documents\testing>gcc -Wa,-al q3654898.c
q3654898.c: In function `main':
q3654898.c:8: warning: return type of 'main' is not `int'
GAS LISTING C:\DOCUME~1\Ross\LOCALS~1\Temp/ccLg8pWC.s                   page 1


   1                            .file   "q3654898.c"
   2                            .text
   3                    .globl _function
   4                            .def    _function;      .scl    2;      .type
32;     .endef
   5                    _function:
   6 0000 55                    pushl   %ebp
   7 0001 89E5                  movl    %esp, %ebp
   8 0003 83EC28                subl    $40, %esp
   9 0006 C9                    leave
  10 0007 C3                    ret
  11                            .def    ___main;        .scl    2;      .type
32;     .endef
  12                    .globl _main
  13                            .def    _main;  .scl    2;      .type   32;
.endef
  14                    _main:
  15 0008 55                    pushl   %ebp
  16 0009 89E5                  movl    %esp, %ebp
  17 000b 83EC18                subl    $24, %esp
  18 000e 83E4F0                andl    $-16, %esp
  19 0011 B8000000              movl    $0, %eax
  19      00
  20 0016 83C00F                addl    $15, %eax
  21 0019 83C00F                addl    $15, %eax
  22 001c C1E804                shrl    $4, %eax
  23 001f C1E004                sall    $4, %eax
  24 0022 8945FC                movl    %eax, -4(%ebp)
  25 0025 8B45FC                movl    -4(%ebp), %eax
  26 0028 E8000000              call    __alloca
  26      00
  27 002d E8000000              call    ___main
  27      00
  28 0032 C7442408              movl    $3, 8(%esp)
  28      03000000
  29 003a C7442404              movl    $2, 4(%esp)
  29      02000000
  30 0042 C7042401              movl    $1, (%esp)
  30      000000
  31 0049 E8B2FFFF              call    _function
  31      FF
  32 004e C9                    leave
  33 004f C3                    ret

C:\Documents and Settings\Ross\My Documents\testing>

Здесь мы видим выходной список, созданный ассемблером. (Его имя GAS, потому что это версия Gnu классического ассемблера * nix as. Там где-то там юмор.)

Каждая строка имеет большинство следующих полей: номер строки, адрес в текущем разделе, байты, хранящиеся на этом адресе, и исходный текст из исходного файла сборки. Адреса являются смещениями в эту часть каждого раздела, предоставленного этим модулем. Этот конкретный модуль имеет только контент в разделе .text, в котором хранится исполняемый код. Обычно вы найдете упоминание разделов с названиями .data и .bss. Многие другие имена используются, а некоторые имеют особые цели. Прочтите руководство для компоновщика, если вы действительно хотите узнать.

Ответ 3

Лучше попробовать флаг -fno-stack-protector с gcc, чтобы отключить канарейку и увидеть ваши результаты.

Ответ 4

Я хотел бы добавить, что для простых вещей сборку GCC часто легче читать, если вы включите небольшую оптимизацию. Вот пример кода снова...

void function(int a, int b, int c) {
   char buffer1[5];
   char buffer2[10];
}

/* corrected calling convention of main() */
int main() {
   function(1,2,3);
   return 0;
}

это то, что я получаю без оптимизации (OSX 10.6, gcc 4.2.1 + Apple patch)

.globl _function
_function:
    pushl   %ebp
    movl    %esp, %ebp
    pushl   %ebx
    subl    $36, %esp
    call    L4
"L00000000001$pb":
L4:
    popl    %ebx
    leal    L___stack_chk_guard$non_lazy_ptr-"L00000000001$pb"(%ebx), %eax
    movl    (%eax), %eax
    movl    (%eax), %edx
    movl    %edx, -12(%ebp)
    xorl    %edx, %edx
    leal    L___stack_chk_guard$non_lazy_ptr-"L00000000001$pb"(%ebx), %eax
    movl    (%eax), %eax
    movl    -12(%ebp), %edx
    xorl    (%eax), %edx
    je      L3
    call    ___stack_chk_fail
L3:
    addl    $36, %esp
    popl    %ebx
    leave
    ret
.globl _main
_main:
    pushl   %ebp
    movl    %esp, %ebp
    subl    $24, %esp
    movl    $3, 8(%esp)
    movl    $2, 4(%esp)
    movl    $1, (%esp)
    call    _function
    movl    $0, %eax
    leave
    ret

Ух, один черт! Но посмотрите, что происходит с -O в командной строке...

    .text
.globl _function
_function:
    pushl   %ebp
    movl    %esp, %ebp
    leave
    ret
.globl _main
_main:
    pushl   %ebp
    movl    %esp, %ebp
    movl    $0, %eax
    leave
    ret

Конечно, вы рискуете, что ваш код окажется полностью неузнаваемым, особенно на более высоких уровнях оптимизации и более сложным. Даже здесь мы видим, что вызов function был отброшен как бессмысленный. Но я считаю, что не нужно читать десятки ненужных утечек стека, как правило, больше, чем стоит немного больше царапать мою голову над потоком управления.