"Необъяснимый" дамп ядра - программирование

Я видел много свалков в моей жизни, но у меня есть я в тупике.

Вы заметите, что авария произошла в середине инструкции на 0x17bd9fc, которая после возврата из вызова 0x17bd9f6 к виртуальной функции.

Когда я просматриваю виртуальную таблицу, я вижу, что она не повреждена:

и что он указывает на эту тривиальную функцию (как и ожидалось, глядя на источник):

Далее, когда я смотрю на обратный адрес, который Foo1::Get() должен был бы вернуться:

Я вижу, что он указывает на правильную инструкцию, поэтому, как бы во время возврата из Foo1::Get(), какой-то гремлин пришел и увеличил %rip на 4.

Ответы

Ответ 1

Итак, маловероятно, как это может показаться, мы, похоже, попали в реальную ошибку bona-fide CPU.

http://support.amd.com/us/Processor_TechDocs/41322_10h_Rev_Gd.pdf имеет erratum # 721:

721 процессор может неправильно корректировать указатель стека

Описание

Under a highly specific and detailed set of internal timing conditions,
the processor may incorrectly update the stack pointer after a long series
of push and/or near-call instructions, or a long series of pop 
and/or near-return instructions. The processor must be in 64-bit mode for
this erratum to occur.

Потенциальный эффект для системы

The stack pointer value jumps by a value of approximately 1024, either in
the positive or negative direction.
This incorrect stack pointer causes unpredictable program or system behavior,
usually observed as a program exception or crash (for example, a #GP or #UD).

Ответ 2

Я когда-то видел "незаконный код операции" в середине инструкции. Я работал над портом Linux. Короче говоря, Linux вычитает из указателя инструкции, чтобы перезапустить syscall, и в моем случае это происходило дважды (если два сигнала поступали одновременно).

Итак, один из возможных виновников: ядро, играющее с указателем инструкции. В вашем случае может быть и другая причина.

Помните, что иногда процессор будет понимать данные, которые он обрабатывает как инструкцию, даже если это не должно быть. Таким образом, процессор, возможно, выполнил "инструкцию" в 0x17bd9fa, а затем перешел на 0x17bd9fd и затем сгенерировал незаконное исключение кода операции. (Я только что сделал это число, но эксперимент с дизассемблером может показать вам, где процессор мог "ввести" поток команд.)

Счастливая отладка!