Как обеспечить память "нулей" Python при сборке мусора?

У меня возникают проблемы с управлением памятью, связанными с bytes в Python3.2. В некоторых случаях буфер ob_sval, похоже, содержит память, которую я не могу объяснить.

Для конкретного защищенного приложения мне необходимо убедиться, что память "обнулена" и возвращается в ОС как можно скорее после того, как она больше не используется. Поскольку повторная компиляция Python на самом деле не вариант, я пишу модуль, который можно использовать с LD_PRELOAD, чтобы:

При беглом взгляде этот подход, похоже, отлично работает:

Заблудившийся \x13 в конце нечетный, но не исходит из моего первоначального значения, поэтому сначала я предположил, что все в порядке. Я быстро нашел примеры, где все было не так хорошо:

Что происходит с оставшимися байтами для объектов bytes и почему они не удаляются при вызове del?

Я предполагаю, что в моем подходе отсутствует нечто похожее на realloc, но я не вижу, что бы это было в bytesobject.c.

Я попытался количественно определить количество оставшихся байтов, оставшихся после сбора мусора, и, похоже, в некоторой степени предсказуемо.

Я изначально выразил обеспокоенность тем, что если объект bytes используется в функции, он вообще не очищается:

Оказывается, это искусственная проблема, которая не подпадает под мои требования. Вы можете увидеть комментарии к этому вопросу для деталей, но проблема возникает из-за того, что кортеж hello_forever.__code__.co_consts будет содержать ссылку на Hello, World! даже после того, как a будет удален из locals.

В реальном коде "безопасные" значения будут поступать из внешнего источника и никогда не будут жестко закодированы и впоследствии удалены так.

Я также выразил недоумение по поводу поведения с strings. Было указано, что они, вероятно, также испытывают ту же проблему, что и bytes по отношению к жесткому их кодированию в функциях (например, артефакт моего тестового кода). С ними есть еще два риска, которые я не смог продемонстрировать как проблема, но буду продолжать расследование:

Я также считал, что я вижу проблему с тем, что экземпляры классов не получают нуль правильно, но теперь я считаю, что это была ошибка с моей стороны.

Большое спасибо @Dunes и @Kevin за то, что они указали на проблемы, которые запутывали мой первоначальный вопрос. Эти проблемы были выше в разделе "редактировать" выше для справки.

Ответы

Ответ 1

Оказывается, проблема была абсолютно глупой ошибкой в моем собственном коде, который сделал memset. Я собираюсь обратиться к @Calyth, который щедро добавил щедрость к этому вопросу, прежде чем "принять" этот ответ.

Короче говоря, упрощенные функции обертки malloc/free работают следующим образом:

Кодовые вызовы malloc запрашивают N байты памяти.
- Обертка вызывает реальную функцию, но запрашивает N+sizeof(size_t) bytes.
- Он записывает N в начало диапазона и возвращает указатель смещения.
В коде используется указатель смещения, не обращая внимания на то, что он прикреплен к немного большему фрагменту памяти, чем было запрошено.
Кодовые вызовы free с просьбой вернуть память и передать указатель смещения.
- Обертка ищет перед указателем смещения, чтобы получить первоначально запрошенный размер памяти.
- Он вызывает memset, чтобы все было установлено на ноль (библиотека скомпилирована без оптимизации, чтобы предотвратить компилятор от игнорирования memset).
- Только тогда он вызывает реальную функцию.

Моя ошибка вызывала эквивалент memset(actual_pointer, 0, requested_size) вместо memset(actual_pointer, 0, actual_size).

Теперь я столкнулся с ошеломляющим вопросом о том, почему не осталось "3" оставшихся байтов (мои юнит-тесты подтверждают, что ни один из моих случайно созданных объектов байтов не содержит никаких нулей), и почему строки не будут также иметь это проблема (возможно, Python перераспределяет размер буфера строк). Тем не менее, это проблемы на следующий день.

Результатом всего этого является то, что оказалось относительно легко обеспечить, чтобы байты и строки были установлены на ноль после сбора мусора! (Существует множество предостережений о жестко закодированных строках, свободных списках и т.д., Поэтому любой, кто пытается это сделать, должен прочитать оригинальный вопрос, комментарии по этому вопросу и этот "ответ".)

Ответ 2

В целом у вас нет таких гарантий, что память будет обнулена или даже собранная мусором своевременно. Есть эвристика, но если вы беспокоитесь о безопасности в этой области, это, вероятно, недостаточно.

Вместо этого вы можете работать непосредственно с изменяемыми типами, такими как bytearray и явно нуля каждого элемента:

# Allocate (hopefully without copies)
bytestring = bytearray()
unbuffered_file.readinto(bytestring)

# Do stuff
function(bytestring)

# Zero memory
for i in range(len(bytestring)):
    bytestring[i] = 0

Безопасное использование этого потребует, чтобы вы использовали только те методы, которые, как вы знаете, не будут делать временные копии, что, возможно, означает, что вы будете кататься самостоятельно. Это не мешает некоторым кэшам испортить вещи.

zdan дает хорошее предложение в другом вопросе: используйте подпроцесс для выполнения работы и убивайте его с огнем, как только это будет сделано.