Измерение эффектов TLB на Cortex-A9

Прочитав следующую статью https://people.freebsd.org/~lstewart/articles/cpumemory.pdf ( "Что каждый программист должен знать о памяти" ), я хотел попробовать один из авторов тест, то есть измерение влияния TLB на окончательное время выполнения.

Я работаю над Samsung Galaxy S3, который встраивает Cortex-A9.

Я написал небольшую программу, которая выделяет массив структур с N элементами. Каждый размер записи составляет == 32 байта, поэтому он вписывается в строку кэша. Я выполняю несколько операций чтения и измеряю время выполнения.

У меня есть внешний цикл, который делает NB_ENTRIES меняющимся от 4 до 1024.

Как видно на рисунке ниже, в то время как NB_ENTRIES == 256 записей, время выполнения больше.

Когда NB_ENTRIES == 404, я получаю "лишний объем памяти" (почему превышено превышение? TLB превышено? превышены ли TLB? Таблицы превышены? Виртуальная память для процесса превышена?)

Может кто-нибудь объяснить мне, пожалуйста, что действительно происходит от 4 до 256 записей, а затем от 257 до 404 записей?

Как было предложено, я запустил membench (src code) и ниже результатов:

В следующей статье (стр. 3) они запускали (я полагаю) тот же самый тест. Но различные этапы четко видны из их сюжетов, что не мое дело.

Прямо сейчас, в соответствии с их результатами и объяснениями, я могу только выделить несколько вещей.

В моем случае самая первая точка перегиба появляется при шаге == 32 байта. - График показывает, что у нас есть кеш второго уровня (L2). Я думаю, что это изображено желтой линией (размер 1 МБ == L2) - Поэтому два последних графика над последним, вероятно, отражают задержку при доступе к основной памяти (+ TLB?).

вероятно, были использованы/реализованы большие размеры страниц.

Cortex-A9 поддерживает режим 4KB страниц. Действительно, как видно на моем графике до шага == 4K, задержки возрастают, тогда, когда он достигает 4K

Ответы

Ответ 1

tl; dr → Предоставить правильный MVCE.

Этот ответ должен быть комментарием, но слишком велик, чтобы быть размещен как комментарий, поэтому отправляйте вместо него ответ:

Мне пришлось исправить кучу синтаксических ошибок (отсутствующие точки с запятой) и объявить переменные undefined.
После устранения всех этих проблем код НЕ НИЧЕГО (программа завершена еще до запуска первого mmap. Я даю чаевые использовать фигурные скобки все время, вот ваш первый и ваш вторая ошибка, вызванная НЕ:

// after calloc:
if(entries == NULL) perror("calloc failed"); exit(1);
// after mmap
if(entries[i] == MAP_FAILED) perror("mmap failed"); exit(1);

обе строки просто завершают вашу программу независимо от состояния.

Здесь вы получите бесконечный цикл (переформатированные, добавленные фигурные скобки, но никаких других изменений):

//Randomly access and init with random values
n = -1;
i = 0;
while (++n < NB_ENTRIES -1) {
    //init with random value
    entries[i]->elmt = rand() % NB_ENTRIES;

    //loop till we reach the last element
    while (entries[entries[i]->elmt]->elmt != -1) {
        entries[i]->elmt++;
        if (entries[i]->elmt == NB_ENTRIES) {
            entries[i]->elmt = 0;
        }
    }

    i = entries[i]->elmt;
}

Первая итерация начинается с установки entries[0]->elmt на некоторое случайное значение, затем внутренний цикл увеличивается до тех пор, пока не достигнет LAST_ELEMENT. Тогда i устанавливается на это значение (т.е. LAST_ELEMENT), а второй цикл перезаписывает конечный маркер -1 на другое случайное значение. Затем он постоянно увеличивал mod NB_ENTRIES во внутреннем цикле до тех пор, пока вы не нажмете CTRL + C.

Заключение

Если вам нужна помощь, отправьте Минимальный, полный и проверенный пример, а не что-то еще.