Как вы измеряете максимальную пропускную способность памяти в OpenGL?

Просто, чтобы понять, какие скорости я должен ожидать, я пытаюсь провести сравнение между глобальной памятью и шейдерами, вместо того, чтобы полагаться на спецификации GPU. Однако я не могу приблизиться к теоретическому максимуму. На самом деле я выхожу из фактора 50!.

Я нашел тест CUDA здесь, который дает мне ~ 240-250 ГБ/с (это больше того, чего я ожидаю).

Я пытаюсь точно сопоставить то, что они делают с шейдерами. Я попробовал вершинные шейдеры, вычислил шейдеры, обратился к объектам буфера через image_load_store и NV_shader_buffer_store, с float s, vec4 s, петлями внутри шейдера (с объединенной адресацией внутри рабочей группы) и различными методами синхронизации. Я застрял в ~ 7 ГБ/с (см. Обновление ниже).

Почему GL настолько медленнее? Я что-то делаю неправильно, и если да, то как это сделать?

Здесь мой MWE с тремя методами (1. вершинный шейдер с image_load_store, 2. вершинный шейдер с безграничной графикой, 3. вычислить шейдер с безграничной графикой):

Кажется, что буфер становится нерезидентным на мои вызовы glBufferData, которые были там, чтобы проверить вывод. Как расширение:

В предположении, что OpenGL затем передает в данные объекта буфера каждый кадр и не кэширует его в видеопамяти. Это объясняет, почему вычислительный шейдер не смог выполнить утверждение, однако есть небольшая аномалия, что безграничная графика в вершинном шейдере все еще работала, когда она не была резидентной, но пока я проигнорирую это. Я понятия не имею, почему объект буфера 64 МБ не будет по умолчанию быть резидентным (хотя, возможно, после первого использования), когда доступно 12 ГБ.

Поэтому после каждого вызова glBufferData я делаю его резидентным и получаю адрес в случае его изменения:

Теперь я получаю 270-290 ГБ/с с помощью вычислительного шейдера, используя либо графику image_load_store, либо без привязки. Теперь мой вопрос включает:

Ответы

Ответ 1

Вы запрашиваете драйвер для чтения из вашей памяти процесса, dat. Это приводит к большому когерентному трафику кеша. Когда графический процессор считывает эту память, он не может быть уверен, что он в актуальном состоянии, он может быть в кэше процессора, изменен и не записан обратно в ОЗУ. Это приводит к тому, что графический процессор действительно должен считывать из кэша CPU, что намного дороже, чем обход процессора и чтение ОЗУ. ОЗУ часто не работает во время нормальной работы, потому что современный коэффициент попадания процессора обычно составляет 95% -99%. Кэш используется непрерывно.

Для достижения максимальной производительности вам необходимо предоставить драйверу выделение памяти. Обычная память, используемая вашей программой, например глобальные переменные, и куча выделяются в памяти обратной записи. Выделенная драйвером память обычно выделяется как комбинация записи или несовместимая, что устраняет когерентный трафик.

Пиковые объявленные номера полосы пропускания будут достигнуты только без накладных расходов на когерентность.

Чтобы предоставить драйверу, используйте glBufferData с nullptr для данных.

Это не все радужно, если вам удастся принудить водителя использовать буфер объединения записи в системную память. Чтение CPU на такие адреса будет очень медленным. Последовательная запись оптимизируется процессором, но случайная запись приведет к тому, что буфер объединения записи будет часто скрываться, что ухудшит производительность.