Как организована 2D-общая память в CUDA

Я всегда работал с линейной разделяемой памятью (загрузкой, хранением, доступом к соседям), но я сделал простой тест в 2D, чтобы изучить банковские конфликты, результаты которых смутили меня.

Следующий код считывает данные из одномерного массива глобальной памяти в общую память и копирует их из общей памяти в глобальную память.

Визуальный профайлер сообщил о конфликтах в общей памяти. Следующий код избегает конфликтов конфликтов (только покажите различия)

Такое поведение меня смутило, потому что в программировании многопараллельных процессоров. Практический подход, который мы можем прочитать:

Связано ли это с разделяемой памятью? или с индексами нитей? Может быть, я что-то упустил?

Ответы

Ответ 1

Да, разделяемая память упорядочена в порядке строки, как и ожидалось. Таким образом, ваш массив [16] [16] хранится в строке, примерно так:

       bank0 .... bank15
row 0  [ 0   .... 15  ]
    1  [ 16  .... 31  ]
    2  [ 32  .... 47  ]
    3  [ 48  .... 63  ]
    4  [ 64  .... 79  ]
    5  [ 80  .... 95  ]
    6  [ 96  .... 111 ]
    7  [ 112 .... 127 ]
    8  [ 128 .... 143 ]
    9  [ 144 .... 159 ]
    10 [ 160 .... 175 ]
    11 [ 176 .... 191 ]
    12 [ 192 .... 207 ]
    13 [ 208 .... 223 ]
    14 [ 224 .... 239 ]
    15 [ 240 .... 255 ]
       col 0 .... col 15

Поскольку на оборудовании Pre-Fermi имеется 16 32-битных разделяемых банков, каждая запись в каждом столбце отображается в один банк общей памяти. Итак, как это взаимодействует с вашим выбором схемы индексирования?

Следует иметь в виду, что потоки внутри блока нумеруются в эквиваленте основного порядка столбца (технически размерность x структуры является самой быстрой переменной, за которой следует y, за которой следует z). Поэтому, когда вы используете эту схему индексирования:

shData[threadIdx.x][threadIdx.y]

потоки внутри полушаблона будут считываться из одного столбца, что подразумевает чтение из одного банка разделяемой памяти, а также конфликты банков. Когда вы используете противоположную схему:

shData[threadIdx.y][threadIdx.x]

потоки в пределах одного и того же полувращения будут считываться из одной строки, что подразумевает чтение из каждого из 16 разных банков разделяемой памяти, никаких конфликтов не происходит.