Для чего используется параметр tf.nn.max_pool ksize?

В определении tf.nn.max_pool используется ksize для <? p >

tf.nn.max_pool(value, ksize, strides, padding, data_format='NHWC', name=None)

Performs the max pooling on the input.

Args:

value: A 4-D Tensor with shape [batch, height, width, channels] and type    tf.float32.
ksize: A list of ints that has length >= 4. The size of the window for each dimension of the input tensor.

Например, если input value имеет tensor : [1, 64, 64, 3] и ksize=3. что это значит?

Ответы

Ответ 1

В документации указано:

ksize: список объектов с длиной >= 4. Размер окна для каждого измерения входного тензора.

В общем случае для изображений ваш вход имеет форму [batch_size, 64, 64, 3] для изображения RGB с разрешением 64x64 пикселя.

Размер ядра ksize обычно будет [1, 2, 2, 1], если у вас есть окно 2x2, над которым вы берете максимум. По размеру размера партии и размеру каналов ksize составляет 1, потому что мы не хотим брать максимум за несколько примеров или по кратным каналам.