Как правильно использовать пакетную нормализацию в тензорном потоке?

Я попробовал несколько версий batch_normalization в tensorflow, но никто из них не работает! Результаты были неправильными, когда я установил batch_size = 1 во время вывода.

Версия 1: используйте официальную версию в файле tensorflow.contrib

is_training = True во время тренировки и False при времени вывода.

is_training - это местозаполнитель во время обучения, это True и False при времени вывода.

is_training = True во время тренировки и False при времени вывода.

версия 4: как версия3, но добавьте tf.control_dependencies

is_training = True во время тренировки и False при времени вывода.

4 версии Batch_normalization не верны. Итак, как правильно использовать нормализацию партии?

Еще одно странное явление: если я установил batch_norm_layer как null, результат вывода будет таким же.

Ответы

Ответ 1

Я протестировал, что следующая упрощенная реализация пакетной нормализации дает тот же результат, что и tf.contrib.layers.batch_norm, пока параметр одинаков.

def initialize_batch_norm(scope, depth):
    with tf.variable_scope(scope) as bnscope:
         gamma = tf.get_variable("gamma", shape[-1], initializer=tf.constant_initializer(1.0))
         beta = tf.get_variable("beta", shape[-1], initializer=tf.constant_initializer(0.0))
         moving_avg = tf.get_variable("moving_avg", shape[-1], initializer=tf.constant_initializer(0.0), trainable=False)
         moving_var = tf.get_variable("moving_var", shape[-1], initializer=tf.constant_initializer(1.0), trainable=False)
         bnscope.reuse_variables()


def BatchNorm_layer(x, scope, train, epsilon=0.001, decay=.99):
    # Perform a batch normalization after a conv layer or a fc layer
    # gamma: a scale factor
    # beta: an offset
    # epsilon: the variance epsilon - a small float number to avoid dividing by 0
    with tf.variable_scope(scope, reuse=True):
        with tf.variable_scope('BatchNorm', reuse=True) as bnscope:
            gamma, beta = tf.get_variable("gamma"), tf.get_variable("beta")
            moving_avg, moving_var = tf.get_variable("moving_avg"), tf.get_variable("moving_var")
            shape = x.get_shape().as_list()
            control_inputs = []
            if train:
                avg, var = tf.nn.moments(x, range(len(shape)-1))
                update_moving_avg = moving_averages.assign_moving_average(moving_avg, avg, decay)
                update_moving_var = moving_averages.assign_moving_average(moving_var, var, decay)
                control_inputs = [update_moving_avg, update_moving_var]
            else:
                avg = moving_avg
                var = moving_var
            with tf.control_dependencies(control_inputs):
                output = tf.nn.batch_normalization(x, avg, var, offset=beta, scale=gamma, variance_epsilon=epsilon)
    return output

Основными советами с использованием официальной реализации нормализации партии в tf.contrib.layers.batch_norm являются: (1) установить is_training=True для времени обучения и is_training=False для проверки и проверки времени; (2) установите updates_collections=None, чтобы убедиться, что moving_variance и moving_mean обновлены; (3) будьте внимательны и осторожны с настройкой области; (4) установите decay как меньшее значение (decay=0.9 или decay=0.99), чем значение по умолчанию (по умолчанию - 0.999), если ваш набор данных мал или ваши общие обновления/шаги обучения не такие большие.

Ответ 2

Я нашел код Zhongyu Kuang действительно полезным, но я зациклился на том, как динамически переключаться между поездными и тестовыми операциями, т.е. как переходить от python boolean is_training к буферизующему методу tensorflow is_training. Мне нужна эта функциональность, чтобы проверить сеть на основе проверки, установленной во время обучения.

Начиная с его кода и вдохновляясь this, я написал следующий код:

def batch_norm(x, scope, is_training, epsilon=0.001, decay=0.99):
    """
    Returns a batch normalization layer that automatically switch between train and test phases based on the 
    tensor is_training

    Args:
        x: input tensor
        scope: scope name
        is_training: boolean tensor or variable
        epsilon: epsilon parameter - see batch_norm_layer
        decay: epsilon parameter - see batch_norm_layer

    Returns:
        The correct batch normalization layer based on the value of is_training
    """
    assert isinstance(is_training, (ops.Tensor, variables.Variable)) and is_training.dtype == tf.bool

    return tf.cond(
        is_training,
        lambda: batch_norm_layer(x=x, scope=scope, epsilon=epsilon, decay=decay, is_training=True, reuse=None),
        lambda: batch_norm_layer(x=x, scope=scope, epsilon=epsilon, decay=decay, is_training=False, reuse=True),
    )


def batch_norm_layer(x, scope, is_training, epsilon=0.001, decay=0.99, reuse=None):
    """
    Performs a batch normalization layer

    Args:
        x: input tensor
        scope: scope name
        is_training: python boolean value
        epsilon: the variance epsilon - a small float number to avoid dividing by 0
        decay: the moving average decay

    Returns:
        The ops of a batch normalization layer
    """
    with tf.variable_scope(scope, reuse=reuse):
        shape = x.get_shape().as_list()
        # gamma: a trainable scale factor
        gamma = tf.get_variable("gamma", shape[-1], initializer=tf.constant_initializer(1.0), trainable=True)
        # beta: a trainable shift value
        beta = tf.get_variable("beta", shape[-1], initializer=tf.constant_initializer(0.0), trainable=True)
        moving_avg = tf.get_variable("moving_avg", shape[-1], initializer=tf.constant_initializer(0.0), trainable=False)
        moving_var = tf.get_variable("moving_var", shape[-1], initializer=tf.constant_initializer(1.0), trainable=False)
        if is_training:
            # tf.nn.moments == Calculate the mean and the variance of the tensor x
            avg, var = tf.nn.moments(x, range(len(shape)-1))
            update_moving_avg = moving_averages.assign_moving_average(moving_avg, avg, decay)
            update_moving_var = moving_averages.assign_moving_average(moving_var, var, decay)
            control_inputs = [update_moving_avg, update_moving_var]
        else:
            avg = moving_avg
            var = moving_var
            control_inputs = []
        with tf.control_dependencies(control_inputs):
            output = tf.nn.batch_normalization(x, avg, var, offset=beta, scale=gamma, variance_epsilon=epsilon)

    return output

Затем я использую слой batch_norm следующим образом:

fc1_weights = tf.Variable(...)
fc1 = tf.matmul(x, fc1_weights)
fc1 = batch_norm(fc1, 'fc1_bn', is_training=is_training)
fc1 = tf.nn.relu(fc1)

Где is_training является логическим заполнителем. Обратите внимание, что добавление смещения не требуется, потому что оно заменяется бета-параметром, как описано в Документ по пакетной нормализации.

Во время выполнения:

# Training phase
sess.run(loss, feed_dict={x: bx, y: by, is_training: True})

# Testing phase
sess.run(loss, feed_dict={x: bx, y: by, is_training: False})