Проблема, связанная с алгоритмом Backpropagation в нейронной сети

У меня возникли проблемы с пониманием алгоритма backpropagation. Я много читал и много искал, но я не понимаю, почему моя нейронная сеть не работает. Я хочу подтвердить, что я делаю каждую часть правильно.

Вот моя нейронная сеть, когда она инициализируется, и когда установлена первая строка входов [1, 1] и выход [0] (как вы можете видеть, я пытаюсь выполнить XOR Neural Network):

У меня 3 слоя: вход, скрытый и выходной. Первый слой (вход) и скрытый слой содержат 2 нейрона, в которых есть по 2 синапса. Последний слой (вывод) содержит один нейрон с 2 синапсами.

Синапс содержит вес и его предыдущую дельта (в начале это 0). Выход, подключенный к синапсу, можно найти с помощью источникаNeuron, связанного с синапсом или в массиве входов, если нет источникаNeuron (как во входном слое).

Класс Layer.java содержит список нейронов. В моей NeuralNetwork.java, я инициализирую Нейронную сеть, затем зациклирую в своем учебном наборе. На каждой итерации я заменяю входы и выходные значения и набираю поезд по моему алгоритму BackPropagation Algorithm, и алгоритм запускает определенное количество времени (эпоха 1000 раз на данный момент) для текущего набора.

Набор для обучения И набор проверки (вход 1, вход 2, выход):

Метод train в моем классе BackpropagationStrategy.java запускает цикл while и останавливается после 1000 раз (эпоха) одной строкой набора тренировок. Это выглядит так:

Вот вся реализация вышеперечисленных методов (learningRate = 0.45 и momentum = 0.9):

И затем проверьте вывод нейрона в моем выходном слое.

Я сделал что-то не так? Нужны некоторые объяснения...

Почему синапсы во входном слое не обновляются? Всюду он записывается только для обновления скрытых и выходных уровней.

Как вы можете видеть, это совершенно неправильно! Он не переходит к 1.0 только к первому выходному набору (0.0).

Вот одна итерация по сети с этим набором: [1.0,1.0,0.0]. Вот результат для метода прямого распространения:

У меня, вероятно, есть проблема смещения. Я рассмотрю это с помощью этого ответа: Роль смещения в нейронных сетях. Он не переключается обратно на следующий набор данных, поэтому...

Ответы

Ответ 1

Наконец-то я нашел проблему. Для XOR я не нуждался в каких-либо смещениях, и он сходился к ожидаемым значениям. Я получаю точно результат, когда вы завершаете окончательный вывод. Нужно было тренироваться, затем проверять, а затем тренироваться до тех пор, пока нейронная сеть не будет удовлетворительной. Я тренировал каждый набор до удовлетворения, но не ВСЕ, заданные снова и снова.

// Initialize the Neural Network
algorithm.initialize(this.numberOfInputs);

int index = 0;
double errorRate = 0;

// Loop until satisfaction or after some iterations
do {
    // Train the Neural Network
    algorithm.train(this.trainingDataSets, this.numberOfInputs);

    // Validate the Neural Network and return the error rate
    errorRate = algorithm.run(this.validationDataSets, this.numberOfInputs);

    index++;
} while (errorRate > minErrorRate && index < numberOfTrainValidateIteration);

С реальными данными мне нужно смещение, потому что выходы начали расходиться. Вот как я добавил смещение:

В классе Neuron.java я добавил синапс смещения с весом и выходом 1.0. Я суммирую его со всеми другими синапсами, а затем помещаю его в свою функцию активации.

public class Neuron implements Serializable {

    [...]

    private Synapse bias;

    public Neuron(IActivation activation) {
        [...]
        this.bias = new Synapse(this);
        this.bias.setWeight(0.5); // Set initial weight OR keep the random number already set
    }

    public void updateOutput(double[] inputs) {
        double sumWeights = this.calculateSumWeights(inputs);

        this.output = this.activation.activate(sumWeights + this.bias.getWeight() * 1.0);
    }

    [...]

В BackPropagationStrategy.java я изменяю вес и дельта каждого смещения в методе updateWeights, который я переименовал updateWeightsAndBias.

public class BackPropagationStrategy implements IStrategy, Serializable {

    [...]

    public void updateWeightsAndBias(NeuralNetwork neuralNetwork, double[] inputs) {

        for (int i = neuralNetwork.getLayers().size() - 1; i >= 0; i--) {

            Layer layer = neuralNetwork.getLayers().get(i);

            for (Neuron neuron : layer.getNeurons()) {

                [...]

                Synapse bias = neuron.getBias();
                double delta = learning * 1.0;
                bias.setWeight(bias.getWeight() + delta + this.momentum * bias.getDelta());

                bias.setDelta(delta);
            }
        }
    }

    [...]

С реальными данными Сеть сходится. В настоящее время обрезка заключается в том, чтобы найти идеальные переменные (если возможно), скорость обучения, импульс, частоту ошибок, количество нейронов, количество скрытых слоев и т.д.