Генетический алгоритм /w Нейронная сеть, играющая змею, не улучшается

Я пытаюсь создать генетический алгоритм для обучения нейронной сети с целью игры в змею игры.

Проблема, с которой я сталкиваюсь, заключается в том, что пригодность поколений не улучшается, она либо сидит неподвижно в фитнете, которого можно ожидать от того, чтобы не давать никакого вклада в игру, или только ухудшается после первого поколения. Я подозреваю, что это проблема с нейронной сетью, однако я не понимаю, что это такое.

Настройка нейронной сети

Вход представляет собой массив каждого направления, которое может видеть змея. Для каждого направления он проверяет, насколько далеко расстояние до стены, плода или самого себя. Конечным результатом является массив длиной 3*8 = 24.

Веса и смещения представляют собой случайные поплавки между -1 и 1, генерируемые при создании сети.

Настройка генетического алгоритма

Я использую одноточечный кроссовер. Каждый массив весов и предубеждений пересекается между родителями и передается детям (по одному ребенку для каждой "версии" кроссовера).

Я использую то, что я думаю, это выбор рулетки, чтобы выбрать родителей, я отправлю точный метод ниже.

Пригодность змеи рассчитывается с: age * 2**score (не больше, больше информации в обновлении), где возраст - это количество поворотов, которые выжила змея, и оценка - количество собранных фруктов.

подробности

Вот какой-то псевдокод, чтобы попытаться обобщить, как мой генетический алгоритм (должен) работать:

Вот метод, который я использую для выбора родителя:

Стоит отметить, что self.population - это список змей, где каждая змея - это список, содержащий контроль над нейронной сетью, и фитнес-сеть.

И вот метод получения вывода из сети из выхода игры, поскольку я подозреваю, что может быть что-то, что я делаю неправильно здесь:

При запуске нейронной сети вручную, при включенной графической версии игры, становится ясно, что сеть почти никогда не меняет направление более одного раза. Это меня смущает, поскольку у меня сложилось впечатление, что если все веса и предубеждения генерируются случайным образом, входные данные будут обрабатываться случайным образом и давать случайный выход, вместо этого выход, кажется, меняется один раз на первом повороте игры, а затем никогда значительно изменились.

При выполнении генетического алгоритма максимальная пригодность каждого поколения едва ли превышает физическую форму, которую можно ожидать от змеи без ввода (в данном случае 16), что, я полагаю, коррелирует с проблемой с нейронной сетью. Когда он будет превышать, следующие поколения снова вернутся к 16.

Любая помощь в его проблеме была бы очень оценена, я все еще новичок в этой области, и я нахожу ее действительно интересной. Я с удовольствием отвечу на любые подробности, если потребуется. Мой полный код можно найти здесь, если кто-то посмеет вникать в это.

Теперь алгоритм работает лучше, первое поколение обычно находит змею с фитнесом 14 -1 6, а это означает, что змея делает поворот, чтобы избежать смерти, однако она почти всегда идет вниз по склону оттуда. Первая змея фактически достигла тактики поворота, когда приближалась к востоку и к северу/югу, но не к западному краю. После первого поколения фитнес, как правило, только ухудшается, в конечном итоге возвращается к минимально возможной пригодности. Я в недоумении, что происходит не так, но у меня есть ощущение, что это может быть что-то большое, что я забыл.

Возможно, я мог бы упомянуть некоторые вещи, которые я пробовал, которые не срабатывали:

Я изменил пару вещей и начал видеть лучшие результаты. Во-первых, я остановил фрукты от нереста, чтобы упростить процесс обучения, и вместо этого дал змеям фитнес, равный их возрасту (сколько оборотов/кадров они выжили), и после отключения нормализации входного массива я получил змею с фитнес 300! 300 - это максимальный возраст, который может иметь змея до смерти от старости.

Однако проблема все еще существует в том, что после первых двух поколений фитнес будет падать, первые 1-5 поколений могут иметь пригодность 300 (иногда они этого не делают и имеют низкую пригодность вместо этого, но я предполагаю, что это не так к численности населения.), но после этого пригодность поколений упадет до ~ 20-30 и останется там.

Кроме того, если я снова вернусь к плодам, змеи снова получат ужасные приспособления. Иногда первое поколение достигнет змеи, способной двигаться в петлях и, следовательно, получая фитнес 300, не набирая никаких фруктов, но это почти никогда не переносится на следующий поколение.

Ответы

Ответ 1

Я заметил, что в вашем псевдокоде, создавая каждое новое поколение, родительское поколение полностью уничтожается и сохраняется только дочернее поколение. Это, естественно, может привести к снижению уровня пригодности, поскольку нет ничего, гарантирующего, что у потомства будут уровни пригодности, сравнимые с уровнями в родительском поколении. Чтобы гарантировать, что уровни пригодности не снижаются, вы должны либо объединить родительское и дочернее поколение, либо обрезать самых слабых членов (что я рекомендовал бы), или вы можете потребовать, чтобы функция генерации потомства производила потомство по крайней мере в соответствии с как родители (многими испытаниями и ошибками).

Если вы решите сосредоточиться на генераторе-потомстве, один из способов (в некоторой степени) гарантировать улучшенное потомство - реализовать бесполое воспроизведение, просто добавив небольшое количество шума к каждому весовому вектору. Если уровень шума достаточно мал, вы можете создать улучшенное потомство с вероятностью успеха до 50%. Более высокие уровни шума, тем не менее, позволяют ускорить улучшение, и они помогают выпрыгнуть из локальных оптимумов, даже если они имеют показатели успеха ниже 50%.

Ответ 2

Вы только мутируете 5% населения, а не 5% от "генома". Это означает, что ваше население будет зафиксировано невероятно быстро - https://en.wikipedia.org/wiki/Fixation_(population_genetics).

Это имеет смысл, почему население не очень хорошо себя чувствует, потому что вы изучаете только небольшую область фитнес-ландшафта (https://en.wikipedia.org/wiki/Fitness_landscape).

Вы должны изменить функцию мутанта, чтобы мутировать 5% генома (т.е. Веса между узлами). Не стесняйтесь играть со скоростью мутаций, а различные проблемы лучше работают с разными мутационными ставками.

Если вы беспокоитесь о потере нынешнего "лучшего генома", типичный подход в эволюционном вычислении состоит в том, чтобы скопировать человека с наивысшим уровнем пригодности к следующему поколению без мутации.

(Извините, возможно, это был комментарий, но у меня недостаточно репутации).