Использование глубокого обучения для прогнозирования подпоследовательности из последовательности

Задача получает антиген, предсказывает соответствующий эпитоп. Таким образом, эпитоп всегда является точной подстрокой антигена. Это эквивалентно Последовательность для обучения последовательностям. Вот мой код, который работает в Recurrent Neural Network под Keras. Он был смоделирован в соответствии с example.

Вот мой код запуска, который дал очень плохую оценку точности.

Ответы

Ответ 1

Можно ли использовать RNN, LSTM или GRU для прогнозирования подпоследовательности, как указано выше?

Да, вы можете использовать любой из них. LSTM и ГРУ являются типами RNN; если по RNN вы имеете в виду полностью связанный RNN, они оказались в немилости из-за проблемы исчезающих градиентов (1, 2). Из-за относительно небольшого числа примеров в вашем наборе данных GRU может быть предпочтительнее LSTM из-за его более простой архитектуры.

Как повысить точность кода?

Вы упомянули, что ошибка обучения и проверки достоверна. В общем, это может быть связано с одним из нескольких факторов:

Уровень обучения слишком низок (не проблема, поскольку вы используете Адам, алгоритм адаптивной скорости обучения для каждого параметра)
Модель слишком проста для данных (совсем не проблема, поскольку у вас очень сложная модель и небольшой набор данных)
У вас исчезают градиенты (возможно, проблема с трехслойной RNN). Попробуйте уменьшить количество слоев до 1 (в общем, хорошо начать с создания простой модели, а затем увеличить сложность), а также рассмотреть поиск гиперпараметра (например, 128-мерное скрытое состояние может быть слишком большим - попробуйте 30?).

Другой вариант, так как ваш эпитоп является подстрокой вашего ввода, должен предсказать начальные и конечные индексы эпитопа внутри последовательности антигена (потенциально нормированные длиной антигенной последовательности) вместо предсказания подстроки по одному символу за раз. Это будет проблемой регрессии с двумя задачами. Например, если антиген FSKIAGLTVT (длиной 10 букв), а его эпитоп - KIAGL (позиции от 3 до 7, один на основе), то вход будет FSKIAGLTVT, а выходы будут 0,3 (первая задача) и 0,7 (вторая задача).

Альтернативно, если вы можете сделать все антигены одинаковой длины (путем удаления частей вашего набора данных с короткими антигенами и/или измельчения концов длинных антигенов, предполагая, что вы знаете априори, что эпитоп не близок к концам), вы можете создать его как проблему классификации с двумя задачами (начало и конец) и классы длины последовательности, где вы пытаетесь назначить вероятность запуска и окончания антигена в каждой из позиций.

Как мне изменить свой код, чтобы он мог работать быстрее?

Уменьшение количества слоев значительно ускорит ваш код. Кроме того, GRU будут быстрее, чем LSTM из-за их более простой архитектуры. Однако оба типа повторяющихся сетей будут медленнее, чем, например, сверточных сетей.

Не стесняйтесь присылать мне адрес электронной почты (адрес в моем профиле), если вы заинтересованы в сотрудничестве.