Ошибка при построении модели seq2seq с тензорным потоком

Я пытаюсь понять модели seq2seq, определенные в seq2seq.py в тензорном потоке. Я использую биты кода, который я копирую из примера translate.py, который поставляется с тензорным потоком. Я продолжаю получать ту же ошибку и действительно не понимаю, откуда она взялась.

Минимальный пример кода для воспроизведения ошибки:

Ошибка, которую я получаю при оценке последней строки (я оценил ее интерактивно в интерпретаторе python):

Я подозреваю, что ошибка приходит с моей стороны:) На боковой стенке. Документация и учебники действительно велики, но примерный код последовательности для последовательности (пример перевода с английского на французский) довольно плотный. Вы также должны много прыгать между файлами, чтобы понять, что происходит. Я, по крайней мере, несколько раз терялся в коде.

В этом случае действительно полезен минимальный пример (возможно, по некоторым данным игрушек) построения и обучения базовой модели seq2seq. Кто-нибудь знает, что это уже где-то существует?

ИЗМЕНИТЬ Я исправил код выше в соответствии с предложениями @Ishamael (это означает, что ошибки не возвращаются) (см. Ниже), но в этой фиксированной версии все еще есть некоторые вещи, которые не ясны. Мой вход представляет собой последовательность векторов длины 2 вещественных значений. И мой вывод представляет собой последовательность двоичных векторов длиной 22. Должен ли мой код tf.placeholder выглядеть не следующим образом? (EDIT да)

Мне также пришлось изменить tf.int32 на tf.float32 выше. Поскольку мой вывод двоичный. Должно ли это не быть tf.int32 для tf.placeholder моего декодера? Но тензорный поток снова жалуется, если я это сделаю. Я не уверен, что за этим стоит.

Ответы

Ответ 1

Большинство моделей (seq2seq не является исключением) ожидают, что их ввод будет в пакетах, поэтому, если форма вашего логического ввода [n], то форма тензора, которую вы будете использовать в качестве входа в свою модель должна быть [batch_size x n]. На практике первое измерение формы обычно не учитывается как None и определяется как размер партии во время выполнения.

Поскольку логический вход в seq2seq является вектором чисел, фактическая форма тензора должна быть [None, input_sequence_length]. Таким образом, фиксированный код будет выглядеть по строкам:

input_sequence_length = 2; # the length of one vector in your input sequence

for i in xrange(350):  
    encoder_inputs.append(tf.placeholder(tf.int32, shape=[None, input_sequence_length],
                                              name="encoder{0}".format(i)))

(и затем то же самое для декодера)

Ответ 2

В модуле перевода есть метод самотестирования, который показывает его минимальное использование. [здесь]

Я просто использовал метод самотестирования, используя.

python translate.py --self_test 1