Gensim Doc2Vec vs tensorflow Doc2Vec

Я пытаюсь сравнить мою реализацию реализации Doc2Vec (через tf) и gensims. Кажется, по крайней мере визуально, что gensim работают лучше.

Я проверил следующий код для обучения модели gensim и ниже, приведенной ниже для модели tensorflow. Мои вопросы таковы:

Gensim

Обновление:

Посмотрите на ноутбук jupyter здесь (у меня есть обе модели, работающие и протестированные здесь). По-прежнему кажется, что в этом первоначальном анализе улучшается модель gensim.

Ответы

Ответ 1

Старый вопрос, но ответ будет полезен для будущих посетителей. Вот некоторые из моих мыслей.

В реализации tensorflow есть некоторые проблемы:

window - размер 1 стороны, поэтому window=5 будет 5*2+1= 11 словами.
Обратите внимание, что с версией doc2vec PV-DM, batch_size будет числом документов. Таким образом, форма train_word_dataset будет batch_size * context_window, а фигуры train_doc_dataset и train_labels будут batch_size.
Что еще более важно, sampled_softmax_loss не negative_sampling_loss. Это два разных приближения softmax_loss.

Итак, для вопросов, перечисленных в OP:

Эта реализация doc2vec в tensorflow работает и исправляется по-своему, но отличается от реализации gensim и бумаги.
window - размер 1 стороны, как указано выше. Если размер документа меньше, чем размер контекста, то меньшим будет использование.
Существует множество причин, по которым реализация gensim выполняется быстрее. Во-первых, gensim был оптимизирован сильно, все операции выполняются быстрее, чем наивные операции python, особенно данные ввода/вывода. Во-вторых, некоторые этапы предварительной обработки, такие как фильтрация min_count в gensim, уменьшали бы размер набора данных. Что еще более важно, gensim использует negative_sampling_loss, который намного быстрее, чем sampled_softmax_loss. Я полагаю, что это основная причина.
Легче ли найти что-то, когда их много? Просто шучу;-)
Верно, что в этой невыпуклой проблеме оптимизации существует много решений, поэтому модель просто найдет локальный оптимум. Интересно, что в нейронной сети большинство локальных оптимумов "достаточно хороши". Было замечено, что стохастический градиентный спуск, по-видимому, находит лучшие локальные оптимумы, чем больший градиентный спуск партии, хотя это все еще загадка в текущих исследованиях.

Gensim

TF

Обновление:

Ответы

Ответ 1