Как gensim вычисляет векторы абзаца doc2vec
Я иду в эту статью http://cs.stanford.edu/~quocle/paragraph_vector.pdf
и он утверждает, что
"Вектор вектора вектора и слова являются усредненными или конкатенированными предсказать следующее слово в контексте. В экспериментах мы используем конкатенация как метод объединения векторов."
Как работает конкатенация или усреднение?
Пример
(если в абзаце 1 содержатся слова 1 и слово2):
word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]
concat method
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?
Average method
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?
Также из этого изображения:
Утверждается, что:
Фрагмент абзаца можно рассматривать как другое слово. Он действует как память, которая запоминает то, что отсутствует в текущем контексте, или тема этого параграфа. По этой причине мы часто называем эту модель модель распределенной памяти векторов абзацев (PV-DM).
Является ли токен абзаца равным вектору абзаца, равным on
?
![введите описание изображения здесь]()
Ответы
Ответ 1
Как работает конкатенация или усреднение?
Вы получили это право для среднего. Конкатенация: [0.1,0.2,0.3,0.4,0.5,0.6]
.
Является ли токен абзаца равным вектору абзаца, равному на?
"Маркер абзаца" отображается на вектор, который называется "вектором абзаца". Он отличается от токена "on" и отличается от словарного вектора, на который отображается токен "on".
Ответ 2
Простым (и иногда полезным) вектором для диапазона текста является сумма или среднее векторов текстовых слов, но это не то, что представляет собой "вектор абзаца" в документе "Векторы абзацев".
Скорее, вектор абзаца - это еще один вектор, обученный аналогично векторам слов, который также приспособлен для помощи в предсказании слов. Эти векторы объединяются (или чередуются) с векторами слов для подачи модели прогнозирования. То есть, усреднение (в режиме DM) включает в себя PV вместе с слово-векторами - оно не формирует PV из слово-векторов.
На диаграмме on
предсказываемое целевое слово на этой диаграмме сочетается с близкими соседними словами и полным примером PV, который, возможно, может быть неофициально рассмотрен как специальное псевдослово, весь текстовый пример, участвующий во всех скользящих "окнах" реальных слов.