Как добавить новые вложения для неизвестных слов в Tensorflow (подготовка и предварительная установка для тестирования)
Мне любопытно, как я могу добавить нормализованный рандомизированный вектор размерности 300 (element 'type = tf.float32) всякий раз, когда встречается слово, неизвестное предварительно обученному словарю. Я использую предварительно подготовленные словарные вставки GloVe, но в некоторых случаях я понимаю, что сталкиваюсь с неизвестными словами, и я хочу создать нормализованный рандомизированный вектор слов для этого нового найденного неизвестного слова.
Проблема в том, что с моей текущей настройкой я использую tf.contrib.lookup.index_table_from_tensor для преобразования из слов в целые числа на основе известный словарь. Эта функция может создавать новые токены и хешировать их для некоторого предопределенного количества слов из словаря, но мой embed
не будет содержать вложение для этого нового неизвестного значения хэш-функции. Я не уверен, могу ли я просто добавить рандомизированное вложение в конец списка embed
.
Я также хотел бы сделать это эффективным образом, поэтому, возможно, была бы наиболее эффективной функция pre-built shadoworflow или метод, включающий функции tensorflow. Я определяю заранее известные специальные маркеры, такие как токен конца предложения, и по умолчанию неизвестно как пустая строка ( "по индексу 0" ), но это ограничено по возможности изучать разные разные неизвестные слова. В настоящее время я использую tf.nn.embedding_lookup() как последний шаг внедрения.
Я хотел бы иметь возможность добавлять новые случайные 300d-векторы для каждого неизвестного слова в данных обучения, и я также хотел бы добавить заранее сделанные случайные векторы слов для любых неизвестных токенов, не встречающихся в процессе обучения, которые, возможно, встречаются во время тестирование. Каков наиболее эффективный способ сделать это?
def embed_tensor(string_tensor, trainable=True):
"""
Convert List of strings into list of indicies then into 300d vectors
"""
# ordered lists of vocab and corresponding (by index) 300d vector
vocab, embed = load_pretrained_glove()
# Set up tensorflow look up from string word to unique integer
vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
mapping=tf.constant(vocab),
default_value = 0)
string_tensor = vocab_lookup.lookup(string_tensor)
# define the word embedding
embedding_init = tf.Variable(tf.constant(np.asarray(embed),
dtype=tf.float32),
trainable=trainable,
name="embed_init")
# return the word embedded version of the sentence (300d vectors/word)
return tf.nn.embedding_lookup(embedding_init, string_tensor)
Ответы
Ответ 1
Приведенный ниже пример кода адаптирует вашу функцию embed_tensor
таким образом, что слова встроены следующим образом:
- Для слов, которые имеют преднамеренное вложение, вложение инициализируется предварительным вложением. Вложение можно сохранить фиксированным во время обучения, если
trainable
False
.
- Для слов в данных обучения, у которых нет предварительно преднамеренного вложения, вложение инициализируется случайным образом. Вложение можно сохранить фиксированным во время обучения, если
trainable
False
.
- Для слов в тестовых данных, которые не встречаются в данных обучения и не имеют предварительно обработанного вложения, используется один случайный инициализированный вектор внедрения. Этот вектор не может быть обучен.
import tensorflow as tf
import numpy as np
EMB_DIM = 300
def load_pretrained_glove():
return ["a", "cat", "sat", "on", "the", "mat"], np.random.rand([6, EMB_DIM])
def get_train_vocab():
return ["a", "dog", "sat", "on", "the", "mat"]
def embed_tensor(string_tensor, trainable=True):
"""
Convert List of strings into list of indices then into 300d vectors
"""
# ordered lists of vocab and corresponding (by index) 300d vector
pretrained_vocab, pretrained_embs = load_pretrained_glove()
train_vocab = get_train_vocab()
only_in_train = set(train_vocab) - set(pretrained_vocab)
vocab = pretrained_vocab + only_in_train
# Set up tensorflow look up from string word to unique integer
vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
mapping=tf.constant(vocab),
default_value=len(vocab))
string_tensor = vocab_lookup.lookup(string_tensor)
# define the word embedding
pretrained_embs = tf.get_variable(
name="embs_pretrained",
initializer=tf.constant_initializer(np.asarray(pretrained_embs), dtype=tf.float32),
trainable=trainable)
train_embeddings = tf.get_variable(
name="embs_only_in_train",
shape=[len(only_in_train), EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=trainable)
unk_embedding = tf.get_variable(
name="unk_embedding",
shape=[1, EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=False)
embeddings = tf.concat([pretrained_embs, train_embeddings, unk_embedding], axis=0)
return tf.nn.embedding_lookup(embeddings, string_tensor)
FYI, чтобы иметь разумное, неслучайное представление для слов, которые не встречаются в данных обучения, и не имеют предварительно подготовленного вложения, вы могли бы рассмотреть возможность сопоставления слов с низкой частотой в ваших данных обучения с помощью unk (это не в вашем словаре) и сделать unk_embedding
обучаемым. Таким образом, вы узнаете прототип для слов, невидимых в данных обучения.
Ответ 2
Я никогда не пробовал, но я могу попытаться предоставить возможный способ с использованием тех же механизмов вашего кода, но я подумаю об этом позже.
Метод index_table_from_tensor
принимает параметр num_oov_buckets
, который перетасовывает все ваши слова oov в предопределенное количество ковшей.
Если вы установите этот параметр на определенное "достаточно большое" значение, вы увидите, что ваши данные распространяются среди этих ковшей (каждый ведро имеет идентификатор ID > последнего словарного слова).
Итак,
- если (при каждом поиске) вы устанавливаете (т.е.
assign
) последние строки (соответствующие ведрам) вашей переменной embedding_init
в случайное значение
- если вы сделаете
num_oov_buckets
достаточно большим, чтобы столкновения были минимизированы.
вы можете получить поведение, которое (приближение) к тому, что вы просите очень эффективным способом.
Случайное поведение может быть оправдано теорией, аналогичной хэш-таблице: если количество ведер достаточно велико, метод хэширования строк будет с высокой вероятностью назначать каждое слово овева другому ведру (т.е. минимизировать столкновения к тем же ведрам). Поскольку вы назначаете различное случайное число для каждого другого ведра, вы можете получить (почти) различное сопоставление каждого слова oov.