Я пытаюсь выполнить предварительную выборку данных обучения, чтобы скрыть задержку ввода-вывода. Я хотел бы написать собственный код Python, который загружает данные с диска и препроцессы данных (например, путем добавления контекстного окна). Другими словами, один поток выполняет предварительную обработку данных, а другой - обучение. Возможно ли это в TensorFlow?

Обновление: у меня есть рабочий пример, основанный на примере @mrry.

Ответы

Ответ 1

Это распространенный прецедент, и большинство реализаций используют очереди TensorFlow, чтобы отделить код предварительной обработки от кода обучения. Существует учебник о том, как использовать очереди, но основные шаги заключаются в следующем:

Определите очередь, q, которая будет буферизовать предварительно обработанные данные. TensorFlow поддерживает простой tf.FIFOQueue, который создает элементы в том порядке, в котором они были установлены, и более продвинутый tf.RandomShuffleQueue, который создает элементы в произвольном порядке. Элемент очереди представляет собой набор из одного или нескольких тензоров (которые могут иметь разные типы и формы). Все очереди поддерживают операции с одним элементом (enqueue, dequeue) и batch (enqueue_many, dequeue_many), но для использования пакетных операций вы должны указывать формы каждого тензора в элементе очереди при построении очереди.
Создайте подграф, который ставит в очередь предварительно обработанные элементы. Один из способов сделать это - определить некоторые tf.placeholder() ops для тензоров, соответствующих одному примеру ввода, затем передать их в q.enqueue(). (Если ваша предварительная обработка производит партию одновременно, вы должны использовать q.enqueue_many().) Вы также можете включить операции TensorFlow на этом подграфе.
Создайте подграф, который выполняет обучение. Это будет выглядеть как обычный график TensorFlow, но получит его вклад, вызвав q.dequeue_many(BATCH_SIZE).
Запустите сеанс.
Создайте один или несколько потоков, которые выполняют вашу логику предварительной обработки, а затем выполните опцию enqueue op, подавая предварительно обработанные данные. Вы можете найти tf.train.Coordinator и tf.train.QueueRunner классы, полезные для этого.
Запустите свой учебный график (оптимизатор и т.д.) как обычно.

РЕДАКТИРОВАТЬ: Здесь простая функция load_and_enqueue() и фрагмент кода, чтобы вы начали:

# Features are length-100 vectors of floats
feature_input = tf.placeholder(tf.float32, shape=[100])
# Labels are scalar integers.
label_input = tf.placeholder(tf.int32, shape=[])

# Alternatively, could do:
# feature_batch_input = tf.placeholder(tf.float32, shape=[None, 100])
# label_batch_input = tf.placeholder(tf.int32, shape=[None])

q = tf.FIFOQueue(100, [tf.float32, tf.int32], shapes=[[100], []])
enqueue_op = q.enqueue([feature_input, label_input])

# For batch input, do:
# enqueue_op = q.enqueue_many([feature_batch_input, label_batch_input])

feature_batch, label_batch = q.dequeue_many(BATCH_SIZE)
# Build rest of model taking label_batch, feature_batch as input.
# [...]
train_op = ...

sess = tf.Session()

def load_and_enqueue():
  with open(...) as feature_file, open(...) as label_file:
    while True:
      feature_array = numpy.fromfile(feature_file, numpy.float32, 100)
      if not feature_array:
        return
      label_value = numpy.fromfile(feature_file, numpy.int32, 1)[0]

      sess.run(enqueue_op, feed_dict={feature_input: feature_array,
                                      label_input: label_value})

# Start a thread to enqueue data asynchronously, and hide I/O latency.
t = threading.Thread(target=load_and_enqueue)
t.start()

for _ in range(TRAINING_EPOCHS):
  sess.run(train_op)

Ответ 2

Другими словами, один поток выполняет предварительную обработку данных, а другой - обучение. Возможно ли это в TensorFlow?

Да, это так. mrry работает, но проще.

Получение данных

tf.py_func обертывает функцию python и использует ее как оператор TensorFlow. Таким образом, мы можем каждый раз загружать данные в sess.run(). Проблема с этим подходом заключается в том, что данные загружаются во время sess.run() через основной поток.

Минимальный пример:

def get_numpy_tensor():
  return np.array([[1,2],[3,4]], dtype=np.float32)
tensorflow_tensor = tf.py_func(get_numpy_tensor, [], tf.float32)

Более сложный пример:

def get_numpy_tensors():
  # Load data from the disk into numpy arrays.
  input = np.array([[1,2],[3,4]], dtype=np.float32)
  target = np.int32(1)
  return input, target
tensorflow_input, tensorflow_target = tf.py_func(get_numpy_tensors, [], [tf.float32, tf.int32])

tensorflow_input, tensorflow_target = 2*tensorflow_input, 2*tensorflow_target

sess = tf.InteractiveSession()
numpy_input, numpy_target = sess.run([tensorflow_input, tensorflow_target])
assert np.all(numpy_input==np.array([[2,4],[6,8]])) and numpy_target==2

Предварительная выборка данных в другом потоке

Чтобы оцифровать наши данные в другом потоке (чтобы sess.run() не нужно было ждать данных), мы можем использовать tf.train.batch() на наших операторах из tf.py_func().