Ответ 1
Amazon S3 предоставляет утилиту S3DistCp для получения данных в S3 и из них. Это обычно используется при запуске продукта Amazon EMR, и вы не хотите размещать собственный кластер или использовать экземпляры для хранения данных. S3 может хранить все ваши данные для вас, и EMR может читать/записывать данные с/на S3.
Однако передача 100 ГБ потребует времени, и если вы планируете делать это более одного раза (т.е. больше, чем одноразовое пакетное задание), это будет значительным узким местом в вашей обработке (особенно если данные будут расти).
Похоже, вам не нужно использовать S3. Mongo внедрил адаптер для выполнения работ по сокращению карты поверх своего MongoDB. http://blog.mongodb.org/post/24610529795/hadoop-streaming-support-for-mongodb
Это выглядит привлекательно, поскольку позволяет реализовать MR в python/js/ruby.
Я думаю, что эта настройка mongo-hadoop была бы более эффективной, чем копирование 100 ГБ данных на S3.
UPDATE: пример использования map-reduce с mongo здесь.