Как загрузить небольшие файлы в Amazon S3 эффективно в Python

В последнее время мне нужно как можно быстрее реализовать программу для загрузки файлов в Amazon EC2 на S3 в Python. Размер файлов - 30 КБ.

Я пробовал некоторые решения, используя несколько потоков, множественную обработку, совместную работу. Ниже приведен мой результат теста производительности на Amazon EC2.

3600 (количество файлов) * 30K (размер файла) ~~ 105M (Всего) --- >

Конфигурация машины Ubuntu 14.04, 2 процессора (2.50 ГГц), 4G памяти

Самая высокая достигнутая скорость составляет 19 Мбит/с (105/5.5). В целом, это слишком медленно. Любой способ ускорить его? Может ли ускоренный python делать это быстрее?

Ответы

Ответ 1

Пример параллельного времени загрузки для Amazon S3 с помощью Python boto SDK можно найти здесь:

Параллельные загрузки S3 с использованием Boto и потоков в Python

Вместо написания кода вы можете также обратиться к интерфейсу командной строки AWS, который может выполнять закачки в параллельны друг другу. Он также написан на Python и использует boto.

Ответ 2

Мне недавно потребовалось загрузить около 5 ТБ небольших файлов в AWS и без проблем достигнет полной пропускной способности сети ~ 750 Мбит (соединение 1 Гб на сервер), установив более высокое значение "max_concurrent_request" в файле ~/.aws/config.

Я ускорил процесс, запустив несколько заданий загрузки через bash for-loop и отправив эти задания на разные серверы.

Я также попытался использовать python, например. s3-parallel-put, но я думаю, что этот подход быстрее. Конечно, если файлы слишком маленькие, следует учитывать: Сжатие → Загрузка в EBS/S3 и распаковка там

Вот какой код может помочь.

$cat .aws/config 
[default]
region = eu-west-1
output = text
s3 =
    max_concurrent_requests = 100

Запустите несколько копий копий aws, например.

for folder in `ls`; do aws s3 cp $folder s3://<bucket>/$folder/whatever/; done

Ответ 3

У меня та же проблема, что и у вас. Мое решение было отправить данные в AWS SQS, а затем сохранить их на S3 с помощью AWS Lambda.

Итак, поток данных выглядит: приложение → SQS → Lambda → S3

Весь процесс асинхронен, но почти в режиме реального времени:)