Как я могу получить доступ к S3/S3n с локальной установки Hadoop 2.6?
Я пытаюсь воспроизвести кластер EMR Amazon на моей локальной машине. С этой целью я установил последнюю стабильную версию Hadoop на данный момент - 2.6.0.
Теперь я хотел бы получить доступ к ведро S3, как и в кластере EMR.
Я добавил учетные данные aws в файле core-site.xml:
<property>
<name>fs.s3.awsAccessKeyId</name>
<value>some id</value>
</property>
<property>
<name>fs.s3n.awsAccessKeyId</name>
<value>some id</value>
</property>
<property>
<name>fs.s3.awsSecretAccessKey</name>
<value>some key</value>
</property>
<property>
<name>fs.s3n.awsSecretAccessKey</name>
<value>some key</value>
</property>
Примечание. Поскольку на клавише есть некоторые косые черты, я избежал их с помощью% 2F
Если я попытаюсь перечислить содержимое ведра:
hadoop fs -ls s3://some-url/bucket/
Я получаю эту ошибку:
ls: Нет Файловая система для схемы: s3
Я снова редактировал файл core-site.xml и добавил информацию, связанную с fs:
<property>
<name>fs.s3.impl</name>
<value>org.apache.hadoop.fs.s3.S3FileSystem</value>
</property>
<property>
<name>fs.s3n.impl</name>
<value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
</property>
На этот раз я получаю другую ошибку:
-ls: Fatal internal error
java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2578)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)
Как-то я подозреваю, что в распределении пряжи нет необходимых фляг, чтобы читать S3, но я понятия не имею, где их получить. Любые указатели в этом направлении были бы весьма полезны.
Ответы
Ответ 1
По какой-то причине jar hadoop-aws-[version].jar
, который содержит реализацию для NativeS3FileSystem
, отсутствует в classpath
hadoop по умолчанию в версиях 2.6 и 2.7. Итак, попробуйте добавить его в путь к классам, добавив следующую строку в hadoop-env.sh
, которая находится в $HADOOP_HOME/etc/hadoop/hadoop-env.sh
:
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/share/hadoop/tools/lib/*
Предполагая, что вы используете Apache Hadoop 2.6 или 2.7
Кстати, вы можете проверить путь класса Hadoop, используя:
bin/hadoop classpath
Ответ 2
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0 pyspark-shell'
import pyspark
sc = pyspark.SparkContext("local[*]")
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
hadoopConf = sc._jsc.hadoopConfiguration()
myAccessKey = input()
mySecretKey = input()
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", myAccessKey)
hadoopConf.set("fs.s3.awsSecretAccessKey", mySecretKey)
df = sqlContext.read.parquet("s3://myBucket/myKey")
Ответ 3
Ответ @Ashrith работал у меня с одной модификацией: мне пришлось использовать $HADOOP_PREFIX
, а не $HADOOP_HOME
при запуске v2.6 на Ubuntu. Возможно, это потому, что похоже, что $HADOOP_HOME
является deprecated?
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${HADOOP_PREFIX}/share/hadoop/tools/lib/*
Сказав это, ни один из них не работал на моем Mac с v2.6, установленным через Homebrew. В этом случае я использую этот чрезвычайно неуклюжий экспорт:
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(brew --prefix hadoop)/libexec/share/hadoop/tools/lib/*
Ответ 4
Если вы используете HDP 2.x или выше, вы можете попробовать изменить следующее свойство в настройках конфигурации MapReduce2 в Ambari.
mapreduce.application.classpath
Добавьте к концу существующей строки следующее значение:
/USR/HDP/${hdp.version}/Hadoop-MapReduce/*
Ответ 5
Чтобы решить эту проблему, я пробовал все вышеперечисленное, что не удалось (для моей среды в любом случае).
Однако мне удалось заставить его работать, скопировав упомянутые выше два баночки из инструмента dir и в common/lib.
Сработало после этого.