Начало работы с Avro

Я хочу начать с использования Avro с уменьшением карты. Может ли кто-нибудь предложить хороший учебник/пример для начала работы. Я не мог найти много через интернет-поиск.

Ответы

Ответ 1

Недавно я сделал проект, который был в значительной степени основан на данных Avro и раньше не использовал этот формат данных, мне пришлось начинать с нуля. Вы правы в том, что довольно сложно получить большую помощь от онлайн-источников при начале работы с Avro. Материал, который я вам рекомендовал бы:

  • Самым полезным источником, который я нашел, был раздел Avro (p103-p116) в Tom White Hadoop: The Definitive Guide book а также его страницу Github для кода, который он использует в книге.
  • Для дополнительных примеров кода я посмотрел на страницу Ron Bodkin Github avro-mr-sample.
  • В моем случае я использовал Python для чтения и записи файлов Avro, и для этого я использовал этот учебник.
  • Хотя это очевидно, я добавлю ссылку на список рассылки Avro Users. Там есть тонна информации, и после того, как я прочитал вышеупомянутый материал и реализовал кучу кода, я обнаружил, что трачу часы, просматривая архивы.

Наконец, мое последнее предложение для вас - использовать Avro 1.4.1 с Hadoop 0.20.2 и ТОЛЬКО эта комбинация. У меня были некоторые серьезные проблемы с запуском моего кода с использованием Hadoop 0.21 и более поздних версий Avro.

Ответ 2

Другие ссылки:

Основная проблема, которую я вижу с документацией (мало что существует), заключается в том, что она фокусируется на очень трудоемком "общем" подходе; что кажется странным, потому что он сочетает в себе наихудший из двух стран - вы все равно должны предоставлять полную схему для данных, но не получаете никакой выгоды от статических типов или таких. Автоматическое создание кода более удобно, но менее хорошо покрыто.