Ответ 1
Недавно я сделал проект, который был в значительной степени основан на данных Avro и раньше не использовал этот формат данных, мне пришлось начинать с нуля. Вы правы в том, что довольно сложно получить большую помощь от онлайн-источников при начале работы с Avro. Материал, который я вам рекомендовал бы:
- Самым полезным источником, который я нашел, был раздел Avro (p103-p116) в Tom White Hadoop: The Definitive Guide book а также его страницу Github для кода, который он использует в книге.
- Для дополнительных примеров кода я посмотрел на страницу Ron Bodkin Github avro-mr-sample.
- В моем случае я использовал Python для чтения и записи файлов Avro, и для этого я использовал этот учебник.
- Хотя это очевидно, я добавлю ссылку на список рассылки Avro Users. Там есть тонна информации, и после того, как я прочитал вышеупомянутый материал и реализовал кучу кода, я обнаружил, что трачу часы, просматривая архивы.
Наконец, мое последнее предложение для вас - использовать Avro 1.4.1 с Hadoop 0.20.2 и ТОЛЬКО эта комбинация. У меня были некоторые серьезные проблемы с запуском моего кода с использованием Hadoop 0.21 и более поздних версий Avro.