Бесплатные большие наборы данных для экспериментов с Hadoop

Знаете ли вы какие-либо большие наборы данных для экспериментов с Hadoop, которые являются бесплатными/недорогими? Любые ссылки/ссылки связаны с оценкой.

Prefernce:

По меньшей мере один ГБ данных.
Данные журнала производства веб-сервера.

Немногие из них, которые я нашел до сих пор:

Также мы можем запустить наш собственный искатель для сбора данных с сайтов, например. Википедия? Любые указатели на то, как это сделать, также ценятся.

Ответы

Ответ 1

Несколько вопросов о вашем вопросе о сканировании и википедии.

Вы связались с дампами данных wikipedia, и вы можете использовать Cloud9 от UMD для работы с этими данными в Hadoop.

У них есть страница об этом: Работа с Википедии

Еще один источник данных, который нужно добавить в список:

ClueWeb09 - 1 миллиард веб-страниц, собранных между январем и февралем 09. Сжатие 5TB.

Использование искателя для генерации данных должно быть опубликовано в отдельном вопросе на вопрос о Hadoop/MapReduce, я бы сказал.

Ответ 2

Один очевидный источник: дампы данных трилогии Stack Overflow. Они свободно доступны по лицензии Creative Commons.

Ответ 3

Это набор из 189 наборов данных для машинного обучения (который является одним из самых приятных приложений для hadoop g): http://archive.ics.uci.edu/ml/datasets.html

Ответ 4

Это не файл журнала, но, возможно, вы можете использовать файл планет из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

Лицензия CC, около 160 ГБ (распакованная)

Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World