Бесплатные большие наборы данных для экспериментов с Hadoop
Знаете ли вы какие-либо большие наборы данных для экспериментов с Hadoop, которые являются бесплатными/недорогими?
Любые ссылки/ссылки связаны с оценкой.
Prefernce:
Немногие из них, которые я нашел до сих пор:
Также мы можем запустить наш собственный искатель для сбора данных с сайтов, например. Википедия? Любые указатели на то, как это сделать, также ценятся.
Ответы
Ответ 1
Несколько вопросов о вашем вопросе о сканировании и википедии.
Вы связались с дампами данных wikipedia, и вы можете использовать Cloud9 от UMD для работы с этими данными в Hadoop.
У них есть страница об этом: Работа с Википедии
Еще один источник данных, который нужно добавить в список:
- ClueWeb09 - 1 миллиард веб-страниц, собранных между январем и февралем 09. Сжатие 5TB.
Использование искателя для генерации данных должно быть опубликовано в отдельном вопросе на вопрос о Hadoop/MapReduce, я бы сказал.
Ответ 2
Один очевидный источник: дампы данных трилогии Stack Overflow. Они свободно доступны по лицензии Creative Commons.
Ответ 3
Это набор из 189 наборов данных для машинного обучения (который является одним из самых приятных приложений для hadoop g):
http://archive.ics.uci.edu/ml/datasets.html
Ответ 4
Это не файл журнала, но, возможно, вы можете использовать файл планет из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm
Лицензия CC, около 160 ГБ (распакованная)
Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World