Ответ 1
Большие данные - это все
Большие данные - это маркетинговый термин, а не технический термин. В наши дни все большие данные. Теперь мой USB-накопитель является "личным облаком", а мой жесткий диск - это большие данные. Шутки в сторону. Это совершенно неспецифический термин, который во многом определяется тем, что могут продавать отделы маркетинга различных оптимистичных компаний - и C * Os крупных компаний покупают, чтобы сделать волшебство.
Вывод данных - это старые большие данные
Фактически, интеллектуальный анализ данных был так же чрезмерным... это могло означать что угодно, например
- сбор данных (думаю, NSA)
- сохранение данных
- машинное обучение /AI (что предшествует термину "интеллектуальный анализ данных" )
- интеллектуальный анализ не-ML (как в "открытии знаний", где термин "интеллектуальный анализ данных" был фактически придуман, но где основное внимание уделяется новым знаниям, а не изучению существующих знаний)
- бизнес-правила и аналитика
- Визуализация
- все, что связано с данными, которые вы хотите продать для грузовиков с деньгами.
Просто для маркетинга нужен новый термин. "Бизнес-аналитика", "бизнес-аналитика",... они продолжают продавать одни и те же вещи, теперь они просто переименованы в "большие данные".
Большинство "больших" интеллектуальных данных невелики
Поскольку большинство методов - по крайней мере, те, которые дают интересные результаты - просто не масштабируются, большинство данных, "заминированных", на самом деле не большой. Он явно намного больше, чем 10 лет назад, но не такой большой, как в Exabytes. Опрос, проведенный KDnuggets, составлял примерно 1-10 ГБ, являясь средним "самым большим аналитичным набором данных". Это не большие данные с помощью каких-либо средств управления данными; он только большой по тому, что можно проанализировать с использованием сложных методов. (Я не говорю о тривиальных алгоритмах, таких как k-средство).
Большинство "больших данных" - это не интеллектуальный анализ данных
Теперь "Большие данные" реальны. У Google есть большие данные, и у ЦЕРН также есть большие данные. Большинство других, вероятно, нет. Данные начинают быть большими, когда вам нужно 1000 компьютеров, чтобы их сохранить.
Большие технологии данных, такие как Hadoop, также реальны. Они не всегда используются разумно (не беспокойтесь о том, чтобы запускать кластеры hadoop менее 100 узлов - поскольку этот момент, вероятно, вы получите гораздо лучшую производительность от хорошо выбранных некластеризованных машин), но, конечно, люди пишут такое программное обеспечение.
Но большая часть того, что делается, - это не интеллектуальный анализ данных. Он Извлечь, преобразовать, загрузить (ETL), поэтому он заменяет хранилище данных. Вместо того, чтобы использовать базу данных со структурой, индексами и ускоренными запросами, данные просто сбрасываются в hadoop, и когда вы выяснили, что делать, вы перечитываете все свои данные и извлекаете нужную вам информацию, транслируете ее и загрузите его в таблицу Excel. Потому что после выбора, извлечения и преобразования, обычно это больше не "большой".
Качество данных имеет размер
Многие из маркетинговых promises больших данных не будут выполняться. Twitter дает гораздо меньше информации для большинства компаний, чем рекламируется (если вы не являетесь подростковой рок-звездой, то есть); и база данных пользователей Twitter сильно предвзята. Корректировка такого предвзятости является сложной и требует высококвалифицированных статистиков.
Изложение данных - одна из проблем - если вы просто собираете некоторые случайные данные из Интернета или приложения, это обычно не является репрезентативным; в частности, не потенциальных пользователей. Вместо этого вы будете перегружать существующих тяжелых пользователей, если вам не удастся отменить эти эффекты.
Другой большой проблемой является просто шум. У вас есть спам-боты, но также и другие инструменты (думаю, что "Твиттер-Твиттер", который вызывает усиление "трендов" ), которые делают данные гораздо более шумными, чем другие источники. Чистка этих данных сложна, а не технология, а экспертная экспертиза в области статистики. Например, Google Flu Trends неоднократно признавался довольно неточным. Он работал в некоторые из ранних лет (возможно, из-за переобучения?), Но уже не хорошего качества.
К сожалению, многие крупные пользователи данных уделяют этому слишком мало внимания; что, вероятно, является одной из многих причин, по которым большинство крупных проектов данных, похоже, терпят неудачу (другие - некомпетентное управление, завышенные и нереалистичные ожидания, отсутствие корпоративной культуры и квалифицированных людей).
Hadoop!= интеллектуальная обработка данных
Теперь для второй части вашего вопроса. Hadoop не занимается добычей данных. Hadoop управляет хранением данных (через HDFS, очень примитивный вид распределенной базы данных), и он планирует задачи вычисления, позволяя выполнять вычисления на тех же машинах, которые хранят данные. Он не делает никакого сложного анализа.
Есть некоторые инструменты, которые пытаются довести интеллектуальный анализ данных до Hadoop. В частности, Apache Mahout можно назвать официальной попыткой Apache выполнить интеллектуальный анализ данных на Hadoop. Кроме того, что это в основном инструмент машинного обучения (машинное обучение!= Интеллектуальный анализ данных, иногда интеллектуальный анализ использует методы машинного обучения). Некоторые части Mahout (например, кластеризация) далеко не продвинуты. Проблема в том, что Hadoop хорош для линейных задач, но большая часть интеллектуального анализа данных не является линейной. И нелинейные алгоритмы не просто масштабируются до больших данных; вам необходимо тщательно развить линейные приближения и жить с потерями в точности - потери, которые должны быть меньше, чем вы потеряли бы, просто работая с меньшими данными.
Хорошим примером этой компромиссной проблемы является k-средство. На самом деле K-означает (в основном) линейную задачу; поэтому его можно несколько запустить на Hadoop. Единая итерация линейна, и если бы у вас была хорошая реализация, она бы хорошо масштабировалась для больших данных. Однако количество итераций до сближения также растет с размером набора данных, и, следовательно, оно не является линейным. Однако, поскольку это статистический метод для поиска "средств", результаты фактически не улучшаются с размером набора данных. Таким образом, хотя вы можете запускать k-средства для больших данных, это не имеет большого значения - вы можете просто взять образец своих данных, запустить высокоэффективную версию k-средств для одиночного node, а результаты будут такими же хорошими. Поскольку дополнительные данные просто дают вам некоторые дополнительные цифры точности, которые вам не нужны, чтобы быть точным.
Поскольку это относится к довольно большому количеству проблем, фактический интеллектуальный анализ данных на Hadoop, похоже, не начинается. Все пытаются это сделать, и многие компании продают этот материал. Но это не работает намного лучше, чем не большая версия. Но пока клиенты хотят это купить, компании будут продавать эту функциональность. И до тех пор, пока он получит грант, исследователи напишут об этом. Работает он или нет. Эта жизнь.
Есть несколько случаев, когда эти вещи работают. Поиском Google является пример, и Cern. Но также распознавание изображений (но не использование Hadoop, кластеры графических процессоров, похоже, путь туда) в последнее время выиграло от увеличения размера данных. Но в любом из этих случаев у вас есть довольно чистые данные. Google индексирует все; Cern отбрасывает любые неинтересные данные и анализирует только интересные измерения - спамеров не кормят спамом в Cern... и при анализе изображений вы тренируетесь по предварительно выбранным соответствующим изображениям, а не по веб-камерам или случайным изображениям из Интернета (и если это так, вы относитесь к ним как к случайным изображениям, а не к репрезентативным данным).