В чем разница между большими данными и интеллектуальным анализом данных?

Как говорится в Wikpedia

Общая цель процесса интеллектуального анализа данных заключается в извлечении информации из набора данных и преобразовать его в понятную структуру для дальнейшее использование

Как это связано с большими данными? Правильно ли, если я скажу, что Hadoop проводит параллельную обработку данных?

Ответы

Ответ 1

Большие данные - это все

Большие данные - это маркетинговый термин, а не технический термин. В наши дни все большие данные. Теперь мой USB-накопитель является "личным облаком", а мой жесткий диск - это большие данные. Шутки в сторону. Это совершенно неспецифический термин, который во многом определяется тем, что могут продавать отделы маркетинга различных оптимистичных компаний - и C * Os крупных компаний покупают, чтобы сделать волшебство.

Вывод данных - это старые большие данные

Фактически, интеллектуальный анализ данных был так же чрезмерным... это могло означать что угодно, например

сбор данных (думаю, NSA)
сохранение данных
машинное обучение /AI (что предшествует термину "интеллектуальный анализ данных" )
интеллектуальный анализ не-ML (как в "открытии знаний", где термин "интеллектуальный анализ данных" был фактически придуман, но где основное внимание уделяется новым знаниям, а не изучению существующих знаний)
бизнес-правила и аналитика
Визуализация
все, что связано с данными, которые вы хотите продать для грузовиков с деньгами.

Просто для маркетинга нужен новый термин. "Бизнес-аналитика", "бизнес-аналитика",... они продолжают продавать одни и те же вещи, теперь они просто переименованы в "большие данные".

Большинство "больших" интеллектуальных данных невелики

Поскольку большинство методов - по крайней мере, те, которые дают интересные результаты - просто не масштабируются, большинство данных, "заминированных", на самом деле не большой. Он явно намного больше, чем 10 лет назад, но не такой большой, как в Exabytes. Опрос, проведенный KDnuggets, составлял примерно 1-10 ГБ, являясь средним "самым большим аналитичным набором данных". Это не большие данные с помощью каких-либо средств управления данными; он только большой по тому, что можно проанализировать с использованием сложных методов. (Я не говорю о тривиальных алгоритмах, таких как k-средство).

Большинство "больших данных" - это не интеллектуальный анализ данных

Теперь "Большие данные" реальны. У Google есть большие данные, и у ЦЕРН также есть большие данные. Большинство других, вероятно, нет. Данные начинают быть большими, когда вам нужно 1000 компьютеров, чтобы их сохранить.

Большие технологии данных, такие как Hadoop, также реальны. Они не всегда используются разумно (не беспокойтесь о том, чтобы запускать кластеры hadoop менее 100 узлов - поскольку этот момент, вероятно, вы получите гораздо лучшую производительность от хорошо выбранных некластеризованных машин), но, конечно, люди пишут такое программное обеспечение.

Но большая часть того, что делается, - это не интеллектуальный анализ данных. Он Извлечь, преобразовать, загрузить (ETL), поэтому он заменяет хранилище данных. Вместо того, чтобы использовать базу данных со структурой, индексами и ускоренными запросами, данные просто сбрасываются в hadoop, и когда вы выяснили, что делать, вы перечитываете все свои данные и извлекаете нужную вам информацию, транслируете ее и загрузите его в таблицу Excel. Потому что после выбора, извлечения и преобразования, обычно это больше не "большой".

Качество данных имеет размер

Многие из маркетинговых promises больших данных не будут выполняться. Twitter дает гораздо меньше информации для большинства компаний, чем рекламируется (если вы не являетесь подростковой рок-звездой, то есть); и база данных пользователей Twitter сильно предвзята. Корректировка такого предвзятости является сложной и требует высококвалифицированных статистиков.

Изложение данных - одна из проблем - если вы просто собираете некоторые случайные данные из Интернета или приложения, это обычно не является репрезентативным; в частности, не потенциальных пользователей. Вместо этого вы будете перегружать существующих тяжелых пользователей, если вам не удастся отменить эти эффекты.

Другой большой проблемой является просто шум. У вас есть спам-боты, но также и другие инструменты (думаю, что "Твиттер-Твиттер", который вызывает усиление "трендов" ), которые делают данные гораздо более шумными, чем другие источники. Чистка этих данных сложна, а не технология, а экспертная экспертиза в области статистики. Например, Google Flu Trends неоднократно признавался довольно неточным. Он работал в некоторые из ранних лет (возможно, из-за переобучения?), Но уже не хорошего качества.

К сожалению, многие крупные пользователи данных уделяют этому слишком мало внимания; что, вероятно, является одной из многих причин, по которым большинство крупных проектов данных, похоже, терпят неудачу (другие - некомпетентное управление, завышенные и нереалистичные ожидания, отсутствие корпоративной культуры и квалифицированных людей).

Hadoop!= интеллектуальная обработка данных

Теперь для второй части вашего вопроса. Hadoop не занимается добычей данных. Hadoop управляет хранением данных (через HDFS, очень примитивный вид распределенной базы данных), и он планирует задачи вычисления, позволяя выполнять вычисления на тех же машинах, которые хранят данные. Он не делает никакого сложного анализа.

Есть некоторые инструменты, которые пытаются довести интеллектуальный анализ данных до Hadoop. В частности, Apache Mahout можно назвать официальной попыткой Apache выполнить интеллектуальный анализ данных на Hadoop. Кроме того, что это в основном инструмент машинного обучения (машинное обучение!= Интеллектуальный анализ данных, иногда интеллектуальный анализ использует методы машинного обучения). Некоторые части Mahout (например, кластеризация) далеко не продвинуты. Проблема в том, что Hadoop хорош для линейных задач, но большая часть интеллектуального анализа данных не является линейной. И нелинейные алгоритмы не просто масштабируются до больших данных; вам необходимо тщательно развить линейные приближения и жить с потерями в точности - потери, которые должны быть меньше, чем вы потеряли бы, просто работая с меньшими данными.

Хорошим примером этой компромиссной проблемы является k-средство. На самом деле K-означает (в основном) линейную задачу; поэтому его можно несколько запустить на Hadoop. Единая итерация линейна, и если бы у вас была хорошая реализация, она бы хорошо масштабировалась для больших данных. Однако количество итераций до сближения также растет с размером набора данных, и, следовательно, оно не является линейным. Однако, поскольку это статистический метод для поиска "средств", результаты фактически не улучшаются с размером набора данных. Таким образом, хотя вы можете запускать k-средства для больших данных, это не имеет большого значения - вы можете просто взять образец своих данных, запустить высокоэффективную версию k-средств для одиночного node, а результаты будут такими же хорошими. Поскольку дополнительные данные просто дают вам некоторые дополнительные цифры точности, которые вам не нужны, чтобы быть точным.

Поскольку это относится к довольно большому количеству проблем, фактический интеллектуальный анализ данных на Hadoop, похоже, не начинается. Все пытаются это сделать, и многие компании продают этот материал. Но это не работает намного лучше, чем не большая версия. Но пока клиенты хотят это купить, компании будут продавать эту функциональность. И до тех пор, пока он получит грант, исследователи напишут об этом. Работает он или нет. Эта жизнь.

Есть несколько случаев, когда эти вещи работают. Поиском Google является пример, и Cern. Но также распознавание изображений (но не использование Hadoop, кластеры графических процессоров, похоже, путь туда) в последнее время выиграло от увеличения размера данных. Но в любом из этих случаев у вас есть довольно чистые данные. Google индексирует все; Cern отбрасывает любые неинтересные данные и анализирует только интересные измерения - спамеров не кормят спамом в Cern... и при анализе изображений вы тренируетесь по предварительно выбранным соответствующим изображениям, а не по веб-камерам или случайным изображениям из Интернета (и если это так, вы относитесь к ним как к случайным изображениям, а не к репрезентативным данным).

Ответ 2

В чем разница между большими данными и Hadoop?

A: Разница между большими данными и программным обеспечением с открытым исходным кодом Hadoop является отличительной и фундаментальной. Первый - это актив, часто сложный и неоднозначный, а последний - это программа, которая выполняет набор целей и задач для решения этого актива.

Большие данные - это просто большие массивы данных, которые объединяют предприятия и другие стороны для выполнения конкретных целей и операций. Большие данные могут включать в себя множество различных типов данных во многих разных форматах. Например, предприятия могут потратить много усилий на сбор тысяч данных о покупках в форматах валют, идентификаторах клиентов, таких как имя или номер социального страхования, или информацию о продукте в виде номеров моделей, номеров продаж или инвентарных номеров. Все это или любую другую большую массу информации можно назвать большими данными. Как правило, его необработанные и несортированные до тех пор, пока они не будут переданы через различные инструменты и обработчики.

Hadoop - один из инструментов, предназначенных для обработки больших данных. Hadoop и другие программные продукты работают, чтобы интерпретировать или анализировать результаты больших поисков данных с помощью специальных патентованных алгоритмов и методов. Hadoop - это программа с открытым исходным кодом под лицензией Apache, которая поддерживается глобальным сообществом пользователей. Он включает в себя различные основные компоненты, включая набор функций MapReduce и распределенную файловую систему Hadoop (HDFS).

Идея MapReduce заключается в том, что Hadoop может сначала отобразить большой набор данных, а затем выполнить сокращение этого содержимого для конкретных результатов. Функция уменьшения может рассматриваться как своего рода фильтр для необработанных данных. Затем система HDFS действует для распределения данных по сети или при необходимости переносит их.

Администраторы баз данных, разработчики и другие пользователи могут использовать различные функции Hadoop для обработки больших данных любым способом. Например, Hadoop можно использовать для реализации стратегий данных, таких как кластеризация и таргетинг с неравномерными данными, или данные, которые не соответствуют аккуратно в традиционной таблице или хорошо реагируют на простые запросы.

См. статью, опубликованную в http://www.shareideaonline.com/cs/what-is-the-difference-between-big-data-and-hadoop/

Спасибо Ankush

Ответ 3

Этот ответ действительно предназначен, чтобы добавить определенную специфику к отличному ответу от Anony-Mousse.

Там много дебатов о том, что такое Big Data. Анони-Мусс вызвал множество проблем, связанных с чрезмерным использованием таких терминов, как аналитика, большие данные и интеллектуальный анализ данных, но есть несколько вещей, которые я хочу предоставить более подробно.

Большие данные

Для практических целей лучшее определение, которое я слышал о больших данных, - это данные, которые неудобны или не работают в традиционной реляционной базе данных. Это могут быть данные 1PB, которые не могут быть обработаны или даже просто данные, которые составляют 1 ГБ, но имеют 5000 столбцов.

Это свободное и гибкое определение. Всегда будут установки или инструменты управления данными, которые могут работать вокруг него, но именно там инструменты, такие как Hadoop, MongoDB и другие, могут быть использованы более эффективно, чем предыдущая технология.

Что мы можем делать с данными, которые являются неудобными/большими/трудными для работы? Трудно просто взглянуть на таблицу и найти здесь смысл, поэтому мы часто используем интеллектуальный анализ данных и машинное обучение.

Data Mining

Это было вызвано слегка выше - моя цель здесь - быть более конкретным и, надеюсь, предоставить больше контекста. Добыча данных обычно применяется к нескольким контролируемым аналитическим или статистическим методам анализа данных. Они могут вписываться в регрессию, классификацию, кластеризацию или совместную фильтрацию. Тем не менее, существует много совпадений с машинным обучением, однако это по-прежнему обычно обусловлено пользователем, а не без контроля или автоматическим исполнением, что довольно хорошо определяет машинное обучение.

Машинное обучение

Часто машинное обучение и интеллектуальная обработка данных используются взаимозаменяемо. Машиноведение включает в себя множество областей, таких как интеллектуальный анализ данных, а также AI, компьютерное зрение и другие неподконтрольные задачи. Основное различие, и это, безусловно, упрощение, заключается в том, что ввод пользователя не только лишний, но и вообще нежелательный. Цель состоит в том, чтобы эти алгоритмы или системы самооптимизировались и улучшались, а не итеративный цикл разработки.

Ответ 4

Большие данные - это TERM, который состоит из коллекции фреймворков и инструментов, которые могут делать чудеса с очень большими наборами данных, включая Data Mining.

Hadoop - это структура, которая разбивает очень большие наборы данных на блоки (по умолчанию 64 мб), тогда она сохранит ее в HDFS (распределенная файловая система Hadoop), а затем, когда ее логика выполнения (MapReduce) поставляется с любым bytecode для обработки данных, хранящихся в HDFS. Это займет разделение, основанное на блоке (можно настроить разбиения) и наложить извлечение и вычисление с помощью процесса Mapper и Reducer. Таким образом, вы можете выполнять ETL-процесс, Data Mining, Data Computation и т.д.,

Я хотел бы сделать вывод, что Big Data - это терминология, которая может играть с очень большими наборами данных. Hadoop - это основа, которая может очень хорошо выполнять параллельную обработку своих компонентов и сервисов. Таким образом, вы также можете получить Data mining.

Ответ 5

"Большие данные" - это термин, который люди используют, чтобы сказать, как хранилище дешево и легко в наши дни и как данные доступны для анализа.

Data Mining - это процесс попытки извлечь полезную информацию из данных.

Обычно Data Mining связан с большими данными по двум причинам

когда у вас много данных, шаблоны не так очевидны, поэтому кто-то не мог просто проверить и сказать "ха". Ему/ей нужны инструменты для этого.
во много раз много данных может улучшить статистический смысл вашего анализа, потому что ваш образец больше.

Можно ли сказать, что hasoop - это интеллектуальный анализ данных dois параллельно? Что такое hadoop? Их сайт говорит

The Apache Hadoop software library is a framework that allows for the 
distributed processing of large data sets across clusters of computers 
using simple programming models

Итак, "параллельная" часть вашего утверждения верна. Часть "интеллектуального анализа данных" не обязательно. Вы можете просто использовать hadoop, чтобы суммировать тонны данных, и это не обязательно, например, интеллектуальный анализ данных. Но в большинстве случаев вы можете поспорить, что люди пытаются извлечь полезную информацию из больших данных с помощью hadoop, так что это своего рода "да".

Ответ 6

Я бы сказал, что BigData - это модернизированная структура для решения новых бизнес-задач. Как многие люди могут знать, что BigData - это всего 3 v Volume, Variety и Velocity. BigData - это необходимость использования разнообразных данных (структурированных и неструктурированных данных) и использования метода кластеризации для решения проблемы объема, а также получения результатов за меньшее время, т.е. уровня.

Где Datamining работает по принципу ETL. i.e находит полезную информацию из больших наборов данных с использованием методов моделирования. Для достижения этой цели существует множество инструментов BI.