В чем разница между Apache Spark и Apache Apex?

Apache Apex - это унифицированная потоковая и пакетная обработка с открытым исходным кодом. Он используется на платформе GE Predix для IOT. Каковы основные различия между этими двумя платформами?

Вопросы

  • С точки зрения науки о данных, как она отличается от Spark?
  • Обеспечивает ли Apache Apex такую ​​функциональность, как Spark MLlib? Если нам нужно построить масштабируемые модели ML на Apache apex, как это сделать и на каком языке использовать?
  • Будет ли ученым-ученым изучать Java для построения масштабируемых моделей ML? Имеет ли он API-интерфейс python, например pyspark?
  • Может ли Apache Apex быть интегрирован с Spark, и можем ли мы использовать Spark MLlib поверх Apex для создания моделей ML?

Ответы

Ответ 1

  • Apache Apex - движок для обработки потоковых данных. Некоторые другие, которые пытаются достичь того же, - это шторм Apache, а также Apache. Различительный фактор для Apache Apex: он оснащен встроенной поддержкой отказоустойчивости, масштабируемости и фокусировки на работоспособности, которые являются ключевыми факторами в производственных прецедентах.

Сравнение с Spark: Apache Spark на самом деле является пакетной обработкой. Если вы считаете, что Spark streaming (в котором используется искра внизу), то это микро-пакетная обработка. Напротив, Apache Apache - это настоящая обработка потока. В некотором смысле, входящая запись НЕ должна ждать следующей записи для обработки. Запись обрабатывается и отправляется на следующий уровень обработки, как только она поступит.

  1. В настоящее время ведется работа над добавлением поддержки интеграции Apache Apex с библиотеками машинного обучения, такими как Apache Samoa, H2O См. https://issues.apache.org/jira/browse/SAMOA-49

  2. В настоящее время он поддерживает Java, Scala.
    https://www.datatorrent.com/blog/blog-writing-apache-apex-application-in-scala/ Для Python вы можете попробовать его с помощью Jython. Но я сам не пробовал. Так что, не очень уверен в этом.

  3. Интеграция с Spark не может быть хорошей идеей, учитывая, что это два разных процессора обработки. Но интеграция apache apex с библиотеками машинного обучения идет полным ходом.

Если у вас есть другие вопросы, запросы на функции вы можете разместить в списке рассылки для пользователей apache apex: https://mail-archives.apache.org/mod_mbox/incubator-apex-users/ p >