Ответ 1
Я считаю, что WEKA - лучшее программное обеспечение DM с открытым исходным кодом.
Отметьте: http://www.cs.waikato.ac.nz/ml/weka/
Я должен запустить проект, который предназначен для интеллектуального анализа данных. Прежде чем я вскочил, я хотел исследовать различные инструменты интеллектуального анализа данных (предпочтительно с открытым исходным кодом), которые позволяют создавать веб-отчеты. В моем сценарии данные будут предоставлены мне, поэтому я не должен сканировать его.
Вкратце, я ищу инструмент, который делает - Data Analysis, Web Reporting, предоставляет какие-то функции панели управления и интеллектуального анализа.
Я работал над Microsoft Analysis Services и BOXI, и в последнее время я смотрел на Pentaho, что кажется хорошим вариантом.
Поделитесь своими впечатлениями о любом таком инструменте, о котором вы знаете.
веселит
Я считаю, что WEKA - лучшее программное обеспечение DM с открытым исходным кодом.
Отметьте: http://www.cs.waikato.ac.nz/ml/weka/
Weka отлично, но вы можете попробовать использовать инструментарий Orange Data Mining.
Изменить: И по состоянию на ноябрь 2010 года я должен сказать, что мне действительно нравится KNIME.
R имеет множество отличных пакетов, связанных с интеллектуальным анализом данных. В частности, посмотрите:
Он также связан с Weka (см. пакет RWeka). И он может быть интегрирован с .Net(через COM) или Python (через RPy или RPy2).
Я бы согласился относительно Pentaho для платформы отчетности, хотя это очень большой проект в зависимости от того, для чего вы его используете.
Вы также должны проверить Apache Mahout. Это может быть весьма полезно для некоторых крупномасштабных задач машинного обучения, таких как кластеризация пользователей.
RapidMiner - мой предпочтительный инструмент для интеллектуального анализа данных.
Я бы попробовал с новыми инструментами google.
- сначала вам нужно получить идентификатор api для хранилища google, в котором вы собираетесь хранить и обрабатывать данные, которые собираетесь анализировать.
-Тогда вам нужно получить идентификатор api для google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), который для того, что я видел, это фантастический аутсорсинговый процессор обработки данных. API Prediction позволяет получить больше от ваших данных и сделать его шаблоны более доступными. Помимо использования традиционных числовых и номинальных данных, вы также можете использовать текстовые данные, которые благодаря этому api могут использоваться для проверки, чтобы классифицировать электронные письма по языку.
. Наконец, вы можете использовать bigQuery, который позволит вам выполнять Ad-hoc-анализ, стандартизованную отчетность, прототипирование приложений исследования данных (http://code.google.com/apis/bigquery/)
KEEL (http://keel.es) написан на Java и хорош для использования эволюционных вычислений для интеллектуального анализа данных.
Посмотрите список программного обеспечения с открытым исходным кодом для машинного обучения, поддерживаемого JMLR. вы можете найти его здесь:
http://jmlr.csail.mit.edu/mloss/
Они представляют состояние искусства!
Моя проблема с Weka заключается в том, что ряд алгоритмов в ней устарел.
Я считаю, что RapidMiner - отличный инструмент, который следует добавить в этот список.
WEKA (уже упоминалось), Оранжевый (http://orange.biolab.si/), Танагра (http://data-mining-tutorials.blogspot.com) вы можете найти там хорошие учебники.
Являются очень хорошими инструментами для интеллектуального анализа данных.
Вы можете проверить мое программное обеспечение, инфраструктуру интеллектуального анализа данных SPMF.
Это программное обеспечение с открытым исходным кодом Java, которое предлагает более 70 алгоритмов для:
Pentaho - очень профессиональное решение. Определенно очень хороший выбор.
Вы можете посмотреть Data Mining SDK и blog.
Ниже приведен список некоторых инструментов интеллектуального анализа данных с открытым исходным кодом: http://dataminingtools.net/browse.php
Eclipse BIRT http://www.eclipse.org/birt/phoenix/project/description.php
Я считаю, KNIME заслуживает также присоединиться к этому списку.
Weka сильна для классификации и/машинного обучения /. Для многих это считается скорее частью искусственного интеллекта, чем фактической добычи данных. RapidMiner в основном идет по одной линии, но с гораздо более приятным интерфейсом. Pentaho является профессиональной поддержкой Weka AFAICT.
Возможно, вам стоит взглянуть на ELKI, http://elki.dbs.ifi.lmu.de/, который является сопоставимым проектом, который фокусируется на алгоритмах кластеризации и обнаружениях выбросов, два другие ключевые задачи интеллектуального анализа данных.
вы можете взглянуть на инструмент интеллектуального анализа данных, weka
Вот ссылка на сборник учебников и видео на WEKA Учебники: http://www.dataminingtools.net/browsetutorials.php?tag=weka
Наряду с инструментами я настоятельно рекомендую изучить Python и R. Эти языки очень помогают в анализе. Кроме того, большие наборы данных могут быть "выборочно проанализированы". Вы также можете создать свою собственную панель управления с помощью Javascript (просмотрите многочисленные библиотеки диаграмм и визуализации)
Я сам питон, и я должен сказать:
Да! Все это можно сделать в Python.
Я последний раз играл с Beautiful Soup [0]. Это действительно простой в использовании модуль, который позволяет захватывать/передавать данные из html и xml (отлично подходит для "скрипинга экрана" ).
Если вы не знаете python,... ну, это действительно легко узнать.