Ответ 1
Я бы сказал, что самым основным навыком является хорошее обоснование математики и статистики. Это может помочь вы оцениваете и выбираете из множества методов фильтрации данных и уменьшая его объем и размерность, сохраняя при этом свою целостность. Последний что вы хотите сделать, это сделать что-то красивое, что показывает шаблоны или отношений, которые на самом деле не существуют.
Специализированная математика
Чтобы решить некоторые проблемы, вам нужно научиться математике, чтобы понять, как работают определенные алгоритмы и какой эффект они будут оказывать на ваши данные. Существуют различные алгоритмы для кластеризации данных, уменьшения размерности, естественных языковая обработка и т.д. Вы никогда не сможете использовать многие из них, в зависимости от типа данных, которые вы хотите проанализировать, но в Интернете есть много ресурсов (и сайты Exchange), если вам нужна помощь.
Для вводного обзора методов интеллектуального анализа данных Witten Data Mining хорош. У меня есть 1-е издание, и он объясняет концепции на понятном языке с небольшим количеством математики. Я рекомендую его, потому что он дает хороший обзор, и это не слишком дорого - поскольку вы читаете больше в поле, вы заметите многие из книги довольно дороги. Единственный недостаток - это количество страниц, посвященных использованию WEKA, пакета интеллектуального анализа данных Java, который может быть не слишком полезен, поскольку вы используете Python (но с открытым исходным кодом, поэтому вы можете получить некоторые идеи из исходного кода Я также нашел Введение в машинное обучение, чтобы предоставить хороший обзор, также по разумным ценам, с немного большей математикой.
Инструменты
Для создания визуализации вашего собственного изобретения на одной машине я думаю, что основы должны начать: Python, Numpy, Scipy, Matplotlib и с хорошей графической библиотекой, с которой вы сталкиваетесь, например PIL или Pycairo. С их помощью вы можете хрустите цифры, нарисуйте их на графиках, а красивые вещи - с помощью пользовательских процедур рисования.
Если вы хотите создать перемещение, интерактивную визуализацию, такие инструменты, как Библиотека, основанная на Java Processing, упрощает работу. Там это даже способы написания эскизов обработки в Python через Jython, если вы не хотите писать Java.
Есть много других инструментов, если они вам нужны, например OpenCV (компьютерное зрение, машинное обучение), Оранжевый (добыча данных, анализ, а именно: и NLTK (естественный язык, текст анализ).
Принципы и методы презентации
Книги людей в поле, вроде Эдвард Tufte и ссылки, подобные Информация Графика может помочь вам получить хороший обзор способов создания визуализаций и эффективно представляя их.
Ресурсы для поиска примеров Viz
Веб-сайты, такие как Flowing Data, Infosthetics, Визуальная сложность и Информация Красивые показывают последние, интересные визуализации со всего Интернета. Вы также можете просмотреть много компилированных списков сайтов визуализации в Интернете. Начните с этого как семена и начните навигацию, я уверен, вы найдете много полезных сайтов и вдохновляющие примеры.
(Первоначально это был комментарий, но слишком долго)