Ответ 1
Анализ основных компонентов может быть полезным, если размеры коррелированы.
Может кто-нибудь, пожалуйста, скажите мне, есть ли хороший (простой) способ визуализации высокоразмерных данных? Мои данные в настоящее время - 21 размер, но я хотел бы посмотреть, насколько он плотный или редкий. Существуют ли методы для достижения этого?
Анализ основных компонентов может быть полезным, если размеры коррелированы.
Параллельные координаты являются популярным методом визуализации высокоразмерных данных.
Какая визуализация лучше всего подходит для ваших данных, в частности, будет зависеть от ее характеристик - насколько коррелированы разные размеры?
Могучее слово, которое я бы искал, многомерное масштабирование. Это метод разработки проекции из высокомерного пространства в нижнее пространство (2 или 3 мер) таким образом, что точки, близкие по всему пространству, будут близки в проекции.
Он часто используется для визуализации вывода алгоритмов кластеризации (т.е. если ваши кластеры компактны в проекции MDS, есть хороший шанс, что они также находятся в полном объеме).
Изменить: это не обязательно поможет определить, плотны или скудны данные, потому что вы теряете масштаб в проекции, но он будет показывать, является ли он однородным или комковатым (возможно, это то, что вы имеете в виду).
Не знаете, какие шаблоны вы хотели бы видеть из данных. t-SNE и его более быстрый вариант Barnes-Hut-SNE делают очень хорошую работу по визуализации групп связанных понятий для высокоразмерных данных. Он доступен через R.
Существует короткий учебник по использованию его для высокоразмерных данных с примерно 300 размерами. http://www.codeproject.com/Tips/788739/Visualizing-High-Dimensional-Vector-using-T-SNE-wi
Взгляните на http://www.ggobi.org (туры, параллельные координаты, матрицы рассеяния) можно использовать для вещественных переменных. Также http://cranvas.org для более поздней версии. Пакет теурпа в R.
Я искал способы визуализации высокоразмерных данных и нашел эту технику t-SNE, которая была эффективно использована. Могу также помочь другим.
Попробуйте использовать http://hypertools.readthedocs.io/en/latest/.
HyperTools - это библиотека для визуализации и обработки высокоразмерных данных в Python.
Звездная схема.
http://en.wikipedia.org/wiki/Star_schema
Хорошо работает для высокоразмерных данных.
Если мощность вашей таблицы фактов близка к размеру вашего размера, у вас плотные данные.
Если мощность вашей таблицы фактов меньше, чем размер ваших размеров, у вас есть разреженные данные.
В середине вы получите решение.
curios.IT программное обеспечение для исследования данных предназначено для визуализации высокоразмерных данных: данные отображаются как набор трехмерных объектов (один для каждой группы данных), которая может отображать до 13 переменных одновременно. Связь между переменными данных и визуальными особенностями намного легче запомнить, чем с другими методами (такими как параллельные координаты).