Что означает уменьшение размерности?

Что означает сокращение размерности?

Я искал его значение, я просто обнаружил, что это означает преобразование необработанных данных в более полезную форму. Итак, каково преимущество использования данных в полезной форме, я имею в виду, как я могу использовать его в практической жизни (приложении)?

Ответы

Ответ 1

Уменьшение размерности - это преобразование данных очень высокой размерности в данные с гораздо меньшей размерностью, так что каждый из нижних размеров передает гораздо больше информации.

Это обычно делается при решении проблем машинного обучения, чтобы получить лучшие функции для задачи классификации или регрессии.

Вот пример. Предположим, у вас есть список из 100 фильмов и 1000 человек, и для каждого человека вы знаете, нравится ли им или не нравится каждый из 100 фильмов. Поэтому для каждого экземпляра (который в этом случае означает каждого человека) у вас есть двоичный вектор длиной 100 [позиция я равна 0, если этот человек не любит i-й фильм, 1 в противном случае].
Вы можете непосредственно выполнить задание на машинный процесс на этих векторах.. но вместо этого вы могли бы выбрать 5 жанров фильмов и использовать данные, которые у вас уже есть, выяснить, нравится ли человеку или не нравится весь жанр и таким образом уменьшает ваши данные от вектора размера 100 в вектор размером 5 [позиция я равна 1, если человек любит жанр i]

Вектор длины 5 можно рассматривать как хороший представитель вектора длины 100, потому что большинство людей могут любить фильмы только в их предпочтительных жанрах.

Однако он не будет точным представителем, потому что могут быть случаи, когда человек ненавидит все фильмы жанра, кроме одного.

Дело в том, что приведенный вектор передает большую часть информации в большую, потребляя намного меньше места и быстрее вычисляя с помощью.

Ответ 2

Вы сомневаетесь, что это немного расплывчато, но есть интересная статистическая техника, которая может быть тем, о чем вы думаете. Основной анализ компонентов который делает что-то подобное (и, кстати, закладывает результаты, из которых была моя первая задача программирования в реальном мире)

Это аккуратная, но умная техника, которая удивительно широко применима. Я применил его к сходству между белковыми аминокислотными последовательностями, но я видел, что он использовался для анализа всего, от отношений между бактериями и солодовым виски.

Рассмотрим график некоторых атрибутов коллекции вещей, в которых есть две независимые переменные, - для анализа отношения на них очевидно, что они отображаются на двух измерениях, и вы можете увидеть разброс точек. если у вас есть три переменные, вы можете использовать 3D-график, но после этого у вас заканчиваются габариты.

В PCA могут быть десятки или даже сотни или более независимых факторов, все из которых должны быть построены на перпендикулярной оси. Используя PCA, вы делаете это, затем анализируете полученный многомерный граф, чтобы найти набор из двух или трех осей в графе, которые содержат наибольший объем информации. Например, первый главный координат будет составной осью (т.е. Под некоторым углом через n-мерное пространство), которая имеет наибольшую информацию, когда точки будут построены вдоль нее. Вторая ось перпендикулярна этому (помните, что это n-мерное пространство, поэтому есть много перпендикуляров), который содержит второй по величине объем информации и т.д.

Построение результирующего графика в 2D или 3D обычно дает вам визуализацию данных, содержащих значительную часть информации в исходном наборе данных. Обычно для того, чтобы этот метод считался действительным, чтобы искать представление, которое содержит около 70% исходных данных, достаточно для визуализации отношений с некоторой уверенностью, которые иначе не были бы очевидны в исходной статистике. Обратите внимание, что для этого метода требуется, чтобы все факторы имели одинаковый вес, но учитывая, что он является чрезвычайно широко применимым методом, который заслуживает более широкого ознакомления и доступен в большинстве статистических пакетов (я сделал свою работу над ICL 2700 в 1980 году, примерно такой же мощный, как iPhone)

Ответ 3

http://en.wikipedia.org/wiki/Dimension_reduction

Возможно, вы слышали о PCA (анализ основных компонентов), который является алгоритмом сокращения размеров.

Другие включают LDA, методы, основанные на матричной факторизации, и т.д.

Вот простой пример. У вас много текстовых файлов, и каждый файл состоит из нескольких слов. Там файлы можно разделить на две категории. Вы хотите визуализировать файл как точку в 2D/3D пространстве, чтобы вы могли четко видеть распределение. Поэтому вам нужно уменьшить размер, чтобы передать файл, содержащий много слов, только в 2 или 3 измерения.

Ответ 4

Размерность измерения чего-либо - это количество чисел, необходимых для его описания. Так, например, число чисел, необходимых для описания местоположения точки в пространстве, будет 3 (x, y и z).

Теперь рассмотрим расположение поезда вдоль длинной, но извилистой трассы через горы. На первый взгляд это может показаться трехмерной проблемой, требующей определения долготы, широты и высоты. Но эти 3 измерения могут быть сведены к единице, если вы просто возьмете расстояние, пройденное по дорожке с самого начала.

Если вам была поставлена ​​задача использовать нейронную сеть или какую-то статистическую технику, чтобы предсказать, как далеко поезд может получить определенное количество топлива, тогда будет намного легче работать с 1-мерными данными, чем 3-мерные версия.

Ответ 5

Это метод интеллектуальный анализ данных. Его главным преимуществом является то, что он позволяет создавать визуальное представление многомерных данных. Человеческий мозг несравнен в определении и анализе шаблонов в визуальных данных, но может обрабатывать максимум три измерения (четыре, если вы используете время, т.е. Анимированные дисплеи) - поэтому любые данные с более чем тремя измерениями должны каким-то образом сжиматься до 3 ( или 2, так как построение данных в 3D часто может быть технически сложным).

BTW, очень простая форма уменьшения размерности - это использование цвета для представления дополнительного измерения, например, в тепловые карты.

Ответ 6

Предположим, вы создаете базу данных о большой коллекции взрослых людей. Это также будет довольно подробным. Поэтому мы могли бы сказать, что база данных будет иметь большие размеры.

AAMOF каждая запись базы данных будет включать в себя меру IQ и размер обуви. Теперь предположим, что эти две характеристики довольно сильно коррелированы. По сравнению с IQ, размеры обуви можно легко измерить, и мы хотим как можно быстрее заполнить базу данных полезными данными. Одна вещь, которую мы могли бы сделать, - это продвигаться вперед и записывать размеры обуви для новых записей в базе данных, откладывая задачу сбора данных IQ для последующего использования. Мы все равно могли бы оценить IQ с использованием размеров обуви, потому что эти две меры коррелированы.

Мы будем использовать очень простую форму практического сокращения размеров, изначально выходя из IQ из записей. Анализ основных компонентов, различные формы факторного анализа и другие методы - это расширение этой простой идеи.