Многомерное масштабирование в Numpy, Pandas и Sklearn (ValueError)

Я тестирую многомерное масштабирование с помощью sklearn, pandas и numpy. В файле данных Im используется 10 числовых столбцов и отсутствуют пропущенные значения. Я пытаюсь взять эти десятимерные данные и визуализировать их в двух измерениях с помощью многомерного масштабирования sklearn.manifold следующим образом:

Я думал, что евклидовые_значения вернули симметричную матрицу. Что я делаю неправильно и как это исправить?

Ответы

Ответ 1

Я столкнулся с одной и той же проблемой; оказалось, что мои данные были массивом np.float32, а уменьшенная точность поплавка заставляла матрицу расстояний быть асимметричной. Я исправил проблему путем преобразования моих данных в np.float64 перед запуском MDS на нем.

Вот пример, который использует случайные данные для иллюстрации проблемы:

import numpy as np
from sklearn.manifold import MDS
from sklearn.metrics import euclidean_distances
from sklearn.datasets import make_classification

data, labels = make_classification()
mds = MDS(n_components=2)

similarities = euclidean_distances(data.astype(np.float64))
print np.abs(similarities - similarities.T).max()
# Prints 1.7763568394e-15
mds.fit(data.astype(np.float64))
# Succeeds

similarities = euclidean_distances(data.astype(np.float32))
print np.abs(similarities - similarities.T).max()
# Prints 9.53674e-07
mds.fit(data.astype(np.float32))
# Fails with "ValueError: similarities must be symmetric"

Ответ 2

Была такая же проблема некоторое время назад. Другим решением, которое, я считаю, гораздо более эффективным, является вычисление расстояния только для верхней треугольной матрицы, а затем копирование в нижнюю часть.

Это можно сделать с помощью scipy следующим образом:

from scipy.spatial.distance import squareform,pdist                                                              
similarities = squareform(pdist(data,'speuclidean'))