Как стандартизировать матрицу?
В принципе, возьмите матрицу и измените ее так, чтобы ее среднее значение равнялось 0, а дисперсия - 1. Я использую массивы numpy, поэтому, если он уже может сделать это лучше, но я могу реализовать его сам, пока я может найти алгоритм.
edit: nvm nimrodm имеет лучшую реализацию
Ответы
Ответ 1
Возьмите каждый элемент и вычтите с помощью среднего значения, а затем разделите его на стандартное отклонение.
Стреляйте в меня, я не знаю python. В общем, выше
mu = Average()
sig = StandardDeviation()
for(i=0;i<rows;i++)
{
for(j=0;j<cols;j++)
{
A[i,j] = (A[i,j]-mu)/sig;
}
}
Ответ 2
Следующий вычитает среднее значение A из каждого элемента (новое среднее равно 0), а затем нормализует результат стандартным отклонением.
from numpy import *
A = (A - mean(A)) / std(A)
Вышеуказанное относится к стандартизации всей матрицы в целом. Если A имеет много измерений и вы хотите стандартизировать каждый столбец отдельно, укажите ось :
from numpy import *
A = (A - mean(A, axis=0)) / std(A, axis=0)
Всегда проверяйте вручную, что делают эти однострочные элементы, прежде чем интегрировать их в свой код. Простое изменение ориентации или размерности может кардинально изменить (тихо), какие операции выполняют numpy на них.
Ответ 3
import scipy.stats as ss
A = np.array(ss.zscore(A))
Ответ 4
from sklearn.preprocessing import StandardScaler
standardized_data = StandardScaler().fit_transform(your_data)
Пример:
>>> import numpy as np
>>> from sklearn.preprocessing import StandardScaler
>>> data = np.random.randint(25, size=(4, 4))
>>> data
array([[17, 12, 4, 17],
[ 1, 16, 19, 1],
[ 7, 8, 10, 4],
[22, 4, 2, 8]])
>>> standardized_data = StandardScaler().fit_transform(data)
>>> standardized_data
array([[ 0.63812398, 0.4472136 , -0.718646 , 1.57786412],
[-1.30663482, 1.34164079, 1.55076242, -1.07959124],
[-0.57735027, -0.4472136 , 0.18911737, -0.58131836],
[ 1.24586111, -1.34164079, -1.02123379, 0.08304548]])
Хорошо работает на больших наборах данных.
Ответ 5
Используйте sklearn.preprocessing.scale
.
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html
Вот пример.
>>> from sklearn import preprocessing
>>> import numpy as np
>>> X_train = np.array([[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]])
>>> X_scaled = preprocessing.scale(X_train)
>>> X_scaled
array([[ 0. ..., -1.22..., 1.33...],
[ 1.22..., 0. ..., -0.26...],
[-1.22..., 1.22..., -1.06...]])
http://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling
Ответ 6
import numpy as np
A = np.array([[1,2,6], [3000,1000,2000]]).T
A_means = np.mean(A, axis=0)
A_centr = A - A_means
A_norms = np.linalg.norm(A_centr, axis=0)
A_std = A_centr / A_norms