Вычисление процента меры дисперсии для k-средних?

На странице Wikipedia описан метод локтя для определения количества кластеров по k-значению. Встроенный метод scipy обеспечивает реализацию, но я не уверен, что понимаю, как искажается, как они его называют, рассчитывается.

Предполагая, что у меня есть следующие точки со связанными центроидами, что является хорошим способом вычисления этой меры?

Я специально рассматриваю вычисление 0,94.. меры, учитывая только точки и центроиды. Я не уверен, можно ли использовать какой-либо из встроенных методов scipy, или я должен написать свой собственный. Любые предложения о том, как сделать это эффективно для большого количества очков?

Короче говоря, мои вопросы (все связанные) следующие:

Вывод для первого набора точек является точным. Однако, когда я пытаюсь использовать другой набор:

Я думаю, последнее значение не соответствует, потому что kmeans, кажется, погружает значение в общее количество точек в наборе данных.

Мой код до сих пор (должен быть добавлен в реализацию Denis K):

В моем реальном наборе данных (не подходит мне!):

Ответы

Ответ 1

Искажение, поскольку Kmeans, используется как критерий остановки (если изменение между двумя итерациями меньше, чем некоторые порог, предположим сходимость)

Если вы хотите вычислить его из набора точек и центроидов, вы можете сделать следующее (код находится в MATLAB, используя pdist2, но это должно быть просто переписать в Python/Numpy/Scipy):

% data
X = [0 1 ; 0 -1 ; 1 0 ; -1 0 ; 9 9 ; 9 10 ; 9 8 ; 10 9 ; 10 8];

% centroids
C = [9 8 ; 0 0];

% euclidean distance from each point to each cluster centroid
D = pdist2(X, C, 'euclidean');

% find closest centroid to each point, and the corresponding distance
[distortions,idx] = min(D,[],2);

результат:

% total distortion
>> sum(distortions)
ans =
           9.4142135623731

EDIT # 1:

У меня было время, чтобы поиграть с этим. Вот пример кластеризации KMeans, примененный в 'Fisher Iris Dataset' ( 4 функции, 150 экземпляров). Мы перебираем по k=1..10, строим кривую локтя, выбираем K=3 как число кластеров и показываем график рассеяния результата.

Обратите внимание, что я включил ряд способов вычисления внутрикластерных дисперсий (искажений), учитывая точки и центроиды. Функция scipy.cluster.vq.kmeans возвращает эту меру по умолчанию (вычисляется с помощью евклидова в качестве меры расстояния). Вы также можете использовать функцию scipy.spatial.distance.cdist для вычисления расстояний с функцией по вашему выбору (при условии, что вы получили центроиды кластера с одинаковым расстоянием measure: @Denis есть решение для этого), а затем вычислить искажение от этого.

import numpy as np
from scipy.cluster.vq import kmeans,vq
from scipy.spatial.distance import cdist
import matplotlib.pyplot as plt

# load the iris dataset
fName = 'C:\\Python27\\Lib\\site-packages\\scipy\\spatial\\tests\\data\\iris.txt'
fp = open(fName)
X = np.loadtxt(fp)
fp.close()

##### cluster data into K=1..10 clusters #####
K = range(1,10)

# scipy.cluster.vq.kmeans
KM = [kmeans(X,k) for k in K]
centroids = [cent for (cent,var) in KM]   # cluster centroids
#avgWithinSS = [var for (cent,var) in KM] # mean within-cluster sum of squares

# alternative: scipy.cluster.vq.vq
#Z = [vq(X,cent) for cent in centroids]
#avgWithinSS = [sum(dist)/X.shape[0] for (cIdx,dist) in Z]

# alternative: scipy.spatial.distance.cdist
D_k = [cdist(X, cent, 'euclidean') for cent in centroids]
cIdx = [np.argmin(D,axis=1) for D in D_k]
dist = [np.min(D,axis=1) for D in D_k]
avgWithinSS = [sum(d)/X.shape[0] for d in dist]

##### plot ###
kIdx = 2

# elbow curve
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(K, avgWithinSS, 'b*-')
ax.plot(K[kIdx], avgWithinSS[kIdx], marker='o', markersize=12, 
    markeredgewidth=2, markeredgecolor='r', markerfacecolor='None')
plt.grid(True)
plt.xlabel('Number of clusters')
plt.ylabel('Average within-cluster sum of squares')
plt.title('Elbow for KMeans clustering')

# scatter plot
fig = plt.figure()
ax = fig.add_subplot(111)
#ax.scatter(X[:,2],X[:,1], s=30, c=cIdx[k])
clr = ['b','g','r','c','m','y','k']
for i in range(K[kIdx]):
    ind = (cIdx[kIdx]==i)
    ax.scatter(X[ind,2],X[ind,1], s=30, c=clr[i], label='Cluster %d'%i)
plt.xlabel('Petal Length')
plt.ylabel('Sepal Width')
plt.title('Iris Dataset, KMeans clustering with K=%d' % K[kIdx])
plt.legend()

plt.show()

EDIT # 2:

В ответ на комментарии я приведу ниже еще один полный пример, используя NIST hand-digit dataset: он имеет 1797 изображений цифр от 0 до 9, каждый размером 8 на 8 пикселей. Повторяю эксперимент, слегка измененный: Анализ основных компонентов применяется для уменьшения размерности от 64 до 2:

import numpy as np
from scipy.cluster.vq import kmeans
from scipy.spatial.distance import cdist,pdist
from sklearn import datasets
from sklearn.decomposition import RandomizedPCA
from matplotlib import pyplot as plt
from matplotlib import cm

##### data #####
# load digits dataset
data = datasets.load_digits()
t = data['target']

# perform PCA dimensionality reduction
pca = RandomizedPCA(n_components=2).fit(data['data'])
X = pca.transform(data['data'])

##### cluster data into K=1..20 clusters #####
K_MAX = 20
KK = range(1,K_MAX+1)

KM = [kmeans(X,k) for k in KK]
centroids = [cent for (cent,var) in KM]
D_k = [cdist(X, cent, 'euclidean') for cent in centroids]
cIdx = [np.argmin(D,axis=1) for D in D_k]
dist = [np.min(D,axis=1) for D in D_k]

tot_withinss = [sum(d**2) for d in dist]  # Total within-cluster sum of squares
totss = sum(pdist(X)**2)/X.shape[0]       # The total sum of squares
betweenss = totss - tot_withinss          # The between-cluster sum of squares

##### plots #####
kIdx = 9        # K=10
clr = cm.spectral( np.linspace(0,1,10) ).tolist()
mrk = 'os^p<dvh8>+x.'

# elbow curve
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(KK, betweenss/totss*100, 'b*-')
ax.plot(KK[kIdx], betweenss[kIdx]/totss*100, marker='o', markersize=12, 
    markeredgewidth=2, markeredgecolor='r', markerfacecolor='None')
ax.set_ylim((0,100))
plt.grid(True)
plt.xlabel('Number of clusters')
plt.ylabel('Percentage of variance explained (%)')
plt.title('Elbow for KMeans clustering')

# show centroids for K=10 clusters
plt.figure()
for i in range(kIdx+1):
    img = pca.inverse_transform(centroids[kIdx][i]).reshape(8,8)
    ax = plt.subplot(3,4,i+1)
    ax.set_xticks([])
    ax.set_yticks([])
    plt.imshow(img, cmap=cm.gray)
    plt.title( 'Cluster %d' % i )

# compare K=10 clustering vs. actual digits (PCA projections)
fig = plt.figure()
ax = fig.add_subplot(121)
for i in range(10):
    ind = (t==i)
    ax.scatter(X[ind,0],X[ind,1], s=35, c=clr[i], marker=mrk[i], label='%d'%i)
plt.legend()
plt.title('Actual Digits')
ax = fig.add_subplot(122)
for i in range(kIdx+1):
    ind = (cIdx[kIdx]==i)
    ax.scatter(X[ind,0],X[ind,1], s=35, c=clr[i], marker=mrk[i], label='C%d'%i)
plt.legend()
plt.title('K=%d clusters'%KK[kIdx])

plt.show()

Вы можете видеть, как некоторые кластеры действительно соответствуют различимым цифрам, в то время как другие не соответствуют одному номеру.

Примечание: реализация K-means включена в scikit-learn (а также многие другие алгоритмы кластеризации и различные показатели кластеризации). Здесь - еще один аналогичный пример.

Ответ 2

Простая кластерная мера:
1) нарисуйте "солнечные лучи" лучей от каждой точки до ближайшего центра кластера,
2) посмотрите на длины; расстояние (точка, центр, метрика =...) — всех лучей.

Для metric="sqeuclidean" и 1 кластера, средний квадрат длины - это полная дисперсия X.var(); для 2 кластеров он меньше... до N кластеров, длина всего 0. "Процент дисперсии объясняется" составляет 100% - это среднее значение.

Код для этого, под is-it-possible-to-specify-your-own-distance-function-using-scikits-learn-k-means:

def distancestocentres( X, centres, metric="euclidean", p=2 ):
    """ all distances X -> nearest centre, any metric
            euclidean2 (~ withinss) is more sensitive to outliers,
            cityblock (manhattan, L1) less sensitive
    """
    D = cdist( X, centres, metric=metric, p=p )  # |X| x |centres|
    return D.min(axis=1)  # all the distances

Как и любой длинный список чисел, эти расстояния можно посмотреть по-разному: np.mean(), np.histogram()... Наложение, визуализация, нелегко.
См. Также stats.stackexchange.com/info/tagged/clustering, в частности, Как определить, достаточно ли "кластеризованных" данных для алгоритмов кластеризации для получения значимых результатов?