Какая структура программирования для алгоритма кластеризации

Я пытаюсь реализовать следующий (делительный) алгоритм кластеризации (ниже представлена краткая форма алгоритма, полное описание доступно здесь):

Начните с образца x, я = 1,..., n, рассматриваемого как единый кластер из n точек данных и матрицы D несходства, определенной для всех пар точек. Исправьте пороговое значение T для определения того, нужно ли разбить кластер.

Вывод - это иерархия кластеризованных записей данных. Я прошу совета, как реализовать алгоритм кластеризации.

EDIT 1: Я присоединяю функцию Python, которая определяет расстояние (коэффициент корреляции) и функцию, которая находит максимальное расстояние в матрице данных.

РЕДАКТИРОВАТЬ 2: Вложенные ниже функции из ответа Dschoni.

ИЗМЕНИТЬ 3: Когда я запускаю код, предоставляемый @Dschoni, алгоритм работает так, как ожидалось. Затем я изменил функцию create_distance_list, чтобы мы могли вычислить расстояние между многомерными точками данных. Я использую эвклидовое расстояние. В примере с игрушками я загружаю данные iris. Я группирую только первые 50 экземпляров набора данных.

Некоторые точки данных все еще группируются вместе. Я решаю эту проблему, добавляя небольшой объем шума данных в словарь actual в функции sort:

Ответы

Ответ 1

Правильный рабочий пример для евклидова расстояния:

import numpy as np
#For random number generation


def create_distance_list(l):
'''Create a distance list for every
unique tuple of pairs'''
    dist={}
    for i in range(len(l)):
        for k in range(i+1,len(l)):
            dist[(i,k)]=abs(l[i]-l[k])
    return dist

def maximum(distance_dict):
'''Returns the key of the maximum value if unique
or a random key with the maximum value.'''
    maximum = max(distance_dict.values())
    max_key = [key for key, value in distance_dict.items() if value == maximum]
    if len(max_key)>1:
        random_key = np.random.random_integers(0,len(max_key)-1)
        return (max_key[random_key],)
    else:
        return max_key

def construct_new_dict(distance_dict,index_list):
'''Helper function to create a distance map for a subset
of data points.'''
    new={}
    for i in range(len(index_list)):
        for k in range(i+1,len(index_list)):
            m = index_list[i]
            n = index_list[k]
            new[(m,n)]=distance_dict[(m,n)]
    return new

def sort(distance_dict,idl,threshold=4):
    result=[idl]
    i=0
    try:
        while True:
            if len(result[i])>=2:
            actual=construct_new_dict(dist,result[i]) 
                act_max=maximum(actual)
                if distance_dict[act_max[0]]>threshold:
                    j = act_max[0][0]
                    k = act_max[0][1]
                    result[i].remove(j)
                    result[i].remove(k)
                    l1=[j]
                    l2=[k]
                    for iterr in range(len(result[i])):
                        s = result[i][iterr]
                        if s>j:
                            c1=(j,s)
                        else:
                            c1=(s,j)
                        if s>k:
                            c2=(k,s)
                        else: 
                            c2=(s,k)
                        if actual[c1]<actual[c2]:
                            l1.append(s)
                        else:
                            l2.append(s)
                    result.remove(result[i])
    #What to do if distance is equal?
                    l1.sort()
                    l2.sort()
                    result.append(l1)
                    result.append(l2)
                else:
                    i+=1
            else:
                i+=1
    except:
        return result


#This is the dataset
a = [1,2,2.5,5]
#Giving each entry a unique ID
idl=range(len(a))
dist = create_distance_list(a)
print sort(dist,idl)

Я написал код для удобочитаемости, есть много вещей, которые могут сделать быстрее, надежнее и красивее. Это просто, чтобы дать вам представление о том, как это можно сделать.

Ответ 2

Некоторые точки данных все еще группируются вместе. Я решаю эту проблему добавление небольшого количества шума данных в фактический словарь в сортировке функция.

If Dmax > T then divide single cluster in two

Ваше описание не обязательно создает кластеры n.
Если кластер имеет две записи, длина которых меньше T,
они будут сгруппированы вместе (я что-то не хватает?)