Реализация эффективной структуры данных графа для поддержания кластерных расстояний в алгоритме кластеризации ранжирования

Я пытаюсь реализовать кластеризацию Rank-Order вот ссылка на бумагу (который является своего рода агломеративным кластеризацией) с нуля. Я прочитал статью (много раз), и у меня есть реализация, которая работает, хотя она намного медленнее, чем я ожидаю.

Вот ссылка на мой Github, у которой есть инструкции по загрузке и запуску ноутбука Jupyter.

Я также реализовал обнаружение расстояния ранжирования (D^R(C_i, C_j)) и нормированного расстояния (D^N(C_i, C_j)), используемого в step 4, поэтому они могут быть приняты как должное.

Вот моя реализация для нахождения ближайшего абсолютного расстояния между двумя кластерами:

Вот моя реализация алгоритма кластеризации ранжирования (предположим, что реализация find_normalized_distance_between_clusters и find_rank_order_distance_between_clusters верна):

Причина медленной производительности обусловлена step 10: Update C and absolute distance between clusters by (3), где (3):

Это наименьшее L1-нормальное расстояние между всеми гранями в C_i (cluster i) и C_j (cluster j)

После слияния кластеров
Поскольку мне приходится пересчитывать абсолютные расстояния между вновь созданными кластерами каждый раз, когда я заканчиваю поиск слияния кандидатов в steps 3 - 8. Я в основном должен сделать вложенный цикл for для всего созданного кластера, а затем ДРУГОЙ, вложенный в цикл, чтобы найти два лица, которые имеют самое близкое расстояние. Впоследствии мне все равно придется сортировать соседей на ближайшем расстоянии!

Я считаю, что это неправильный подход, поскольку я рассмотрел OpenBR, который также реализовал тот же алгоритм кластеризации Rank-Order, который Я хочу, чтобы оно находилось под именем метода:

Clusters br::ClusterGraph(Neighborhood neighborhood, float aggressiveness, const QString &csv)

Хотя я не знаком с С++, я уверен, что они не пересчитывают абсолютные расстояния между кластерами, что заставляет меня думать, что это часть алгоритма, который я реализую неправильно.

Кроме того, в верхней части объявления их метода комментарии говорят, что они предварительно вычислили график kNN, который имеет смысл, когда я пересчитываю абсолютные расстояния между кластерами. Я делаю много вычислений, которые я ранее делал. Я считаю, что ключ состоит в том, чтобы прекомпутеровать график kNN для кластеров, хотя это та часть, в которой я застрял at. Я не могу придумать, как реализовать структуру данных так, чтобы абсолютные расстояния кластеров не приходилось пересчитывать каждый раз, когда они объединяются.

Ответы

Ответ 1

На высоком уровне, и это то, что делает OpenBR , нужна таблица поиска для идентификатора кластера → объект кластера, из которого создается новый список кластеров без пересчета.

Может видеть, где новый кластер создается из таблицы поиска ID в этот раздел в OpenBR.

Для вашего кода необходимо будет добавить идентификатор для каждого объекта Cluster, целые числа, вероятно, будут лучше всего использовать память. Затем обновите код слияния, чтобы создать список индексов, подлежащих объединению, в findClusters и создать новый список кластеров из существующих индексов кластера. Затем слияние и обновление соседей по их индексам.

Последний шаг, слияние соседних индексов можно увидеть здесь, в OpenBR.

Ключевой частью является то, что новые кластеры не создаются при слиянии, а расстояние для них не пересчитывается. Только индексы обновляются из существующих объектов кластера, а их соседние расстояния объединяются.

Ответ 2

Вы можете попытаться сохранить значения расстояния между лицами в словаре ex.

class Face:
    def __init__(self, embedding, id):
        self.embedding = embedding # a point in 128 dimensional space
        self.absolute_distance_neighbours = None
        self.id = id #Add face unique id

distances = {}

def find_nearest_distance_between_clusters(cluster1, cluster2):
    nearest_distance = sys.float_info.max
    for face1 in cluster1.faces:
        for face2 in cluster2.faces:
            if not distances.has_key( (face1.id, face2.id) ):
                distances[(face1.id, face2.id)] = np.linalg.norm(face1.embedding - face2.embedding, ord = 1) #calc distance only once
            distance = distances[(face1.id, face2.id)] #use precalc distances
            if distance < nearest_distance: 
                nearest_distance = distance

            # If there is a distance of 0 then there is no need to continue
            if distance == 0:
                return(0)
    return(nearest_distance)