Какой метод вы используете для выбора оптимального количества кластеров в k-средствах и EM?
Доступны многие алгоритмы кластеризации. Популярным алгоритмом является K-средство, где на основе заданного количества кластеров алгоритм выполняет поиск наилучших кластеров для объектов.
Какой метод вы используете для определения количества кластеров в данных в кластеризации k-значений?
Доступен ли какой-либо пакет в R с помощью метода V-fold cross-validation
для определения правильного количества кластеров?
Другим хорошо используемым подходом является алгоритм максимизации ожиданий (EM), который присваивает распределение вероятности каждому экземпляру, что указывает на вероятность его принадлежности к каждому из кластеров.
Этот алгоритм реализован в R?
Если это так, имеет ли он возможность автоматически выбирать оптимальное количество кластеров путем перекрестной проверки?
Вы предпочитаете какой-то другой метод кластеризации?
Ответы
Ответ 1
Для больших "редких" наборов данных я бы серьезно рекомендовал метод "Распространение близости".
Он обладает превосходной производительностью по сравнению с k средствами и является детерминированным по своей природе.
http://www.psi.toronto.edu/affinitypropagation/Он был опубликован в журнале "Наука".
Однако выбор оптимального алгоритма кластеризации зависит от рассматриваемого набора данных. K Means - метод текстовой книги, и очень вероятно, что у кого-то был разработан лучший алгоритм, более подходящий для вашего типа набора данных /
Это хороший учебник профессора Эндрю Мура (CMU, Google) на K-средствах и иерархическом кластеризации.
http://www.autonlab.org/tutorials/kmeans.html
Ответ 2
На прошлой неделе я закодировал такой алгоритм оценки-числа-кластеров для программы кластеризации K-Means. Я использовал метод, описанный в:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.70.9687&rep=rep1&type=pdf
Моя самая большая проблема с реализацией заключалась в том, что мне пришлось найти подходящий индекс проверки кластеров (т.е. показатель ошибки), который будет работать. Теперь речь идет о скорости обработки, но результаты в настоящее время выглядят разумно.