Программа Spark дает нечетные результаты при работе в автономном кластере

У меня есть эта искровая программа, и я попытаюсь ограничить ее только соответствующими частями

Эта программа работает очень хорошо на моей локальной машине, однако она не ведет себя так, как ожидалось, при запуске в автономном кластере. Это не обязательно вызывает ошибку, но то, что она делает, дает другой результат, чем тот, который я получаю при работе на моей локальной машине. Кажется, что кластер и 3 узла работают нормально. У меня возникло ощущение, что я продолжаю обновлять centroids, который является списком python, и каждый раз он изменяется через while-loop. Возможно ли, что каждый node может не иметь самую последнюю копию этого списка? Я так думаю, поэтому я попытался использовать broadcast variable, но они не могут быть обновлены (только для чтения). Я также попытался использовать accumulator, но это только для накопления. Я также попытался сохранить списки python как файл в hdfs для каждого node, чтобы иметь доступ, но это не сработало. Как вы думаете, я правильно понимаю проблему? Может, здесь что-то еще происходит? Как я могу получить код, который отлично работает на моей локальной машине, но не в кластере?

Ответы

Ответ 1

Спасибо за все время и внимание к этой проблеме, тем более, что, похоже, я мог опубликовать дополнительную информацию, чтобы облегчить вашу работу. Проблема здесь в

centroids = points.takeSample(False, K, 34)

Я этого не осознавал, но после короткого эксперимента эта функция возвращает один и тот же вывод каждый раз, несмотря на то, что я считал случайным. Пока вы используете одно и то же семя (в этом случае 34), вы получите тот же RDD взамен. По какой-то причине RDD на моем кластере был иным, чем тот, который вернулся на мою локальную машину. В любом случае, поскольку это был тот же RDD каждый раз, мой вывод никогда не менялся. Проблема с "случайными" центроидами вернулась ко мне, так это то, что эти конкретные порождали нечто вроде седловой точки в математике, где не было бы конвергенции центроидов. Эта часть ответа является математической и программирующей, поэтому я не буду упоминать ее дальше. Моя настоящая надежда на этот момент заключается в том, что другим помогает идея, что если вы хотите

centroids = points.takeSample(False, K, 34)

для создания разных образцов каждый раз, когда он вызывается, вы каждый раз меняете свое семя на какое-то случайное число.

Надеюсь, все это поможет. Я никогда не тратил столько времени на решение моей памяти.

Еще раз спасибо.