Ответ 1
Если семя не указывается явно, numpy.random
будет засеять себя с использованием зависимого от ОС источника случайности. Обычно он использует /dev/urandom
в системах на основе Unix (или в некоторых эквивалентах Windows), но если это по какой-то причине недоступно, оно будет засеиваться с настенных часов. Так как самосеяние происходит в то время, когда новые подпроцессы вилки, возможно, что несколько подпроцессов наследуют одно и то же семя, если они раздвоены одновременно, что приводит к одинаковым случайным вариациям, создаваемым разными подпроцессами.
Часто это коррелирует с количеством одновременных потоков, которые вы используете. Например:
import numpy as np
import random
from multiprocessing import Pool
def Foo_np(seed=None):
# np.random.seed(seed)
return np.random.uniform(0, 1, 5)
pool = Pool(processes=8)
print np.array(pool.map(Foo_np, xrange(20)))
# [[ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.64672339 0.99851749 0.8873984 0.42734339 0.67158796]
# [ 0.64672339 0.99851749 0.8873984 0.42734339 0.67158796]
# [ 0.64672339 0.99851749 0.8873984 0.42734339 0.67158796]
# [ 0.64672339 0.99851749 0.8873984 0.42734339 0.67158796]
# [ 0.64672339 0.99851749 0.8873984 0.42734339 0.67158796]
# [ 0.11283279 0.28180632 0.28365286 0.51190168 0.62864241]
# [ 0.11283279 0.28180632 0.28365286 0.51190168 0.62864241]
# [ 0.28917586 0.40997875 0.06308188 0.71512199 0.47386047]
# [ 0.11283279 0.28180632 0.28365286 0.51190168 0.62864241]
# [ 0.64672339 0.99851749 0.8873984 0.42734339 0.67158796]
# [ 0.11283279 0.28180632 0.28365286 0.51190168 0.62864241]
# [ 0.14463001 0.80273208 0.5559258 0.55629762 0.78814652] <-
# [ 0.11283279 0.28180632 0.28365286 0.51190168 0.62864241]]
Вы можете видеть, что группы до 8 потоков одновременно раздваиваются одним и тем же семенем, давая мне одинаковые случайные последовательности (я отметил первую группу стрелками).
Вызов np.random.seed()
внутри подпроцесса заставляет локальный экземпляр RNG с потоком снова сеять из /dev/urandom
или настенные часы, что (вероятно) не позволит вам увидеть идентичный вывод из нескольких подпроцессов. Лучшей практикой является явное пропускание отдельного семени (или экземпляра numpy.random.RandomState
) для каждого подпроцесса, например:
def Foo_np(seed=None):
local_state = np.random.RandomState(seed)
print local_state.uniform(0, 1, 5)
pool.map(Foo_np, range(20))
Я не совсем уверен, что лежит в основе различий между random
и numpy.random
в этом отношении (возможно, у него есть несколько разные правила для выбора источника случайности для самостоятельного семени по сравнению с numpy.random
?). Я бы по-прежнему рекомендовал явно передавать семя или экземпляр random.Random
для каждого подпроцесса, чтобы быть в безопасности. Вы также можете использовать метод .jumpahead()
random.Random
, который предназначен для перетасовки состояний экземпляров random
в многопоточных программах.