Ответ 1
Caffe обучается с помощью Stochastic-Gradient-Descend (SGD): то есть на каждой итерации он вычисляет (стохастический) градиент параметров по данным обучения и делает движение (= изменение параметров) в направлении градиента.
Теперь, если вы напишете уравнения градиента w.r.t. учебные данные, вы заметите, что для того, чтобы точно вычислить градиент, вам нужно оценить все ваши данные обучения на каждой итерации: это непомерно много времени, особенно когда данные обучения становятся все больше и больше.
Чтобы преодолеть это, SGD аппроксимирует точный градиент стохастическим путем путем отбора только небольшой части данных обучения на каждой итерации. Эта небольшая часть - партия.
Таким образом, чем больше размер партии, тем точнее оценка градиента на каждой итерации.
TL; DR: размер партии влияет на точность оцененного градиента на каждой итерации, изменяя размер партии, поэтому влияют на "путь", который требует оптимизация, и могут изменять результаты учебного процесса.