Ответ 1
При локальном минимуме (или максимуме) x
производная целевой функции f
обращается в нуль: f'(x) = 0
(при условии достаточной гладкости f
).
Градиентный спуск пытается найти такой минимум x
, используя информацию из первой производной от f
: он просто следует за крутым спусками из текущей точки. Это похоже на то, чтобы катить мяч по графику f
до тех пор, пока он не остановится (пренебрегая инерцией).
Метод Ньютона пытается найти точку x
, удовлетворяющую f'(x) = 0
, аппроксимируя f'
линейной функцией g
, а затем решив корень этой функции явно (это называется методом корневого поиска Ньютона). Корень g
не обязательно является корнем f'
, но во многих случаях это хорошее предположение (Статья Википедии о методе Ньютона для поиска корней содержит дополнительную информацию о критериях конвергенции). При приближении к f'
метод Ньютона использует f''
(кривизна f
). Это означает, что он имеет более высокие требования к гладкости f
, но это также означает, что (с помощью большей информации) он часто сходится быстрее.