Ответ 1
Функция стоимости
J(theta_0, theta_1) = 1/(2m) * sum_(i=1)^m [ h_theta(x^i) - y^i ]^2
В h_theta(x^i)
мы обозначаем, какие выходные модели для x^i
, поэтому h_theta(x^i) - y^i
является его ошибкой (предполагая, что y^i
является правильным выходом).
Теперь мы вычисляем квадрат этой ошибки [ h_theta(x^i) - y^i ]^2
(который удаляет знак, так как эта ошибка может быть как положительной, так и отрицательной) и суммировать ее по всем образцам, и связать ее как-то мы ее нормализуем - просто разделив m
, поэтому мы имеем среднее (потому что мы делим на количество выборок) квадрат (потому что мы квадрат) ошибка (потому что мы вычисляем ошибка):
1/m * sum_(i=1)^m [ h_theta(x^i) - y^i ]^2
Этот 2
, который появляется спереди, используется только для упрощения производной, потому что, когда вы попытаетесь свести его к минимуму, вы будете использовать метод наискорейшего спуска, основанный на производной этой функции. Производная a^2
равна 2a
, а наша функция является квадратом чего-то, поэтому этот 2
будет отменен. Это единственная причина его существования.