Ответ 1
Преимущества L2 над нормой L1
- Как уже было сказано aleju в комментариях, выводы нормы L2 легко вычисляются. Поэтому он также прост в использовании методов обучения на основе градиента.
- L2-регуляризация оптимизирует среднюю стоимость (тогда как L1 уменьшает медиану explain), который часто используется как измерение производительности. Это особенно хорошо, если вы знаете, что у вас нет никаких выбросов, и вы хотите, чтобы общая ошибка была небольшой.
- Решение, скорее всего, будет уникальным. Это связано с предыдущей точкой: хотя среднее значение является единственным значением, медиана может располагаться в интервале между двумя точками и поэтому не является уникальной.
- В то время как L1-регуляризация может дать вам разреженный вектор коэффициентов, нерасширение L2 может улучшить вашу производительность прогнозирования (поскольку вы используете больше возможностей вместо простого игнорирования их).
- L2 инвариантно относительно вращения. Если у вас есть набор данных, состоящий из точек в пространстве, и вы применяете поворот, вы все равно получаете одинаковые результаты (т.е. Расстояния между точками остаются неизменными).
Преимущества L1 над нормой L2
- Норма L1 предпочитает разреженные коэффициенты. (пояснение в Quora) Это означает, что норма L1 выполняет выбор функции, и вы можете удалить все функции, где коэффициент равен 0. Уменьшение размеров полезно практически во всех случаях.
- Норма L1 оптимизирует медиану. Поэтому норма L1 не чувствительна к выбросам.
Другие источники: