Ответ 1
Как взвешивающие (чувствительные к стоимости), так и пороговые значения являются допустимыми формами изучения затрат. В кратких выражениях вы можете думать об этих двух принципах следующим образом:
Весоизмерительное
По сути, утверждается, что "стоимость ошибочной классификации редкого класса хуже, чем неправильно классифицировать общий класс. Это применяется на уровне алгоритма в таких алгоритмах, как SVM, ANN и Random Forest. Ограничения здесь состоят в том, может ли алгоритм работать с весами. Кроме того, многие применения этого пытаются решить идею сделать более серьезную ошибочную классификацию (например, классифицировать человека, у которого рак поджелудочной железы не является раком). В таких обстоятельствах вы знаете, почему вы хотите, чтобы вы классифицировали определенные классы даже в несбалансированных настройках. В идеале вы хотите оптимизировать параметры затрат, как и любой другой параметр модели.
Thresholding
Если алгоритм возвращает вероятности (или какой-либо другой балл), пороговое значение может быть применено после того, как модель была построена. По существу, вы меняете порог классификации с 50-50 до соответствующего уровня компромисса. Обычно это может быть оптимизировано путем генерирования кривой оценочной метрики (например, F-меры). Ограничение здесь заключается в том, что вы делаете абсолютные компромиссы. Любая модификация обрезания, в свою очередь, уменьшает точность прогнозирования другого класса. Если у вас есть чрезвычайно высокие вероятности для большинства ваших общих классов (например, большинство выше 0,85), у вас больше шансов добиться успеха с помощью этого метода. Он также является независимым от алгоритма (при условии, что алгоритм возвращает вероятности).
Sampling
Выборка - еще один распространенный вариант, применяемый к несбалансированным наборам данных, чтобы принести некоторый баланс распределениям классов. Существуют, по существу, два фундаментальных подхода.
Под дискретизацией
Извлеките меньший набор экземпляров большинства и сохраните меньшинство. Это приведет к меньшему набору данных, где распределение между классами будет ближе; однако вы отбросили данные, которые могли быть ценными. Это также может быть полезно, если у вас очень большой объем данных.
передискретизации
Увеличить количество экземпляров меньшинства путем их тиражирования. Это приведет к большему набору данных, который сохранит все исходные данные, но может привести к смещению. Однако, как вы увеличиваете размер, вы также можете влиять на производительность вычислений.
Расширенные методы
Существуют дополнительные методы, которые более "сложны", чтобы помочь устранить потенциальный уклон. К ним относятся такие методы, как SMOTE, SMOTEBoost и EasyEnsemble, как указано в предыдущем вопросе относительно несбалансированных наборов данных и CSL.
Здание модели
Еще одно примечание относительно построения моделей с несбалансированными данными заключается в том, что вы должны иметь в виду вашу модельную метрику. Например, такие показатели, как F-меры, не учитывают истинный отрицательный показатель. Поэтому часто рекомендуется, чтобы в неуравновешенных настройках использовались такие показатели, как метка карантин Cohens.