Различные результаты с roc_auc_score() и auc()

Мне сложно понять разницу (если есть) между roc_auc_score() и auc() в scikit-learn.

Im привязка для прогнозирования двоичного выхода с несбалансированными классами (около 1,5% для Y = 1).

Классификатор

model_logit = LogisticRegression(class_weight='auto')
model_logit.fit(X_train_ridge, Y_train)

Кривая Roc

false_positive_rate, true_positive_rate, thresholds = roc_curve(Y_test, clf.predict_proba(xtest)[:,1])

AUC в

auc(false_positive_rate, true_positive_rate)
Out[490]: 0.82338034042531527

roc_auc_score(Y_test, clf.predict(xtest))
Out[493]: 0.75944737191205602

Кто-нибудь может объяснить эту разницу? Я думал, что оба просто подсчитывают площадь под кривой ROC. Возможно, из-за несбалансированного набора данных, но я не мог понять, почему.

Спасибо!

Ответы

Ответ 1

AUC не всегда является областью под кривой кривой ROC. Область под кривой - это (абстрактная) область под кривой some, поэтому это более общая вещь, чем AUROC. С несбалансированными классами может быть лучше найти AUC для кривой с точным отзывом.

Смотрите источник sklearn для roc_auc_score:

def roc_auc_score(y_true, y_score, average="macro", sample_weight=None):
    # <...> docstring <...>
    def _binary_roc_auc_score(y_true, y_score, sample_weight=None):
            # <...> bla-bla <...>

            fpr, tpr, tresholds = roc_curve(y_true, y_score,
                                            sample_weight=sample_weight)
            return auc(fpr, tpr, reorder=True)

    return _average_binary_score(
        _binary_roc_auc_score, y_true, y_score, average,
        sample_weight=sample_weight)

Как вы можете видеть, сначала он получает кривую рока, а затем вызывает auc(), чтобы получить область.

Я думаю, ваша проблема - вызов predict_proba(). Для нормального predict() выходы всегда одинаковы:

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc, roc_auc_score

est = LogisticRegression(class_weight='auto')
X = np.random.rand(10, 2)
y = np.random.randint(2, size=10)
est.fit(X, y)

false_positive_rate, true_positive_rate, thresholds = roc_curve(y, est.predict(X))
print auc(false_positive_rate, true_positive_rate)
# 0.857142857143
print roc_auc_score(y, est.predict(X))
# 0.857142857143

Если вы измените вышеприведенное для этого, вы иногда получите разные выходы:

false_positive_rate, true_positive_rate, thresholds = roc_curve(y, est.predict_proba(X)[:,1])
# may differ
print auc(false_positive_rate, true_positive_rate)
print roc_auc_score(y, est.predict(X))

Ответ 2

predict возвращает только один класс или другой. Если вы вычислите ROC с результатами predict в классификаторе, есть только три порога (пробный весь один класс, тривиальный все другой класс и промежуточный). Кривая ROC выглядит так:

      ..............................
      |
      |
      |
......|
|
|
|
|
|
|
|
|
|
|
|

Между тем, predict_proba() возвращает весь диапазон вероятностей, поэтому теперь вы можете ввести более трех пороговых значений для своих данных.

             .......................
             |
             |
             |
          ...|
          |
          |
     .....|
     |
     |
 ....|
.|
|
|
|
|

Следовательно, разные области.

Ответ 3

Когда вы используете y_pred (метки классов), вы уже решили порог. Когда вы используете y_prob (вероятность положительного класса) вы открыты для порога, и кривая ROC должна помочь вы определяете порог.

В первом случае вы используете вероятности:

y_probs = clf.predict_proba(xtest)[:,1]
fp_rate, tp_rate, thresholds = roc_curve(y_true, y_probs)
auc(fp_rate, tp_rate)

Когда вы это делаете, вы рассматриваете AUC "до" решение о пороге, который вы будете использовать.

Во втором случае вы используете прогноз (а не вероятности), в этом случае используйте "предсказывать" вместо "predict_proba" для обоих, и вы должен получить тот же результат.

y_pred = clf.predict(xtest)
fp_rate, tp_rate, thresholds = roc_curve(y_true, y_pred)
print auc(fp_rate, tp_rate)
# 0.857142857143

print roc_auc_score(y, y_pred)
# 0.857142857143