Scikit-learn predict_proba дает неправильные ответы

Я обнаружил в этом вопросе этот результат представляет вероятность точки, принадлежащей каждому классу, в порядке, заданном model.classes _

Итак... этот ответ, если он правильно интерпретируется, говорит, что точка, вероятно, является "оранжевой" (с довольно низким доверием из-за крошечного объема данных). Но интуитивно этот результат явно неверен, так как указанная точка идентична данным обучения для "яблока". Чтобы быть уверенным, я также проверил обратное:

Опять же, очевидно, неверно, но в другом направлении.

Наконец, я попробовал это с точками, которые были намного дальше.

Опять же, модель предсказывает неправильные вероятности. НО, функция model.predict получает это правильно!

Теперь я помню, как что-то читал в документах о том, что pred_proba неточен для небольших наборов данных, хотя я не могу найти его снова. Это ожидаемое поведение, или я делаю что-то неправильно? Если это ожидаемое поведение, то почему функция прогнозирования и прогнозирования не согласуется с выходом? И что важно, насколько большой набор данных должен быть, прежде чем я смогу доверять результатам от pred_proba?

Хорошо, поэтому я сделал еще несколько "экспериментов" в этом: поведение pred_proba сильно зависит от "n", но не предсказуемым образом!

Как мне безопасно использовать эту функцию в моем коде? По крайней мере, существует ли какое-либо значение n, для которого будет гарантировано согласие с результатом модели. Представьте?

Ответы

Ответ 1

если вы используете svm.LinearSVC() в качестве оценки и .decision_function() (что похоже на svm.SVC.predict_proba()) для сортировки результатов от наиболее вероятного класса до наименее вероятного. это согласуется с функцией .predict(). Плюс, эта оценка быстрее и дает почти те же результаты с svm.SVC()

единственным недостатком для вас может быть то, что .decision_function() дает знаковое значение sth, например, между -1 и 3 вместо значения вероятности. но он согласуется с предсказанием.

Ответ 2

predict_probas использует функцию масштабирования Platt для libsvm для вызова вероятности, см.

Как работает функция sklearn.svm.svc preview_proba() внутри?

Таким образом, гипотезы о гиперплоскости и калибровка проба могут не совпадать, особенно если у вас всего 2 образца в вашем наборе данных. Странно, что внутренняя перекрестная проверка, сделанная libsvm для масштабирования вероятностей, в этом случае не подлежит (явно). Возможно, это ошибка. Нужно было бы погрузиться в код масштабирования Platt libsvm, чтобы понять, что происходит.

Ответ 3

Существует некоторая путаница в отношении того, что на самом деле делает pred_proba. Он не прогнозирует вероятности, как предполагает название, но выводит расстояния. В примере яблока против апельсина 0,39097541, 0,60902459 кратчайшее расстояние 0.39097541 - класс яблока. что противоречит интуиции. вы смотрите на наивысшую вероятность, но это не так.

Другой источник путаницы проистекает из того, что pred_proba действительно соответствует жестким меткам, а не порядку классов, от 0..n последовательно. Кажется, что Scikit перетасовывает классы, но их можно сопоставить.

вот как это работает.

   say we have 5 classes with labels:
   classifier.classes_ = [0 1 2 3 4]
   target names = ['1', '2', '3', '6', '8']

предсказанные метки [2 0 1 0 4]

    classifier.predict_proba
    [[ 0.20734121  0.20451986  0.17262553  0.20768649  0.20782692]
     [ 0.19099348  0.2018391   0.20222314  0.20136784  0.20357644]
     [ 0.19982284  0.19497121  0.20399376  0.19824784  0.20296435]
     [ 0.19884577  0.1999416   0.19998889  0.20092702  0.20029672]
     [ 0.20328893  0.2025956   0.20500402  0.20383255  0.1852789 ]]

    Confusion matrix:
    [[1 0 0 0 0]
     [0 1 0 0 0]
     [0 0 1 0 0]
     [1 0 0 0 0]
     [0 0 0 0 1]]

    y_test [2 0 1 3 4]
    pred [2 0 1 0 4]
    classifier.classes_ = [0 1 2 3 4]

ничего, кроме третьего класса, является совпадением. согласно прогнозируемым меткам в см, класс 0 предсказан, а фактический класс 0 argmax (pred_prob). Но его отображение на

     y_test [2 0 1 3 4]

поэтому найдите второй класс

    0              1             2          3          4
    [ 0.20734121  0.20451986  0.17262553  0.20768649  0.20782692]
    and the winner is **0.17262553**

сделайте это снова. посмотрите на результат вычисления ошибки 4, где фактический lebel 4, предсказанный 1 в соответствии с cm.

    BUT y_test [2 0 1 3 4] pred [2 0 1 0 4]
    which translates to actual label 3 predicted label 0
    0             1             2            3        4
    ]0.19884577  0.1999416   0.19998889  0.20092702  0.20029672]
    look at label number 0, and the winner is **0.19884577**

Это мои 0,02.