Ответ 1
Ниже приведен пример вывода для наивного классификатора Байеса с использованием 10-кратной перекрестной проверки. Там много информации, и то, что вы должны сосредоточить, зависит от вашего приложения. Я объясню некоторые из приведенных ниже результатов, чтобы вы начали.
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 71 71 %
Incorrectly Classified Instances 29 29 %
Kappa statistic 0.3108
Mean absolute error 0.3333
Root mean squared error 0.4662
Relative absolute error 69.9453 %
Root relative squared error 95.5466 %
Total Number of Instances 100
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.967 0.692 0.686 0.967 0.803 0.709 0
0.308 0.033 0.857 0.308 0.453 0.708 1
Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709
=== Confusion Matrix ===
a b <-- classified as
59 2 | a = 0
27 12 | b = 1
Правильно и неправильно классифицированные экземпляры показывают процент тестовых экземпляров, которые были правильно и неправильно классифицированы. Необработанные числа показаны в матрице путаницы, причем a
и b
представляют метки классов. Здесь было 100 экземпляров, поэтому проценты и необработанные числа складываются, aa
+ bb
= 59 + 12 = 71, ab
+ ba
= 27 + 2 = 29.
Процент правильно классифицированных экземпляров часто называют точностью или точностью выборки. У этого есть некоторые недостатки как оценка эффективности (не случайная скорректированная, не чувствительная к распределению класса), таким образом Вы вероятно захотите рассмотреть некоторые из других чисел. Площадь ROC, или область под кривой ROC, является моей предпочтительной мерой.
Каппа - это скорректированная по шансам мера согласия между классификациями и истинными классами. Он рассчитывался путем принятия соглашения, ожидаемого случайно от наблюдаемого соглашения и деления на максимально возможное соглашение. Значение больше 0 означает, что ваш классификатор работает лучше, чем вероятность (это действительно должно быть!).
Частоты ошибок используются для численного прогнозирования, а не для классификации. В числовом предсказании предсказания не являются правильными или неправильными, ошибка имеет величину, и эти меры отражают это.
Надеюсь, что вы начнете.