SQL - STDEVP или STDEV и как его использовать?
У меня есть таблица:
LocationId OriginalValue Mean
1 0.45 3.99
2 0.33 3.99
3 16.74 3.99
4 3.31 3.99
и т.д.
Как я буду использовать Standard Deviation
, используя эту таблицу, а также что вы порекомендуете - STDEVP
или STDEV
?
Ответы
Ответ 1
Чтобы использовать его, просто:
SELECT STDEVP(OriginalValue)
FROM yourTable
Ниже вы, вероятно, хотите STDEVP
.
От здесь:
STDEV используется, когда группа оцениваемых чисел является всего лишь частичной выборкой всей совокупности. Знаменателем для деления суммы квадратов отклонений является N-1, где N - количество наблюдений (количество элементов в наборе данных). Технически вычитание 1 называется "необъективным".
STDEVP используется, когда группа оцениваемых чисел завершена - это целая численность населения. В этом случае 1 НЕ вычитается, а знаменатель для деления суммы квадратов отклонений просто сам N, количество наблюдений (количество элементов в наборе данных). Технически это называется "предвзятым". Помня, что P в STDEVP означает "население", может оказаться полезным. Поскольку набор данных не является простым образцом, но состоит из ВСЕХ фактических значений, эта функция стандартного отклонения может возвращать более точный результат.
Ответ 2
Как правило, вы должны использовать STDEV
, когда вам нужно оценить стандартное отклонение на основе выборки. Но если у вас есть все данные столбца, приведенные в качестве аргументов, используйте STDEVP
.
В целом, если ваши данные представляют все население, используйте STDEVP
; в противном случае используйте STDEV
.
Обратите внимание, что для больших выборок функции возвращают почти одинаковое значение, поэтому лучше использовать STDEV
в этом случае.
Ответ 3
В статистике есть два типа стандартных отклонений: один для выборки и один для населения. Стандартное отклонение выборки, обычно обозначаемое буквой s, используется в качестве оценки стандартного отклонения населения. Стандартное отклонение населения, обычно обозначаемое сигмой с греческим письмом, используется, когда данные составляют полную совокупность. Трудно ответить на ваш вопрос напрямую - образец или население - потому что сложно сказать, с чем вы работаете: образец или население. Это часто зависит от контекста. Рассмотрим следующий пример. Если я хочу знать стандартное отклонение от возраста студентов в моем классе, тогда я буду использовать STDEVP, потому что этот класс является моим населением. Но если я хочу использовать мой класс в качестве образца для всех учащихся в школе (это будет то, что известно как образец удобства, и, вероятно, будет предвзятым, но я отвлекся), то я бы использовал STDEV, потому что мой класс - образец. Результирующее значение будет моей лучшей оценкой STDEVP. Как упоминалось выше (1) для больших размеров выборки (скажем, более тридцати), разница между ними становится тривиальной, и (2) обычно вы должны использовать STDEV, а не STDEVP, потому что на практике у нас обычно нет доступа к население. Действительно, можно было бы утверждать, что если бы у нас всегда был доступ к населению, то нам не нужна статистика. Весь смысл выводной статистики заключается в том, чтобы иметь возможность делать выводы о популяции, основанной на выборке.