Ответ 1
"Точки" в конце boxplot представляют собой выбросы. Существует множество различных правил для определения, является ли точка outlier, но метод, который использует R и ggplot, является "правилом 1.5". Если точка данных:
- меньше Q1 - 1.5 * IQR
- больше Q3 + 1,5 * IQR
то эта точка классифицируется как "выброс". Усы определяются как:
upper whisker = min (max (x), Q_3 + 1,5 * IQR)
нижний вискер = max (min (x), Q_1 - 1,5 * IQR)
где IQR = Q_3 - Q_1, длина окна. Таким образом, верхний усов расположен на меньшем из максимального значения x и Q_3 + 1,5 IQR, тогда как нижний нитевидный кристалл расположен на большем из наименьших значений x и Q_1 - 1,5 IQR.
Дополнительная информация
- Смотрите страницу wikipedia boxplot для альтернативных правил исключения.
- На самом деле существует множество способов вычисления квантилей. Посмотрите на `? Quantile для описания девяти различных методов.
Пример
Рассмотрим следующий пример
> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"
Это дает следующий график:
По мере уменьшения диапазона от 1.7 до 1.5 мы уменьшаем длину усов. Однако range=0
- частный случай - он эквивалентен "range = infinity"