Функция Python для получения t-статистики
Я ищу функцию Python (или написать свою собственную, если таковой не существует), чтобы получить t-статистику для использования в вычислении доверительного интервала.
Я нашел таблицы, которые дают ответы на различные вероятности/степени свободы, такие как этот, но я хотел бы иметь возможность рассчитать это для любой заданной вероятности. Для тех, кто еще не знаком с этими степенями свободы, это число точек данных (n) в вашем примере -1, а числа для заголовков столбцов вверху - это вероятности (p), например. 2-уровневый уровень значимости 0,05 используется, если вы просматриваете t-оценку, чтобы использовать в вычислении для уверенности 95%, что если вы повторите n тестов, результат попадет в средний +/- доверительный интервал.
Я изучил использование различных функций в scipy.stats, но ни один из них, который, как я вижу, не позволяет использовать простые входы, описанные выше.
Excel имеет простую реализацию этого, например. для получения t-балла для образца 1000, где мне нужно быть уверенным на 95%, я бы использовал: =TINV(0.05,999)
и получить оценку ~ 1,96
Вот код, который я использовал для реализации доверительных интервалов до сих пор, поскольку вы можете видеть, что я использую очень грубый способ получить t-score в настоящее время (просто разрешая несколько значений perc_conf и предупреждая, что это неточно для образцов < 1000):
# -*- coding: utf-8 -*-
from __future__ import division
import math
def mean(lst):
# μ = 1/N Σ(xi)
return sum(lst) / float(len(lst))
def variance(lst):
"""
Uses standard variance formula (sum of each (data point - mean) squared)
all divided by number of data points
"""
# σ² = 1/N Σ((xi-μ)²)
mu = mean(lst)
return 1.0/len(lst) * sum([(i-mu)**2 for i in lst])
def conf_int(lst, perc_conf=95):
"""
Confidence interval - given a list of values compute the square root of
the variance of the list (v) divided by the number of entries (n)
multiplied by a constant factor of (c). This means that I can
be confident of a result +/- this amount from the mean.
The constant factor can be looked up from a table, for 95% confidence
on a reasonable size sample (>=500) 1.96 is used.
"""
if perc_conf == 95:
c = 1.96
elif perc_conf == 90:
c = 1.64
elif perc_conf == 99:
c = 2.58
else:
c = 1.96
print 'Only 90, 95 or 99 % are allowed for, using default 95%'
n, v = len(lst), variance(lst)
if n < 1000:
print 'WARNING: constant factor may not be accurate for n < ~1000'
return math.sqrt(v/n) * c
Вот пример вызова вышеуказанного кода:
# Example: 1000 coin tosses on a fair coin. What is the range that I can be 95%
# confident the result will f all within.
# list of 1000 perfectly distributed...
perc_conf_req = 95
n, p = 1000, 0.5 # sample_size, probability of heads for each coin
l = [0 for i in range(int(n*(1-p)))] + [1 for j in range(int(n*p))]
exp_heads = mean(l) * len(l)
c_int = conf_int(l, perc_conf_req)
print 'I can be '+str(perc_conf_req)+'% confident that the result of '+str(n)+ \
' coin flips will be within +/- '+str(round(c_int*100,2))+'% of '+\
str(int(exp_heads))
x = round(n*c_int,0)
print 'i.e. between '+str(int(exp_heads-x))+' and '+str(int(exp_heads+x))+\
' heads (assuming a probability of '+str(p)+' for each flip).'
Выход для этого:
Я уверен, что 95% уверены, что результат 1000 монетных флип будет в пределах +/- 3,1% от 500, т.е. между 469 и 531 головами (при условии, что вероятность 0,5 для каждого флип).
Я также изучил вычисление t-distribution для диапазона, а затем вернул t-балл, который получил вероятность, ближайшую к требуемой, но у меня были проблемы с применением формулы. Дайте мне знать, если это актуально, и вы хотите увидеть код, но я предположил, что нет, возможно, более простой способ.
Спасибо заранее.
Ответы
Ответ 1
Вы пробовали scipy?
Вам нужно будет установить библиотеку scipy... подробнее об установке здесь: http://www.scipy.org/install.html
После установки вы можете реплицировать такие функции Excel как:
from scipy import stats
#Studnt, n=999, p<0.05, 2-tail
#equivalent to Excel TINV(0.05,999)
print stats.t.ppf(1-0.025, 999)
#Studnt, n=999, p<0.05%, Single tail
#equivalent to Excel TINV(2*0.05,999)
print stats.t.ppf(1-0.05, 999)
Вы также можете прочитать об установке библиотеки здесь: как установить scipy для python?
Ответ 2
Попробуйте использовать следующий код:
from scipy import stats
#Studnt, n=22, 2-tail
#stats.t.ppf(1-0.025, df)
# df=n-1=22-1=21
print (stats.t.ppf(1-0.025, 21))
Ответ 3
Вы можете попробовать этот код:
# for small samples (<50) we use t-statistics
# n = 9, degree of freedom = 9-1 = 8
# for 99% confidence interval, alpha = 1% = 0.01 and alpha/2 = 0.005
from scipy import stats
ci = 99
n = 9
t = stats.t.ppf(1- ((100-ci)/2/100), n-1) # 99% CI, t8,0.005
print(t) # 3.36