статистика за малка извадка)

АЛТЕ ДОКУМЕНТ

Статистика за малка извадка (статистика за малка извадка)

t-разпределение. Теорията наt-разпределението, подобно на теорията наz-разпределението, се използва за тестване на нулевата хипотеза, че двете извадки са просто произволни извадки от една и съща популация и следователно изчислените статистики (напр. средно и стандартно отклонение) са безпристрастни оценки на параметрите на популацията. Въпреки това, за разлика от теорията на нормалното разпределение, теорията наt-разпределението за малки извадки не изискваa prioriзнания или точни оценки на средната стойност и дисперсията на генералната съвкупност. Освен това, въпреки че тестването на разликата между средните стойности на две големи извадки за статистическа значимост изисква фундаментално допускане за нормалното разпределение на характеристиките на популацията, теорията наt-разпределението не изисква допускания относно параметрите.

Добре известно е, че характеристиките с нормално разпределение се описват с една единствена крива - кривата на Гаус, която удовлетворява следното уравнение:

.

Сt-разпределение, цялото семейство от криви е представено със следната формула:

.

Ето защо уравнението заtвключва гама функция, което в математиката означава, че когато n се промени, друга крива ще удовлетворява това уравнение.

В уравнението заt, букватаpобозначава броя на степените на свобода (df),, свързани с оценката на дисперсията на популацията (S2 ), което е вторият момент на всяка генерираща функция на моменти, като например уравнението заt-разпределението. В С. броят на степените на свободапоказва колко характеристики са останали свободни след частичното им използване в определен тип анализ. Вt-разпределението, едно от отклоненията от средната стойност на извадката винаги е фиксирано, тъй като сумата от всички такива отклонения трябва да бъде равна на нула. Това се отразява на сумата от квадрати при изчисляване на дисперсията на извадката като безпристрастна оценка на параметъра S 2 и води до факта, чеdfе равно на броя на измерванията минус едно за всяка проба. Следователно във формулите и процедурите за изчисляване на t-статистиката за тестване на нулевата хипотезаdf = n -2.

.

От това дойде класическата работа на Фишър върхуANOVA,статистически метод, изрично ориентиран към анализа на малки проби.

Извадковото разпределениеF(където n = df) е представено от следното уравнение:

.

Както в случая с разпределениетоt, гама функцията показва, че има семейство от разпределения, които отговарят на уравнението заF.В този случай обаче анализът включва две величиниdf: броят на степените на свобода за числителя и за знаменателя на F-отношението.

Таблици за оценка на t- иF-статистики. При тестване на нулевата хипотеза с помощта на C. въз основа на теорията на големите извадки обикновено се изисква само една референтна таблица - таблицата на нормалните отклонения (z), която ви позволява да определите площта под нормалната крива между всеки две стойности на z на оста x. Въпреки това, таблиците за t- иF-разпределенията са задължително представени в набор от таблици, тъй като тези таблици се основават на набор от разпределения, получени чрез промяна на броя на степените на свобода. Въпреки чеt-иF-разпределенията са разпределения на плътност на вероятността, подобно на нормалното разпределение за големипроби, те се различават от последните по отношение на четирите точки, използвани за описанието им.t-разпределението, например, е симетрично (обърнете внимание на t 2 в неговото уравнение) за всичкиdf,, но става прогресивно по-пиково с намаляване на размера на извадката. Пиковите криви (с по-голям от нормалния ексцес) са склонни да бъдат по-малко асимптотични (т.е. по-близо до оста x в краищата на разпределението) от кривите с нормален ексцес, като кривата на Гаус. Тази разлика води до забележими несъответствия между точките на оста x, съответстващи на стойностите на t иz.Приdf =5 и двустранно нивоa,равно на 0,05,t =2,57, докато съответнотоz =1,96. Следователно,t =2,57 е показателно за статистическа значимост на ниво от 5%. Въпреки това, в случай на нормална криваz =2,57 (по-точно 2,58) вече би означавало 1% ниво на статистическа значимост. Подобни сравнения могат да бъдат направени с разпределениетоF, тъй като t е равно на F, когато броят на пробите е две.

Какво представлява "малка" извадка?

По едно време беше повдигнат въпросът колко голяма трябва да бъде извадката, за да се счита за малка. Просто няма категоричен отговор на този въпрос. Въпреки това,df =30 се счита за условна граница между малка и голяма извадка.Резултатът от сравнението на t-разпределението с нормалното разпределение служи като основа за това донякъде произволно решение. Както е отбелязано по-горе, несъответствието междуtиzима тенденция да се увеличава с намаляване и да намалява с увеличаване на df. Всъщностtзапочва да се доближава много доzмного преди ограничаващия случай, когатоt = zза df = ∞. Просто визуално изследванестойностите на таблицатаtви позволяват да видите, че това приближение става доста бързо, започвайки сdf =30 и повече. Сравнителните стойностиt(приdf =30) иzса съответно: 2.04 и 1.96 заp =0.05; 2.75 и 2.58 заp =0.01; 3,65 и 3,29 за p = 0,001.

Други статистики за "малки" проби

Докато статистическите тестове катоtиFса специално предназначени да се прилагат към малки извадки, те са еднакво приложими за големи извадки. Съществуват обаче много други статистически методи, предназначени за анализ на малки проби и често използвани точно за тази цел. Имат предвид т.нар. непараметрични или безразпределителни методи. По принцип S., появяващи се в тези методи, са предназначени за прилагане към измервания, получени с помощта на скали, които не отговарят на определението за съотношение или интервални скали. Най-често това са ординални (рангови) или номинални мерки. Непараметричните S. не изискват предположения за параметрите на разпределението, по-специално по отношение на оценките на дисперсията, тъй като ординалните и номиналните скали изключват самата концепция за дисперсия. Поради тази причина непараметричните методи се използват и за измервания, получени с интервални и съотношителни скали, когато се анализират малки проби и има възможност основните допускания, необходими за прилагането на параметричните методи, да бъдат нарушени. Сред тези C., които разумно могат да бъдат приложени към малки извадки, са: точният вероятностен тест на Фишър, двуфакторният непараметричен (рангов) анализ на дисперсията на Фридман, коефициентът на рангова корелация на Кендъл t, коефициентът на съгласуване на Кендъл (W), H-тестът на Крускал-Уолъс занепараметричен (рангов) еднопосочен анализ на дисперсията,U-тест на Ман-Уитни, тест за медиана, тест за знаци, коефициент на рангова корелация наrна Спирман иt-тест на Уилкоксън.

Вижте същоВероятност, статистическо заключение, изследователски променливи