Вземане на проби, разпределение на пробите
общ преглед
В статистиката населението представлява цяла група индивиди, които ни интересуват. Като цяло, изучаването на цяла популация е доста скъпо и отнема много време, а в някои случаи просто невъзможно, тъй като популацията може да е хипотетична, следователно данните се събират върху извадка от индивиди, за които се предполага, че са представители на тази популация, и се използват, за да се направят заключения (т.е. да се направят изводи) за тази популация.
Когато се вземе проба от популация, се разбира, че информацията в извадката може да не отразява напълно това, което е вярно в тази популация. Възможна е извадкова грешка, тъй като е изследвана само част от популацията.
След това ще разгледаме как да използваме теоретичното разпределение на вероятностите, за да определим големината на тази грешка.
Представителна проба
Представителната извадка е една от ключовите концепции за анализ на данни. Представителна извадка е извадка от популацията с разпределениеF(x), представяща основните характеристики на популацията.
Например, ако в един град има 100 000 души, половината от които мъже и половината жени, тогава извадка от 1000 души, от които 10 мъже и 990 жени, със сигурност няма да е представителна.
Проучване на общественото мнение, изградено на негова основа, разбира се, ще съдържа пристрастия в оценките и ще доведе до фалшифицирани резултати.
Необходимо условие за изграждане на представителна извадка е еднаква вероятност за включване на всеки елемент от генералната съвкупност в нея.
При голям размер на извадката, извадковата (емпирична) функция на разпределение дава доста добра представа за функцията на разпределениеF(x) на първоначалния общинертни материали.
Оценяване на параметрите на населението: точкови оценки
Често се интересуваме от оценката на параметър в популация, средната стойност или стандартното отклонение. Обикновено означаваме средната стойност на съвкупността като , а стандартното отклонение на съвкупността като .
В статистиката е обичайно параметрите на популацията (общи) да се обозначават с буквите на гръцката азбука, а селективните параметри - със съответните букви на латинската азбука, например иmи т.н.
Ние оценяваме стойността на параметъра, като използваме данните, събрани в извадката.
Този оценител е точков оценител на общия параметър (т.е. приема само една стойност) за разлика от интервален оценител, който има интервал от стойности.
Точковата оценка се описва от примерна статистика.
Дисперсия на извадката, стандартно отклонение на извадката
Ако повторите тегленето на проби с еднакъв размер от съвкупност, малко вероятно е оценките на параметрите на популацията да бъдат абсолютно еднакви във всяка проба. Въпреки това, всички оценки трябва да са близки до истинската стойност на параметъра (общ параметър) в съвкупността и подобни една на друга.
Чрез определяне на размера на дисперсията в тези оценки ще разберем колко точни са те и по този начин можем да оценим грешката, дължаща се на извадката.
Обикновено се взема само една проба от популация. Въпреки това, познаването на теоретичното разпределение на извадковите оценки може да се използва, за да се направят изводи относно общия параметър на популацията.
Стандартното отклонение на извадката sсе оценява от наблюдаваното изпълнение на извадката:
Стандартното отклонение отразява променливостта в стойностите на данните и трябва да бъде посочено, ако трябва да се обясни променливостта в набор от данни.
Извадково разпределение на средната стойност, грешкасредно
Да предположим, че се интересуваме от оценката на средната популация; възможно е да се вземат много повторени проби с размерnот популацията и да се оцени средната стойност във всяка проба.
Ако размерът на извадката е разумно голям, оценките на средната стойност обикновено се разпределят независимо от разпределението на оригиналните данни в популацията.
Това твърдение следва от теорема, известна катотеорема за централната граница:
→ N (0,1) като n → ∞
Ако размерът на извадката е малък, оценките на средната стойност следват нормално разпределение, при условие че данните в популацията също следват нормално разпределение;
Средната стойност на тези оценки е безпристрастна оценка на истинската средна стойност на съвкупността (обща средна стойност), т.е. средната стойност на тези оценки е еквивалентна на истинската средна стойност на съвкупността;
Променливостта на разпределението се изразява чрез стандартното отклонение на оценките, известно като стандартна грешка на средната стойност (често наричана средна стандартна грешка, SEM).
Ако знаехме стандартното отклонение на съвкупността σ, тогавастандартната грешка на средното ro би била описана по следния начин:
В случай, че има, както обикновено, само една извадка, нашата най-добра оценка на средната стойност на популацията ще бъде средната на извадката и тъй като стандартното отклонение в популацията (общ стандарт) рядко е известно, тогавастандартната грешка на средната стойностсе оценява, както следва:
къдетоsе стандартното отклонение на извадката.
Стандартната грешка на средната стойност отразява точността на нашата оценка.
- Голяма стандартна грешка показва, че оценката е неточна;
- Малка стандартна грешка показва, че оценката е точна;
- Стандартната грешка ще намалее, т.е. получаваме по-точна оценка, ако:
- Сила на звукапробата ще се увеличи;
- Данните имат малко разсейване.
И така, стандартната грешка представлява точността на средната стойност на извадката и трябва да бъде посочена, ако се интересувате от средната стойност на набора от данни.