Мерки за вариация
Аткинсън Р. и др. - Въведение в психологията
Режимът е най-често срещаният индикатор в тази извадка. Най-честата стойност в таблицата. P1 е 75, така че режимът на това разпределение е 75.
При нормално разпределение, когато стойностите са разпределени еднакво от всяка страна на средата (както на фиг. A1), средната стойност, медианата и модата са еднакви. Това не е случаят с изкривените или изкривените разпределения. Да предположим, че трябва да анализираме часовете на заминаване на сутрешния влак. Влакът обикновено тръгва навреме; понякога си тръгва по-късно, но никога не си тръгва рано. За влак с планирано заминаване в 08:00 часа, времето на заминаване през седмицата може да бъде както следва:
Пон: 08:00 Вт: 08:04 Сряда: 08:02 Чет: 08:19 Пет: 08:22 Съб: 08:00 Нед: 08:00 Това разпределение на часовете на заминаване е изкривено поради две късни заминавания; те увеличават средното време на тръгване, но не влияят значително на медианата и режима.
Важно е да се разбере значението на изкривеното разпределение, защото в противен случай разликата между медианата и средната стойност понякога е трудна за улавяне (фиг. A2). Ако, например, ръководството на фирмата и нейният синдикат спорят за благосъстоянието на работниците, средната цена на работната заплата и нейната медиана може да се движат в противоположни посоки. Да предположим, че една фирма повишава заплатите на повечето служители, но намалява заплатите на топ мениджърите, които са били твърде високо в скалата на заплащане; тогава средната заплата може да се повиши, докато средната заплата спадне. Страната, която иска да покаже, че заплатите са се повишили, ще избере медианата като индикатор, а страната, която иска да покаже, че заплатите са се повишили, ще избере средната стойност.
Ориз. P2. Изкривена крива на разпределение. Имайте предвид, че изкривяването на разпределението епосоката, в която пада опашката му. Обърнете внимание също, че изкривеното разпределение няма същата средна стойност, медиана и режим; медианата обикновено е между модата и средната стойност.
Мерки за вариация
Като общо правило трябва да знаете повече за разпределението, отколкото измерванията на средната стойност могат да покажат. Нуждаем се, например, от мярка, която може да каже дали куп стойности се намират близо до средната им стойност или са широко разпръснати. Мярката за разпространение на стойностите спрямо средната се нарича мярка за вариация.
Мярката за вариация е полезна поне в две отношения. Първо, показва представителността на средната стойност. Ако вариацията е малка, тогава е известно, че отделните стойности ще бъдат близки до средните. Ако вариацията е голяма, тогава такава средна стойност не може да се използва с голяма увереност като представителна стойност. Да предположим, че се шие партида готови дрехи, без да се правят конкретни измервания. За да направите това, е полезно да знаете средния размер на тази група хора, но също така е важно да знаете разпространението на техните размери. Познавайки вариацията, можем да кажем колко трябва да варират произведените размери.
За да илюстрираме, нека разгледаме данните на фиг. P3, който показва честотните разпределения на показателите на приемните изпити за две паралелки от 30 ученици. И в двата класа средната стойност е една и съща - 75, но очевидно се различават в степента на вариация. Резултатите на всички ученици от А клас са близки до средните, докато резултатите на учениците от Б клас са силно разпръснати. Необходими са някои мерки, за да се определи по-точно как се различават тези разпределения. Психолозите често използват три мерки за вариация: диапазон, вариация и стандартно отклонение.
Ориз. P3. Пример за различна вариация на разпределения. Лесно се вижда, че клъстерът от показатели за клас А е по-близък до средния от този за клас Б, въпреки чесредната стойност и в двата класа е идентична - 75. За клас А всички резултати попадат между 60 и 89, като повечето от тях попадат между 70 и 79. За клас Б резултатите са разпределени относително равномерно в целия диапазон от 40 до 109. Тази разлика между двете разпределения в разсейването може да се оцени чрез стандартното отклонение, което е по-малко за клас А, отколкото за клас Б.
За да опростим аритметиката, да предположим, че петима ученици от всеки клас искат да отидат в колеж и че общите им резултати на приемните изпити са:
Показатели на учениците от А клас:
73, 74, 75, 76, 77 (средно = 75) Ученици в клас B:
60, 65, 75, 85, 90 (средно = 75) Сега нека изчислим мерките на вариация за тези две проби.
Диапазонът е разликата между най-високата и най-ниската стойност. Диапазонът на показателите за пет ученици от А клас е 4 (от 73 до 77); обхватът на показателите на учениците от Б клас е 30 (от 60 до 90).
Диапазонът е по-лесен за изчисляване, но дисперсията и стандартното отклонение се използват по-често. Това са по-чувствителни мерки за вариация, защото отчитат всички величини, а не само екстремни величини като диапазон. Дисперсията показва доколко компонентите на разпределението са отделени от средната стойност на това разпределение. За да изчислим дисперсията, първо изчисляваме отклоненията на всяка стойност (d) от средната чрез изваждане на всяка стойност от средната (Таблица A3). След това трябва да поставите на квадрат всяка разлика, така че да няма отрицателни числа. Накрая тези отклонения се сумират и се разделят на общия брой отклонения, което води до средния квадрат на отклонението. Средният квадрат на отклонението се нарича дисперсия. Правейки това с данните на фиг. P3, откриваме, че дисперсията на клас Aе 2.0, а клас B има 130. Очевидно е, че променливостта на показателите в клас B е много по-силна.
Таблица P3. Изчисляване на дисперсията и стандартното отклонение на оценката от степен A (средно = 75)
Сума d2 = 10 Дисперсия = средна стойност на d2 = 10 / 5 = 2,0 Стандартно отклонение (?) = = 1,4 Резултати от степен B (Средно = 75)
Сума d2 = 650 Дисперсия = средна стойност на d2 = 650 / 5 = 130 Стандартно отклонение (?) = = 11.4 Недостатъкът на дисперсията е, че се изразява в единици на квадрат. Следователно стойността на дисперсията, равна на 2 за клас А, не означава, че неговите средни показатели се различават от средните с 2 точки. Той показва, че 2 е резултат от осредняване на квадратните стойности, с които резултатите се различават от средната стойност. За да получите мярка за отклонение, изразена в оригиналните мерни единици (в този случай, броя на единиците, отбелязани на изпита), просто трябва да вземете корен квадратен от дисперсията. Резултатът се нарича стандартно отклонение. Означава ли се с гръцката буква? (сигма), който се използва и в някои други статистически изчисления, които ще обсъдим накратко. Стандартното отклонение се изчислява по следната формула:
Пример за изчисляване на стандартното отклонение. (Таблица A3). Показателите на проби от два класа са представени в удобен за изчисляване на стандартното отклонение вид. В първата стъпка изваждаме средната стойност от всеки индикатор (средна = 75 в двата класа). В резултат на това получаваме положителни стойности на d за показатели, които са по-големи от средните, и отрицателни за тези, които са по-малки от него. Когато получените стойности се повдигнат на квадрат, знакът минус ще изчезне (следващата колона в таблица A3). Разликите на квадрат се събират и се разделят на N, броя на елементитепроби, в нашия случай N = 5. Вземайки корен квадратен, получаваме стандартното отклонение. [В тази уводна презентация ще използваме ? (сигма). В научната литература обаче малката буква s се използва за обозначаване на стандартното отклонение на извадката, а a означава стандартното отклонение за цялата група. В допълнение, когато се изчислява стандартното отклонение за пробата(ите), сумата от всички d2 се разделя не на N, а на N-1. В случай на достатъчно големи проби обаче използването на N-1 вместо N има малък ефект върху стандартното отклонение. За да опростим обясненията, тук няма да правим разлика между стандартното отклонение на извадката и групата и ще използваме една и съща формула за тях. За обсъждане на тази точка вижте Phillips (1992).]
Статистически извод
Сега, след като видяхме статистиката като начин за описване на данни, ние сме готови да се обърнем към тълкуването на данните - как да правим заключения от тях.
Група и селекции
На първо място е необходимо да се прави разлика между група и извадка от тази група. Бюрото за преброяване на населението на Съединените щати се опитва да опише населението като цяло, като получи описателен материал по възраст, семейно положение и т.н. за всички жители на страната. Думата население е подходяща за Бюрото за преброяване на населението, защото представлява всички хора, живеещи в Съединените щати.
В статистиката думата "група" не се ограничава до хора, животни или неща. Група може да бъде всички показания на температурата, записани от термометър през последното десетилетие, всички английски думи или друг дефиниран запас от данни. Често нямаме достъп до цялата група и тогава се опитваме да я представим от извадка, взета в произволен (безпристрастен) ред. Можете да зададете някакъв въпрос за произволно избрана част от хората, както направи Бюротопреброявания в някои скорошни преброявания; можете да покажете средната температура, като вземете показанията на термометъра в определено време и не поддържате непрекъснат запис; човек може да оцени броя на думите в една енциклопедия, като преброи думите на произволно избрани страници. Във всички тези примери се взема проба от група. Ако някой от тези процеси се повтори, резултатите ще бъдат малко по-различни поради факта, че извадката не отразява напълно групата като цяло и следователно съдържа извадкови грешки. Тук влиза в действие статистическото заключение.
Събира се извадка от данни от група, за да се направи заключение за тази група. Може да се изследва извадка от данни от преброяването, за да се види дали населението например застарява и дали има тенденция на миграция към крайградските райони. По същия начин се изследват експериментални резултати, за да се определи какъв ефект са имали експерименталните манипулации върху поведението – дали силата на звука е повлияла на прага на възприемане на височината или дали родителството е имало значителен ефект върху по-късния живот. За да се направят статистически изводи, трябва да се оценят връзките, посочени от примерните данни. Такива заключения винаги имат известна степен на несигурност поради грешки в извадката. Ако статистическите тестове покажат, че размерът на ефекта, открит в дадена проба, е достатъчно голям (спрямо оценката на грешката на извадката), тогава човек може да бъде сигурен, че ефектът, наблюдаван в тази извадка, съществува в групата като цяло.
По този начин статистическият извод е свързан с необходимостта да се направи заключение или преценка относно някаква характеристика на дадена група въз основа само на информация, получена за извадка от тази група. Като въведение в статистическите изводи ще разгледаме нормалното разпределение и приложението му къминтерпретация на стандартното отклонение.
Нормална дистрибуция
Когато големи количества данни се събират, таблицират и показват като хистограма или обвивка, те често образуват камбанообразно симетрично разпределение, известно като нормално разпределение. Повечето от неговите елементи са разположени близо до средата (горната точка на камбаната), като тази камбана пада рязко при най-голямата и при най-малката величина. Тази форма на кривата е от особен интерес, защото се появява и когато резултатът от процеса се основава на набор от случайни събития, всички от които се случват независимо. Показаното на фиг. P4, ви позволява да видите как се формира нормално разпределение от случайни събития. Случайният фактор - дали стоманената топка пада наляво или надясно всеки път, когато удари вилица - води до симетрично разпределение: повече топки падат точно в средата, но от време на време една от тях достига едно от външните отделения. Това е удобна визуализация на това какво се разбира под случайно разпределение, което е близко до нормалното разпределение.
Ориз. P4. Устройство за демонстриране на нормалното разпределение на случайна променлива. Устройството се държи с главата надолу, докато всички стоманени топки се търкулнат в резервоара. След това устройството се обръща и се държи вертикално, докато топките, преминали през полето с щифтове, се търкалят в 9 колони-прорези в долната част. Точният брой топки във всяка колона ще варира от демо до демо. Въпреки това, средно височината на колоните от мрамори ще следва приблизително нормалното разпределение, като най-високата колона е в центъра, а височините на останалите колони ще намаляват към краищата.
Нормално разпределение (фиг. A5) -това е математическо представяне на идеализирано разпределение, приблизително произведено от устройството, показано на фиг. P4. Нормалното разпределение показва вероятността елементите в група с нормално разпределение да се различават от средната стойност с дадена стойност. В проценти на фиг. P5 показва съотношението на площта, разположена под кривата между посочените стойности на скалата; общата площ под кривата съответства на групата като цяло. Приблизително две трети от всички случаи (68%) попадат между плюс и минус едно стандартно отклонение от средната стойност (±1?); 95% от всички случаи - в интервала ± 2?; и почти всички случаи (99,7%) - в ±3?.
Ориз. P5. Нормална дистрибуция. Кривата на нормалното разпределение може да бъде начертана с помощта на стандартното отклонение и средната стойност. Площта под кривата вляво от -3? и надясно +3?, може да се пренебрегне.
По-подробен списък на площите под частите на кривата на нормалното разпределение е даден в табл. P4.
Таблица P4. Площта на площите под камбановата крива като част от общата площ под нея