4.2.3. Интервална скала
Измерванията на интервални и пропорционални нива рядко се анализират с директно посочване на честоти или проценти. За разлика от номиналните или ранговите измервания, стойностите на променливите се измерват с помощта на интервал
Критериите за централната тенденция за пропорционални и интервални нива на измерване са режим, медиана и средно аритметично. Средната аритметична стойност е сумата от стойностите на променлива, разделена на броя на стойностите. Общата формула за алгебричното му изчисляване е следната
където X/ е числовата стойност на /та позиция, а N е общият брой наблюдения (размер на извадката).
Нека разгледаме изчисляването на средната аритметична стойност, като използваме примера за изчисляване на средната посещаемост на часовете в студентска група според проверките на деканата. Данните за посещаемостта са дадени в табл. 4.7.
Като съберем числата в дясната колона и ги разделим на 10 (броя на проверките), получаваме, че средната посещаемост в групата е х = 18,6.
Ясно е, че полученото число - 18,6 ученици - не може да има реален физически смисъл, то е подходящо само за сравнение на нивото на посещаемост в две или повече групи. Въпреки че за тази цел получените средни стойности трябва първо да се нормализират, като се разделят на общия брой ученици във всяка група.
Средната стойност може да бъде подвеждащ индикатор за централна тенденция, ако се появи някаква екстремна стойност сред стойностите на променливата, която ни интересува в размера на извадката. Например, средният месечен доход на глава от населението на семейства в две хипотетични общности (да речем, сред жителите на два входа на една къща, всеки от които има 10
тире) са идентични, с изключение на доходите на едно семейство (Таблица 4.8). Среден семеен доход на глава от населението1-ви вход — 4230 рубли. - повече от два пъти средния доход на глава от населението във 2-ри вход - 2050 рубли. Именно пресмятането на средния доход във всеки един от входовете създава погрешното впечатление, че хората от 1-ви вход са два пъти по-богати от хората от 2-ри вход, а в действителност в 1-ви вход има само едно семейство, което е много по-богато от всяко семейство от двата входа. В този случай медианата ще бъде по-добър индикатор за централната тенденция от средната стойност. Средният подход ще даде същия резултат и за двата входа: 2100 рубли. - доста близо до средната стойност за 2-ри вход. Ако средната стойност и медианата не са сходни по стойност, може да се заключи, че стойността на средната стойност се влияе от една или повече екстремни стойности на измерваната променлива.
Таблица 4.7 Посещаемост на занятията от студенти от академичната група Номер на урока Брой присъстващи 1 17 2 21 3 18 4 14 5 20 Номер на урока Брой присъстващи 6 20 7 16 8 17 9 21 10 22 Източник: Хипотетични данни.
Таблица 4.8 Среден месечен доход на глава от населението на семейства в два входа на къщата (в рубли) Номер на апартамент 1-ви вход Номер на апартамент 2-ри вход 1 1000 11 1000 2 1000 12 1000 3 1000 13 1200 4 1800 14 1800 5 2000 6 2200 16 2200 7 2500 17 2500 8 2800 18 2800 3000 19,3000 10 25 000 20 3000 MIDE 2050 2050 2050 2050 2050 2050 2050 2050 ADP Риметични стойности за променливи, чиито стойности са измерено не еднозначно определени числа, а промяна в непрекъснатата поредица от значения, има свои собствени характеристики. Тук се изчислява не средноаритметичното, а среднопретегленото. Да предположим, че трябва да изчислим средната възраст на респондентите (Таблица 4.9).
Първо трябва да определим средата на всеки интервал; това се прави чрез изчисляване на проста средна стойност, т.е. сбор от екстремни стойностисе разделя наполовина. След това е необходимо тази стойност да се умножи по броя на респондентите на съответната възраст, да се сумират получените продукти и да се раздели на общия размер на извадката (виж таблица 4.9a).
Таблица 4.9a Резултат от 2-ри етап на изчисляване на средната възраст Възраст, години Честота Интервал среден Продукт 18-24 46 21966 25-29 55 27 1485 30-39 97 34.5 3346.5 40-49 115 44.5 5117.5 50-59 74 54. 5 4 033 60-70 70 65 4550 Общо 457 I 19 498 Източник: Хипотетични данни.
Разделяйки получената сума на 457, получаваме средната възраст от 42,6 години. Така формулата за среднопретеглената стойност изглежда подобна на връзката (4.1), като се има предвид, че X/ тук се отнася до средата на интервала:
Мерките за разсейване за интервални или пропорционални данни включват средно отклонение, дисперсия и стандартно отклонение. Средното отклонение (MD) е мярка за дисперсия въз основа на отклонението на всяка стойност от средната стойност. По-долу е даден пример за изчисляването му, по данни от табл. 4.10.
Разпределение, отклонение и средно разпределение на доходите между жителите на вход № 2 Номер на апартамент 2 вход х-х \х-х\ 11 1000 -1050 1050 12 1000 -1050 1050 13 1200 -850 850 14 1800 -150 150 15 2000 -50 50 1 6 2200 50 50 17 2500 450 450 18 2800 750 750 19 3000 950 950 20 3000 950 950 Средно 2050 S(x-x)=0 Така че уравнението за средното отклонение е:
където е символът на абсолютната стойност (модул).
Ако вземем всяка оценка и извадим средната стойност от нея, изчисляваме сумата, с която всяка от оценките (втора колона) се различава от средната стойност (долната клетка на втората колона). Сумата от тези отклонения винаги е нула, важно математическо свойство на средната стойност (проверете го сами, като добавитечисла в третата колона). Тъй като се интересуваме само от големината на отклонението, а не от неговата посока или знак, намираме абсолютните стойности на отклонението (четвърта колона). Тогава ние 205
вземаме тяхната сума и разделяме на броя на оценките, за да намерим средното отклонение на оценките от средната стойност; получаваме MD = 630. Колкото по-голямо е средното отклонение, толкова по-голямо е разпространението на оценките около средното.
Въпреки че стандартното отклонение разкрива разсейването, дисперсията и стандартното отклонение се използват по-често за измерването му.
Дисперсията е сумата от квадратните отклонения от средната стойност, разделена на броя на отметките:
Стандартното отклонение е корен квадратен от дисперсията:
Колкото по-голямо е разсейването на данните около средната стойност, толкова по-високи са стойностите на st2 и S. Това означава, че ако всички данни са еднакви, тогава s2 и H са равни на нула.
По този начин, за да се изчисли дисперсията и стандартното отклонение, трябва да се премине през седем етапа последователно:
1) изчислете средната стойност;
2) изчисляване на разликите между средната и всяка от стойностите;
3) повдигнете на квадрат разликите, изчислени в стъпка 2;
4) умножете квадратите на разликите по честотите на наблюдение на всяка от стойностите;
5) сумирайте разликите на квадрат, изчислени в стъпка 4;
6) разделете сумата от квадратите, получени в стъпка 5, на N; това е равно на дисперсията;
7) извадете корен квадратен от числото, изчислено в стъпка 6; това е равно на стандартното отклонение.
респондентът е помолен да изрази отношението си към качеството, което представлява интерес за изследователя, въз основа на набор от биполярни скали (в нашия случай деветбални скали). Едно от качествата, предложени за оценка на кмета – достъпност, е изразено със следната скала: достъпен 98 7 6 5 4 3 2 1непревземаем Резултатите от проучването са разпределени както следва:
Разпределение на оценките за качество „достъпност” Оценка за оценка Честота Без отговор 58 1 7 2 11 3 40 4 46 5 108 6 51 7 55 8 24 9 26 Общо 426 Отхвърляне на нули (Таблица 4.11), т.е. опции „без отговор“ (след което спира на 368), изчисляваме, че средната стойност на резултата (използвайки формулата за среднопретеглена стойност) е:
Нека обърнем внимание: ако не сме изхвърлили стойността „няма отговор“, т.е. приемем тази позиция като нула като математическа стойност, тогава ще получим средната стойност:
тези. много по-малко от изчисленото от нас. В математически смисъл е по-точен, но изкривява социологическия смисъл, тъй като тези, които не са дали отговор, изобщо не са дали оценка „0“, те просто не са дали никаква оценка.
Изчисляваме отклонението от средната стойност и квадрата на отклонението от средната стойност за всеки резултат (Таблица 4.12).
207 Примерна таблица за изчисление 4.12 8 2.6 162.24 9 3.6 336.96 Събирайки числата в най-дясната колона, получаваме:
Какво дава знанието за дисперсията за анализ на данни? Припомнете си, че "дисперсия" на английски означава "разпръскване, разсейване"; в този случай това е дисперсията на действително получените емпирични данни около средната стойност. В зависимост от това колко голяма (по-точно малка) е дисперсията или стандартното отклонение, можем да съдим колко единодушни са били респондентите в оценките си (с по-малка дисперсия) или обратното, колко силно не са съгласни в мненията си (с по-голяма дисперсия)19. Нека сравним например разпространението на оценките (по петобална скала: от 5 - много важно, до 1 -затруднявам се да отговоря), което в хода на изследването на характеристиките на сексуалното поведение е дадено от респондентите на степента на влияние върху тяхното "сексуално възпитание" на различни източници на информация (Таблица 4.13):
Оценка на степента на влияние на различни източници върху информираността за сферата на интимните отношения (в средни стойности по 5-степенна скала)
От тази таблица, в допълнение към информацията, че максималното влияние върху информираността за най-интимните аспекти на живота се оказва от сексуалния партньор, а най-малкото от учителите, научаваме също, че с най-голямо единодушие респондентите оценяват ниската степен на влияние на такъв източник като учителите, както се вижда от минималната стойност на стандартното отклонение, а най-голямото несъответствие в оценките е причинено от такъв източник като съпруг, максималната стойност на S (което е вероятно поради големи различия в индивидуалния опит).