Методология на статистическите групировки - Библиотека Български учебници по статистика

Научното статистическо групиране се предшества от теоретико-икономически анализ на изследваното явление, като в същото време използването на съвременни статистически методи дава възможност да се определи количествено степента на хомогенност на обособените групи, да се изберат съществени групови признаци и да се подобри методът за определяне на размера на интервалите за групите.

Изборът на функции за групиране зависи от решението за създаване на групи. Групирането по атрибут е ограничено от броя на стойностите на атрибута. Например броят на спортните коне може да се раздели само на толкова групи според породния състав, колкото реално има такива породи.

След избора на групови характеристики възниква въпросът за броя на групите, в които ще бъде разпределена изследваната съвкупност, и границите на групите. Решението на този въпрос зависи от конкретните условия и задачи.

На този етап се задават стойността и границите на всеки интервал. Тъй като характерът на действително съществуващите агрегати и тяхното разпределение са много разнообразни, съществуват различни методологични подходи за решаване на проблема с броя на групите. Общият принцип, от който трябва да се изхожда, е естеството на материала и размера на изследваната популация. Характерните особености на разпределението не се разкриват, ако при малък брой наблюдателни единици се приеме голям или твърде малък брой групи. Има различни подходи към този въпрос. Помислете за тях.

атрибутът за групиране може да се променя дискретно, тоест непрекъснато и непрекъснато. Ако променливостта на черта е дискретна, броят на групите в серията вариации обикновено се определя от броя на тези дискретни x стойности (ако няма много от тях). Например групиране на предприятия според наличието на производствобригади - 1,2,3 и т.н. Д.

С променливостта на знак с непрекъснат характер се обръща внимание на класираните серии. Ако нарастването на нивата на груповия признак става с плавни преходи, предпочитание се дава на равни интервали. В случай на спазматични промени в груповите характеристики, групите се изграждат на неравномерни интервали. Границите в такива случаи се определят, като правило, в точки на резки преходи.

Така в процеса на групиране по количествен признак се образуват равни или неравни интервали за ограничаване на отделните групи.

Въпросът за определяне на броя на групите при условия на относително постепенни промени в груповите характеристики (в класирана серия) може да бъде решен с помощта на различни методически подходи.

Приблизително броят на интервалите (групите) може да се определи чрез извличане на корен квадратен от обема на изследваната популация. В този случай броят на интервалите не трябва да бъде по-малък от 5 и повече от 20. Така че, при размер на извадката от 50 единици за наблюдение, броят

интервали е 7^L^50)

Ако популацията е малка по обем, интервалната серия се изгражда така, че 25% от единиците на популацията да попадат в крайните групи (първа и трета) и 50% средно. В този случай групирането на склада се състои от три неравни интервала. Например ще бъде разпределен набор от 28 предприятия: I група - 7 единици, II - 14, III - 7 единици.

Определянето на броя на предложените групи. Sturgess, се състои в изчисляване по формулата: ^"" = 1 3,3221 § *, където е броят на групите (интервали);nе размерът на популацията. Прилагайки тази формула, ще имаме популации от 10-100 единици в 4-7 групи: 100-1000 единици - 710; 1000-10000 - 12-14 групи. Както можете да видите, относителното увеличение на броя на групите с - настъпва увеличение на съвкупносттамного интензивно в диапазона 10-100 единици и се забавя в диапазона 100-1000 единици. Почти няма такъв ръст в диапазона от 100010000 клона опаковка.

Трябва да се отбележи, че подходът е доста формален и опасен, което освобождава от възможността за икономическо мислене. В края на краищата, условно обобщавайки всяко своеобразно емпирично разпределение под един тип, без да го вземаме предвид. Никаква уникалност на конкретни колекции не е възможна.

Препоръките трябва да се считат за успешни. V.P.Levinsky, който предлага оригинални стандарти за броя на интервалите, поради

обеми на изследваната популация (Таблица 6)

_. Препоръчителен брой групи за различен брой наблюдения_

Брой единици за наблюдение

Препоръчителен брой интервали (групи)

Ако броят на единиците за наблюдение е до 40, броят на интервалите ще бъде 3 или 5. Разпределението на съвкупността на 4 групи е нежелателно, тъй като в този случай се губи средната група (интервал).

Предимство на препоръката. В. П. Левински в сравнение с препоръката. Стърджис е, че тя не свързва толкова тясно броя на групите с броя на единиците за наблюдение. И в този случай на изследователя ще бъде дадена възможност да избере броя на групите в зависимост от естеството на населението. В икономическите изследвания най-често срещаният размер на популацията е 100-500 единици. Според формулата. Броят на групите на Sturges е 7-10, както се препоръчва. VP Levinsky - от 10 до 17 игра 17 групи.

Трябва да се помни, че броят на избраните интервали (групи) зависи от броя на груповите характеристики: колкото по-голям е той, толкова повече групи трябва да се формират. Също така е необходимо да се опитаме да гарантираме, че разпределените групи са попълнени с останалите единици за наблюдение. Наличностнезапълнени интервали или попадащи в тях само отделни единици от съвкупността - резултат от факта, че интервалите са неудачно избрани, броят им е взет, направо казано, излишен. Наличието на малки интервали (групи) има право да съществува само по краищата на групирането, където характеристиките както на напреднали, така и на изоставащи показатели са концентрирани по размер спрямо средното ниво. Това важи особено за структурните групи. Броят на групите тук трябва да е достатъчно голям, достатъчно малък. В първия случай съществува риск да се изгубите в дреболии, във втория случай няма проява на достатъчно важни свойства на изследваната популация. Оптималният брой интервали ви позволява да разкриете всички съществени характеристики на изследваната популация на плътност.

Така че, ако проблемът с определянето на броя на групите, на които наборът ще бъде разделен, е разрешен, изходните опции се подреждат в класирана серия според характеристиките на групата. При липса на усложняване на ситуацията, avins, т.е. наличието на еднакво постепенни промени във факторния признак, прост начин за определяне на размера на интервала при конструиране на равни интервали е съотношението:

къдетоі- стойността на интервала x max и x тип - съответно максималните и минималните опции; n - определен брой групи (интервали)

В случаите, когато малка част от популацията е значително отстранена от размера на групиращия атрибут от популацията на основния масив, x max се приема като максимален вариант на основния масив

Има препоръки за задаване на стойността на интервала на групиране с някои изменения на предишната формула. В това

случай, формулата приема формата:

В случаите, когато максималните и минималните стойности в диапазонираната серия от групови характеристики се различават значително от останалитеиндикатори, според x max се взема съседната следваща стойност на атрибута x max 1, а за x type, съседната му предишна стойност x type-1.

В някои случаи първоначалната стойност на интервала на групиране се дава от

-=n

изследовател, а броят на групите в този случай е производна, тоест: 1

Ако изчислената стойност на равния интервал е

дробно число, то се закръгля до цяло число, по този начин

разширяване на границите, които покриват диапазона на

стойности на групиращи характеристики

Наличие на зададен брой интервали и стойност на интервала

определят границите на интервали (групи). И така, долните граници на първата

интервал (l 1) е зададен на минималната опция (тип x)

Горната граница на този интервал ( L 2 ) е равна на (x тип d). Долната граница на втория интервал съответства (условно) на горната граница на първия интервал (и горната граница на втория интервал (* 3 ) е равна на ( x 2 + ') и т.н. При определяне на границите на интервали (групи) трябва да се помни, че горната граница винаги е по-малка от долната граница на следващия интервал с цената на разделяне, т.е.

. Пример. Данните за средната дневна работна заплата на 57 предприятия са групирани, образувайки групи на равни интервали

Изходни данни: 29,3; 31,0; 21,5; 21,4; 28,3; 35,7; 37,6; 19,8; 23,8; 21,6; 32.8, 27 9.6; 21.1; 26.3; 21,5; 27,5; 295; 24.3; 21.3; 30,4; 30,4;

39,5; 25,8; 26,6; 24,4; 32,3; 26,6; 25,9; 32,8; 29.3; 32,3; 25,3; 32,6;

Поставяйки опциите в класиран ред, имаме: 16.5; 19.3; 19,8;

Стъпката на интервала е:

Закръглявайки до цели числа, изчисляваме долната и горната граница на интервалите: 1 - 16 4 - 20 (т.е. 16-20); II - 20 4 (т.е. 20-24) и т.н.

Изграждане на оформление на групирана таблицачестотно разпределение на резултатите от наблюдението (Таблица 7)

. Групиране на предприятия пониводневна заплата_

Групи предприятия по ниво на заплата, UAH

Серията от двойки числа, дадена в таблицата, представлява емпиричното разпределение на честотите, "- според стойностите на x, -

Сумата от честотите е равна на размера на извадката

Теорията на групите изисква получаване на изчерпателно описание на изследваното явление или неговите видове. Възможно е да се отделят и характеризират видове само при условие на предварително теоретично покритие на факторите, с комбинация от статистически методи за обобщение с теоретичните положения на науките, изучаващи това явление.

Едно от основните положения на теорията на групите е изборът от цялото разнообразие от връзки на основния процес, който определя всички други промени в явлението и води до качествени трансформации.

На следващия етап от теоретичното обосноваване се изяснява какви нови качествени промени ще настъпят в хода на развитието на този процес, тоест какви нови видове това явление се проявяват и се разкриват техните най-съществени характеристики.

Горното дава основание да се твърди, че практическото приложение на метода на статистическото групиране се предшества от задълбочен теоретичен анализ на факторите, определяне на основната посока в развитието на изследваното явление и избор на отделни групи от единици, принадлежащи към различни видове от сложен набор.

Но тук трябва да се отбележи, че предишното теоретично изследване на данните в групировките не е догма и не означава, че методът на групиране играе определен технически, т.е. пасив, роля в анализа. Това е грешно. Wik за използване на статистически групи ви позволява да получите количествена характеристикасъстоянието на изследваните явления, разкриват качествени трансформации, тестват хипотези относно посоката на развитие на явлението и по този начин обогатяват теорията на поставения за изследване въпрос.

По този начин методът на статистическото групиране дава обективни резултати при анализа само при условия, когато за избраните групи се изчислява комплекс от най-значимите статистически показатели, героите изучават основните аспекти и връзки на изследваните явления. Изборът на показатели се извършва, като се вземат предвид теоретичните положения на отделните науки, разкриващи качествените характеристики на същността на изследваните процеси, както и като се вземат предвид изискванията на статистическата наука, изисква наличието на достатъчно голям брой единици за наблюдение в групи и използването на най-значимата форма на показатели. Важен момент в практическото използване на резултатите от групите трябва да се счита процесът на тяхната проверка за надеждност. Този въпрос изисква подробно разглеждане отделно.

В началния етап от прилагането на статистически групировки се проверяват "съмнителни" опции за тяхната принадлежност към серия на разпределение. За тази цел се използва t-тестът. Така че, преди да се изчисли стойността на равния интервал, екстремните варианти на класираната серия на разпределение се оценяват предварително за тяхната принадлежност към последната. Критерият за принадлежност на съмнителни опции към изследваната популация е стандартизираното отклонение на стойностите на съмнителните опции (като правило това са минималните и максималните опции и близките до тях) от средната стойност. Размерът на отклонението на стенда не трябва да надвишава числото 3, т.е. тогава:

където m е критерият за принадлежност; . Chi - максималните и минималните стойности на атрибута за групиране; в * - стандартно отклонение

Нека разгледаме изчисляването на посочения критерий на примера на примерен набор от показатели на средната дневна заплата, даден по-горе, 8 ще определим принадлежността на максималните (42,7) и минималните (16,5) варианти на този набор (Таблица 8). Съгласно работен лист 8 се изчислява x i в *

. Изчисляване на r - критерий за примерен набор от показатели на ден