Корелация по двойки – Студопедия

Най-развитата в теорията на статистиката е методологията на еднофакторния корелационно-регресионен анализ или двойната корелация, която разглежда влиянието на вариацията на факторния атрибутxвърху резултантнияy.

Най-важната стъпка в изграждането нарегресионен модел (регресионно уравнение) е установяването на съответната математическа функция въз основа на анализа на първоначалната информация. Трудността се състои в това, че от набора от функции е необходимо да се намери такава, която по-добре от другите изразява реалните връзки между анализираните характеристики. Изборът на типа функция може да се основава на теоретични познания за изследваното явление, опита от предишни подобни изследвания или да се извършва чрез емпирично изброяване и оценка на функции от различни видове.

При изучаване на връзката на икономическите показатели се използват различни видове уравнения на праволинейни и криволинейни връзки, вниманието към линейните зависимости се осигурява от факта, че в повечето случаи нелинейните форми за извършване на изчисления чрез вземане на логаритми или промяна на променливи могат да бъдат преобразувани в линейна форма.

Двойното линейно корелационно уравнение има формата (9.1):

Къде са теоретичните стойности на ефективната характеристика, получена от регресионното уравнение;

- коефициенти (параметри) на регресионното уравнение.

Тъй като средната стойност наyе в точкаx=0, нейното икономическо тълкуване често е трудно или дори невъзможно.

Коефициентът на сдвоена линейна регресияa1има значението на индикатор за силата на връзката между вариацията на факторния атрибутxи вариацията на резултантния атрибут. Коефициентът показва средната стойност на промяната в резултантния атрибутy, когато факторният атрибут се промениxс една мерна единица, т.е.yвариация на единицаxвариация. Знакътa1показва посоката на тази промяна.

Параметрите на уравнениетоa0, a1се намират по метода на най-малките квадрати, който се основава на изискването сумите на квадратите на отклоненията на емпиричните данниy1от теоретичните да са минимални (9.2):

За да се намери минимумът на тази функция, нейните частни производни се приравняват на нула и се решава следната система от нормални уравнения (9.3):

Решението на системата ви позволява да определите параметрите на регресионното уравнение. Като цяло параметрите се дефинират както следва (9.4):

В редица случаи е удобно да се изчислят параметрите на регресионното уравнение, като се използват следните формули, които дават същия резултат (9.5) и (9.6):

Изчислените по този начин стойностиa0иa1се заместват в регресионните уравнения.

За практическото използване на регресионните модели е от голямо значение тяхната адекватност, т.е. съответствието с действителните статистически данни. Корелационният и регресионният анализ често се извършват за малка популация. Следователно регресионните и корелационните показатели могат да бъдат изкривени от действието на случайни фактори и е необходимо да се провери адекватността на модела.

Когато броят на обектите на анализ е до 30 единици, става необходимо да се провери значимостта (значимостта) на всеки регресионен коефициент. В същото време се установява до каква степен изчислените параметриxса типични за показване на набор от условия: получените стойности на параметрите резултат ли са от действието на случайни причини.

Значението на коефициентите на проста линейна регресия (по отношение на популации с n

Проверката на адекватността на регресионния модел може да бъде допълненакорелационен анализ. За целта е необходимо да се определи близостта на корелацията между променливите x и y. Тясна корелационна връзка, както всяка друга, може да бъде измереначрез емпирично съотношение на корелация (9.11):

Къде е междугруповата дисперсия на резултантния атрибут, която характеризира отклонението на груповите средни стойности на този атрибут от общата средна стойност.

Говорейки за съотношението на корелация като индикатор за измерване на близостта на зависимостта от емпиричното съотношение на корелация, трябва да разграничим теоретичното.Теоретично съотношение на корелация е относителна стойност, получена чрез сравняване на стандартното отклонение на теоретичните стойности на резултантната характеристика (изчислена чрез регресионното уравнение) със стандартното отклонение на емпиричните (действителни) стойности на резултантната характеристика (9.12), (9.13), (9.14), (9.15):

Тогавае коефициентът на детерминация, който показва дела на вариацията на резултантния признак под влияние на вариацията на признака-фактор.

Теоретичното съотношение на корелация се използва за измерване на близостта на връзката с линейни и криволинейни зависимости между резултантния и факториалния признак. Теоретичното съотношение на корелация често се наричаиндекс на корелация R. Коефициентът на корелация може да варира от 0 до 1, т.е. Колкото по-близко е съотношението на корелация до 1, толкова по-силна е връзката между характеристиките.

Имайте предвид, че при линейната форма на уравнението се използва друг показател за плътността на връзката -коефициент на линейна корелация (9.16):

Къдетоnе броят на наблюденията.

За практически изчисления с малък брой наблюдения е по-удобно да се изчисли коефициентът на линейна корелация по формулата(9.17):

Отрицателните стойности показват обратна връзка, положителните стойности показват директна. Приr=0 няма линейна връзка. Колкото по-близка е абсолютната стойност на коефициента на корелация до 1, толкова по-тясна е линейната връзка между характеристиките. Когато връзката е линейно функционална.

Квадратът на линейния корелационен коефициентr 2се наричалинеен коефициент на детерминация. При оценка на степента на близост на връзката тя напълно съответства на теоретичното съотношение на корелация, което е по-универсален показател за близостта на връзката в сравнение с линейния коефициент на корелация. Фактът, че стойностите на теоретичното съотношение на корелация и коефициента на линейна корелацияrсъвпадат, се използва за оценка на формата на връзката - стойностите на η иrсъвпадат само ако има праволинейна връзка.

Несъответствието между тези стойности показва, че връзката между изследваните характеристики е криволинейна. Установено е, че ако разликата между квадратите η 2 иr2 не надвишава 0,1, тогава хипотезата за праволинейна връзка може да се счита за потвърдена.

Индикаторите за плътността на връзката, изчислени от данните на сравнително малка статистическа съвкупност, могат да бъдат изкривени от действието на случайни променливи. Това налага проверката на тяхната същественост.

За оценка на значимостта на корелационния коефициентrсе използваt-тестът на Стюдънт, който се използва, когатоt-разпределението е различно от нормалното.

С линейна еднофакторна зависимостt-критерият може да се изчисли по формулата (9.19):

gle (n-2) е броят на степените на свобода за дадено ниво на значимост a и размер на извадкатаn.

Получената стойност tcalc се сравнява с табличната стойност на t-теста (за a=0,05 и 0,01). Ако изчислената стойност надвишаватаблична стойност на критерия ttable, тогава е почти невероятно, че намерената стойност се дължи само на случайни флуктуации, т.е. хипотезата за случайност се отхвърля.

След проверка на адекватността на изградения модел (регресионно уравнение), той трябва да бъде анализиран и да бъде дадена икономическа интерпретация на регресионните параметри. На първо място е необходимо да се провери дали знаците на параметрите са в съответствие с теоретичните идеи и съображения за посоката на влияние на атрибута-фактор върху ефективния атрибут. След това трябва да анализирате стойността на параметъраa1. Очевидно за линейна регресия параметърътa1 показва колко абсолютни единици ще се промени резултантният атрибут, когато факторният атрибут се промени с 1. За удобство на интерпретирането на параметъраa1 се използвакоефициентът на еластичност. Той показва с колко процента от средната си стойност ще се промени полученият атрибут, когато факторният атрибут се промени с 1% от средната си стойност и се изчислява по формулата (9.20):

Освен това има смисъл да се изчислят остатъците, характеризиращи отклонението на i-тото наблюдение от стойностите, които трябва да се очакват средно (т.е. в съответствие с регресионното уравнение). Най-голям интерес ще представляват наблюденията с най-големи положителни и отрицателни остатъци.

Пример.Необходими са методи за корелационен и регресионен анализ за оценка на зависимостта на производителността на труда на работниците от техния трудов стаж съгласно следните изходни данни.

Не намерихте това, което търсихте? Използвайте търсачката:

Деактивирайте adBlock! и обновете страницата (F5)наистина е необходимо