Двойна корелация
Практика 7
КОРЕЛАЦИОНЕН АНАЛИЗ
1. Корелация по двойки. 1
2. Множествена корелация. 26
Корелация по двойки
При двойната корелация се установява връзка между два знака, единият от които е факторен, а другият е ефективен. Отношенията между тях могат да бъдат различни. Ето защо е важно правилно да се установи формата на връзката между знаците и в съответствие с това да се избере математическо уравнение, което изразява тази връзка.
Въпросът за формата на комуникация може да бъде решен по няколко начина: на базата на логически анализ, според статистическа групировка или графично. При двойна корелация последният метод е за предпочитане, тъй като ви позволява да идентифицирате не само естеството на връзката, но също така дава представа за степента на връзка.
След като се определи формата на уравнението на ограничението, е необходимо да се намерят числените стойности на неговите параметри. При изчисляване на параметрите се използват различни методи: методът на най-малките квадрати, методът на средните стойности, методът на най-малкото пределно отклонение и др. Най-разпространеният е методът на най-малките квадрати. При използването му се намират такива стойности на параметрите на регресионното уравнение, при които сумата от квадратните отклонения на действителните данни от изчислените е минимална:
,
къдетоyе действителната стойност на резултантната характеристика;
- изчислената стойност на ефективната характеристика.
За да направите това, решете система от нормални уравнения, които са конструирани по следния начин.
Помислете как се получава системата от нормални уравнения за уравнението на линейната регресия.
В това уравнение коефициентът за първото неизвестноа0 е равен на 1. Следователно първоначалното уравнение следумножението запазва същата форма:
,
и след сумиране
.
Коефициентът за второто неизвестноa1 е равен наx.Умножавайки по него всички членове на първоначалното уравнение, получаваме:
,
и след сумиране
.
Стойностите, , и се изчисляват от данни от наблюдения, а неизвестните параметриa0 иa1 - чрез решаване на системата от уравнения:
Правилата за получаване на система от нормални уравнения се прилагат за всички видове регресионни уравнения. След като се определят параметрите на регресионното уравнение, е необходимо да се оцени, т.е. да се провери доколко то съответства на изследваната популация и колко тясно ефективната характеристика е свързана с фактора, който определя нейното ниво. За да направите това, сравнете вариацията в стойностите на резултантния атрибут, изчислен от регресионното уравнение, т.е. в зависимост от знака на фактора, с вариацията в действителните (първоначални) стойности на резултантния знак. Колкото по-близо е първата вариация до втората, толкова повече регресионното уравнение отразява връзката между характеристиките, толкова по-тясно са свързани те.
Индикатор, който характеризира съотношението на вариациите в изчислените и първоначалните стойности на получения атрибут, се нарича индекс на корелация. Изчислява се по формулата:
,
къдетоIе корелационният индекс;
- обща дисперсия на получената характеристика (среден квадрат на отклоненията на действителните стойностиyот средната);
- факторна дисперсия на получената характеристика, изчислена чрез уравнението на регресията (среден квадрат на отклоненията на изчислените стойности от средната стойност);
n– размер на популацията.
Индексът на корелация варира от 0 до 1. Той показва, че колкото по-близка е стойността му до 1, толкова по-силна е връзката между характеристиките и толкова по-добререгресионното уравнение описва връзката между характеристиките. Когато индексът на корелация е равен на 1, връзката между характеристиките е функционална.
Тъй като вариацията на фактора показва вариацията на резултантния атрибут, в зависимост от атрибута на фактора, е възможно да се изчисли остатъчната вариация, показваща вариацията на други фактори, които не са взети под внимание. Тя е равна на разликата между общите и факторните дисперсии:
,
където е остатъчната дисперсия.
Остатъчната вариация показва промяната на действителните стойности на получения атрибут спрямо изчислените стойности, т.е. колебанията на действителните стойности спрямо линията на регресия. Колкото по-малка е тази флуктуация, толкова повече регресионното уравнение отразява връзката между знаците.
Формулата за корелационния индекс, изчислен на базата на остатъчната и общата дисперсия, е:
.
За линейната регресия индексът на корелация се нарича корелационен коефициент. Неговата формула за двойна корелация след трансформация е:
,
къдетоrе коефициентът на корелация;
- средни стойности на факторни и ефективни признаци;
- средната стойност на продуктите на факторните и ефективните характеристики;
- средни квадратични отклонения на факторните и ефективните признаци.
За разлика от индекса на корелация, коефициентът на корелация показва не само близостта на връзката, но и нейната посока, тъй като тя варира от -1 до +1. Ако коефициентът на корелация е положителен, тогава връзката между характеристиките е пряка (правопропорционална), ако е отрицателна, тогава връзката е обратна (обратно пропорционална).
Квадратите на индекса на корелация и коефициента на корелация се наричат съответно индекс на определяне (I2 ) икоефициент на определяне (r2). Индексът на детерминация и коефициентът на детерминация показват каква част от общата вариация на резултантния признак се определя от изследвания фактор.
Тъй като надеждността на изучаването на връзките до голяма степен зависи от количеството сравнявани данни, е необходимо да се измери значимостта на полученото регресионно уравнение и индекса (коефициента) на корелация. Корелационните показатели, изчислени за ограничена популация, могат да бъдат изкривени от действието на случайни фактори.
Значимостта на индекса (коефициента) на корелацията и, следователно, на цялото регресионно уравнение може да се оцени с помощта на дисперсионен анализ (F-тест на Фишер). В този случай факторните и остатъчните дисперсии се сравняват, като се вземе предвид броят на степените на свобода на вариация.F-критерият в този случай се изчислява по формулата:
,
където е дисперсията на извадковия фактор;
- остатъчна вариация на пробата;
n– размер на извадката;
k– брой параметри в регресионното уравнение.
Стойността наF-критерия може също да бъде получена с помощта на стойностите на индекса или коефициента на корелация:
; .
Получената стойност на F-критерия се сравнява с табличната стойност. В същото време за факторна дисперсия броят на степените на свобода на вариация е , а за остатъчната дисперсия, ако действителната стойност наF-критерия е по-голяма от табличната, следователно връзката между характеристиките е надеждна и регресионното уравнение отразява напълно тази връзка. Ако действителната стойност наF-критерия е по-малка от стойността на таблицата, тогава можем да заключим, че връзката между характеристиките е случайна.
За да се оцени значимостта на индекса (коефициента) на корелационните и регресионните уравнения, те също използватt-тест на Стюдънт, който за големи извадки се изчислява по формулите:
За малки проби формулите изглеждат така:
Също така, както при анализа на дисперсията, действителната стойност наt-критерия се сравнява с табличния, като се вземе предвид броят на степените на свобода на вариацияn = n - k.Ако действителната стойност наt-критерия е по-голяма от табличната, тогава връзката е значима, ако е по-малка, тогава връзката е незначима.
Помислете за метода на корелационния анализ за двойна корелация.
Пример 1. На базата на пробни данни е получена информация за средната годишна млечност на кравите и консумацията на фураж на глава (Таблица 7.1).