Тема 12 Корелационен анализ
Както знаете, за описание на връзките между променливите се използва математическата концепция на функциятаf, която свързва всяка конкретна стойност на независимата променливаxс конкретна стойност на зависимата променливаy, т.е. . Такива недвусмислени зависимости между променливитеxиyсе наричат функционални. Такива връзки обаче не винаги се срещат в природни обекти. Следователно връзката между биологичните, а също и екологичните черти няма функционален, а статистически характер, когато в масата от хомогенни индивиди определена стойност на една черта, разглеждана като аргумент, съответства не на същата числена стойност, а на цяла гама от числени стойности, разпределени в вариационна серия на друга черта, разглеждана като зависима променлива или функция. Този вид зависимост между променливите се наричакорелацияиликорелация..
Функционалните връзки са лесни за откриване и измерване на единични и групови обекти, но това не може да се направи с корелации, които могат да бъдат изследвани само на групови обекти с помощта на методи на математическа статистика. Корелационната връзка между характеристиките може да бъде линейна и нелинейна, положителна и отрицателна. Задачата на корелационния анализ се свежда до установяване на посоката и формата на връзката между различни характеристики, измерване на нейната плътност и накрая до проверка на надеждността на примерните показатели за корелация.
Връзката между променливитеXиYможе да бъде изразена аналитично (чрез формули и уравнения) и графично (като геометрично място на точки в правоъгълна координатна система). Корелационният график се изгражда съгласно уравнениетофункция или което се наричарегресия. Тук и са намерени средни аритметични стойности при условие, чеXилиYприемат някои стойностиxилиy. Тези средни стойности се наричат условни.
11.1. Параметрични показатели на комуникацията
Коефициент на корелация. Конюгирането между променливитеxиyможе да се установи чрез сравняване на числените стойности на една от тях със съответните стойности на другата. Ако увеличението на една променлива увеличава друга, това показваположителна връзкамежду тези стойности и обратното, когато увеличението на една променлива е придружено от намаляване на стойността на друга, това показваотрицателна връзка.
За да се характеризира връзката, нейната посока и степента на конюгиране на променливите, се използват следните показатели:
линейна зависимост -коефициент на корелация;
нелинейни –коефициент на корелация.
За определяне на емпиричния коефициент на корелация се използва следната формула:
. (1)
Коефициентът на корелация може да се изчисли, без да се прибягва до изчисляването на стандартните отклонения, което опростява изчислителната работа, като се използва следната подобна формула:
. (2)
Коефициентът на корелация е безразмерно число в диапазона от –1 до +1. При независима промяна на знаците, когато връзката между тях напълно отсъства, . Колкото по-силна е случайността между характеристиките, толкова по-висока е стойността на коефициента на корелация. Следователно този показател характеризира не само наличието, но и степента на конюгиране между знаците. При положителна или пряка връзка, когато големи стойности на един атрибут съответстват на големи стойности на другия, коефициентът на корелация има положителен знак и е вв диапазона от 0 до +1, с отрицателна или обратна връзка, когато големите стойности на една характеристика съответстват на по-малки стойности на другата, коефициентът на корелация е придружен от отрицателен знак и варира от 0 до –1.
Коефициентът на корелация намери широко приложение в практиката, но не е универсален показател за корелации, тъй като е в състояние да характеризира само линейни зависимости, т.е. изразено чрез уравнение на линейна регресия (вижте тема 12). При наличие на нелинейна връзка между вариращите признаци се използват други индикатори за връзката, разгледани по-долу.
Изчисляване на коефициента на корелация. Това изчисление се извършва по различни начини и по различен начин в зависимост от броя на наблюденията (размера на извадката). Нека разгледаме поотделно спецификата на изчисляване на коефициента на корелация при наличие на малки проби и големи проби.
Малки мостри. При наличие на малки извадки, коефициентът на корелация се изчислява директно от стойностите на конюгирани характеристики, без предварително групиране на пробни данни в вариационни серии. За целта се използват горните формули (1) и (2). По-удобни, особено при наличието на многозначни и дробни числа, които изразяват отклоненията на опциятаxiиyiот средното и са следните работещи формули:
, (3)
Където ;
;
.
Тукxiиyiса сдвоени варианти на спрегнати характеристикиxиy; и – средни аритметични стойности – разлика между сдвоени варианти на спрегнати признациxиy;nе общият брой сдвоени наблюдения или размерът на извадката.
Емпиричният коефициент на корелация, както всеки друг извадков показател, служи за оценка на неговатаобщ параметърρи като произволна стойност се придружава от грешка:
. (4)
Съотношението на коефициента на корелация на извадката към нейната грешка служи като критерий за проверка на нулевата хипотеза - предположението, че в генералната съвкупност този параметър е равен на нула, т.е. . Нулевата хипотеза се отхвърля при приетото ниво на значимостαако
. (5)
Стойностите на критичните точкиtstза различните нива на значимост α и броя на степените на свобода са дадени в таблица 1 от приложението.
Установено е, че при обработка на малки извадки (особено когатоn 0,5, извадковото разпределение на корелационния коефициент за по-голям брой малки извадки, взети от нормално разпределена генерална съвкупност, се отклонява значително от нормалната крива.
Имайки предвид това обстоятелство,R. Fisherнамери по-точен начин за оценка на общия параметър от стойността на коефициента на корелация на извадката. Този метод се свежда до замяна наRxyс трансформираната z стойност, която е свързана с емпиричния корелационен коефициент, както следва:
. (7)
Разпределението на стойността на z е почти непроменено по форма, тъй като не зависи много от размера на извадката и от стойността на корелационния коефициент в генералната съвкупност и се доближава до нормално разпределение.
Критерият за надеждност на показателя z е следното съотношение:
. (7)
Нулевата хипотеза се отхвърля при приетото ниво на значимостαи броя на степените на свобода. Стойностите на критичните точкиtstса дадени в Таблица 1 на Приложението.
Използването наz-преобразуванепозволява да се оцени с по-голяма увереност статистическата значимост на корелационния коефициент на извадката, както и разликата между емпиричнитекоефициенти, когато е необходимо.
Минимален размер на извадката за точна оценка на коефициента на корелация.Можете да изчислите размера на извадката за дадена стойност на коефициента на корелация, което би било достатъчно, за да опровергае нулевата хипотеза (ако корелацията между признацитеYиXнаистина съществува). За целта се използва следната формула:
, (8)
къдетоnе желаният размер на извадката;tе стойността, определена според приетото ниво на значимост (по-добро за α = 1%);z– трансформиран емпиричен корелационен коефициент.
Голяма селекция. При наличието на многобройни първоначални данни, те трябва да бъдат групирани в вариационни серии и, след като са изградили корелационна решетка, разликата в нейните клетки (клетки) е общата честота на конюгатните серии. Корелационната решетка се формира от пресичането на редове и колони, чийто брой е равен на броя на групите или класовете на корелирани серии. Класовете са разположени в горния ред и в първата (лява) колона на корелационната таблица, а общите честоти, означени със символаfxy, са в клетките на корелационната мрежа, която съставлява основната част на корелационната таблица.
Класовете, поставени в горния ред на таблицата, обикновено са подредени отляво надясно във възходящ ред, а в първата колона на таблицата - отгоре надолу в низходящ ред. При такова подреждане на класове вариационни серии, техните общи честоти (ако има положителна връзка между признацитеYиX) ще бъдат разпределени по клетките на мрежата под формата на елипса диагонално от долния ляв ъгъл към горния десен ъгъл на мрежата или (ако има отрицателна връзка между характеристиките) в посока от горния ляв ъгъл към долния десен ъгъл на мрежата. Ако честотитеfxyса разпределени по клеткитекорелационната мрежа повече или по-малко равномерно, без да образува елипса, това ще покаже липса на корелация между характеристиките.
Разпределението на честотитеfxyвърху клетките на корелационната мрежа дава само обща представа за наличието или отсъствието на връзка между характеристиките. За да прецените плътността или по-малко точно само по стойността и знакакоефициент на корелация. Когато се изчислява коефициентът на корелация от предварително групиране на извадкови данни в интервални вариационни серии, не трябва да се вземат твърде широки интервали на класа. Грубото групиране има много по-силен ефект върху стойността на корелационния коефициент, отколкото при изчисляване на средни стойности и показатели за вариация.
Спомнете си, че стойността на класовия интервал се определя от формулата
, (9)
къдетоxmax,xminса опциите за максимална и минимална популация;K– броят класове, на които трябва да бъде разделена вариацията на функцията. Опитът показва, че в областта на корелационния анализ стойносттаKможе да бъде поставена в зависимост от размера на извадката приблизително както следва (Таблица 1).