фалшива корелация

Когато стойността на коефициента на корелация се определя предимно от метода на избор на опция в извадката, а не от реалната връзка между изследваните признаци, тогава се говори за "фалшива корелация".

Стойността на коефициента на корелация зависи от удължението на елипсата на разсейване: колкото повече дължината на главната ос на елипсата се различава от напречното сечение, толкова по-висока е стойността на коефициента. Случайни единични и още повече сдвоени стойности могат драстично да увеличат показателя за силата на връзката на характеристиките. Коефициентът на корелация е особено чувствителен към нули, които могат да попаднат в оригиналната матрица при прехвърляне на данни между електронни таблици.

Феноменът на фалшивата корелация възниква и когато изследваните показатели имат обща постоянна стойност, например 100%. Нека разгледаме съотношението на броя на гризачите и насекомоядните в различните биотопи (Таблица 14). Представителите както на първия, така и на втория ред са по-често срещани в първичните иглолистни гори, отколкото в антропогенните местообитания, особено в агроценозите. Синхронността на реакцията им към трансформацията на ландшафта се изразява с високия корелационен коефициент на техния бройr= 0.85.

Ако оценим връзката между дела на гризачите (Рr= Nr/Nо) и дела на земеровки (Рb= Nb/No) в тези местообитания (между индексите на доминиране), то ще бъдеr= −1.00. Факт е, че тези показатели се изчисляват спрямо общото количество, така че делът на полевки е разликата между 1 и дела на земеровки:Pg=1−Pb. По същество имаме строго функционално обратно регресионно уравнение (y =11∙x), което естествено съответства на максималния отрицателен корелационен коефициент. Изискването за неизменност на сумата от два показателя (1 или 100%), приети за изчисляване на проценти,се оказва причина за постоянната обратна пропорция между тези показатели. Такава корелация трябва да се нарече невярна, тъй като тя характеризира не биологичната зависимост на показателите, а начина, по който се изчисляват. Когато общата сума се формира от три или повече характеристики, фалшивата корелация ще се различава отr=−1, но това няма да загуби естеството си на математически артефакт.

Когато се обработват масиви от данни с голям брой производни признаци (индекси на доминиране на вида в общността, морфофизиологични показатели), е лесно да се пропусне друг тип фалшива корелация, която се наблюдава между два признака, приписани на обща трета променлива. По непредпазливост коефициентите на връзка между показателите могат да се възприемат като оценка на зависимостта между признаците. Такива корелации, несъзнателно предизвикани от третия фактор, по същество са неверни.

Разбира се, може да се даде смислена интерпретация както на корелациите на характеристиките, така и на индексните корелации, но те ще бъдат коренно различни. Например, сред няколко вида мусети (от невестулки до язовци), коефициентът на корелация между дължината на тънките и дебелите черва (r= 0,96) отразява прости морфологични пропорции: червата на голямо животно са по-дълги от тези на малко. Въпреки това, корелацията между показателите на тези органи (размери, свързани с дължината на тялото на индивида) вече характеризира разликите в диетата на различните видове (r= 0,78): червата са относително по-малки при облигатните хищници, отколкото при полифагите. Въпреки това, в голям масив от производни стойности, такива връзки между индексите могат да се възприемат като зависимости между характеристиките, което неизбежно ще доведе до неверни заключения.

За да се избегне такава неяснота, е желателно да се включват само предварително проверениреални базови показатели, а не свързани с метода на изчисляване на дялове, проценти или индекси.