Анализиране на странни корелации

корелации

Наскоро забелязах във фейсбук фийд линк към статия с куп примери за "странни корелации" като на снимката. Първоизточникът е тук и има 20 такива примера.Реших да практикувам статистика и да проверя колко удивителни са тези корелации.

Интересуващите се моля под кат.

Премахване на тенденции

Ако два индикатора растат през цялото време, тогава те ще имат положителна корелация и това не е изненадващо. Корелацията трябва да се измерва върху стационарни променливи. За да премахна тенденциите, изградих линейна регресия във времето за всеки индикатор, извадих от действителните данни и проверих корелацията на остатъците.

В някои случаи корелацията е значително намалена:

странни

В други нищо не се е променило:

анализиране

Значи трябва да има нещо друго!

Каква е вероятността случайно да се получи такава корелация?

Тук стигаме до формулите! Оказа се, че средно има 11 точки в тези променливи и след корекция за тенденции, средната корелация е около 70%. Познавайки корелацията и броя на точките, можете да получите променлива, която е разпределена като t-Student с брой степени на свобода n-2:

Получаваме t=2,98 и вероятността да получим такава корелация с независими променливи е около 0,77%. Получената цифра е доста впечатляваща, но въпросът не е затворен!

Какво ще кажете за парадокса на близнаците?

Вероятността от 0,77% изглежда твърде ниска, за да вярваме в съвпадение, но интуицията тук греши. Тази ситуация е подобна на известния парадокс на рождения ден.

Вероятността двама души да са родени в един и същи ден е 1/365. Но сред само 23 души с 50% вероятност има двойка, родена в един и същи ден. Това се случва, защото не ни интересува кои двеще има хора и сред 23 души можете да направите много двойки.

Същото се случва и с корелацията на различни показатели, ако няма значение кой от тях ще бъде корелиран. Две случайни променливи ще бъдат силно корелирани в едно изпитание от 65. Умножавам вероятността по 2, тъй като ние също се интересуваме от корелация под -70%.

Но ако вземете само 9 случайни променливи (11 точки всяка), тогава с вероятност от 50% ще има корелация от повече от 70% или по-малко - 70%

Hardcore conf в C++. Каним само професионалисти.