Анализиране на странни корелации

Наскоро забелязах във фейсбук фийд линк към статия с куп примери за "странни корелации" като на снимката. Първоизточникът е тук и има 20 такива примера.Реших да практикувам статистика и да проверя колко удивителни са тези корелации.
Интересуващите се моля под кат.
Премахване на тенденции
Ако два индикатора растат през цялото време, тогава те ще имат положителна корелация и това не е изненадващо. Корелацията трябва да се измерва върху стационарни променливи. За да премахна тенденциите, изградих линейна регресия във времето за всеки индикатор, извадих от действителните данни и проверих корелацията на остатъците.
В някои случаи корелацията е значително намалена:

В други нищо не се е променило:

Значи трябва да има нещо друго!
Каква е вероятността случайно да се получи такава корелация?
Тук стигаме до формулите! Оказа се, че средно има 11 точки в тези променливи и след корекция за тенденции, средната корелация е около 70%. Познавайки корелацията и броя на точките, можете да получите променлива, която е разпределена като t-Student с брой степени на свобода n-2:
Получаваме t=2,98 и вероятността да получим такава корелация с независими променливи е около 0,77%. Получената цифра е доста впечатляваща, но въпросът не е затворен!
Какво ще кажете за парадокса на близнаците?
Вероятността от 0,77% изглежда твърде ниска, за да вярваме в съвпадение, но интуицията тук греши. Тази ситуация е подобна на известния парадокс на рождения ден.
Вероятността двама души да са родени в един и същи ден е 1/365. Но сред само 23 души с 50% вероятност има двойка, родена в един и същи ден. Това се случва, защото не ни интересува кои двеще има хора и сред 23 души можете да направите много двойки.
Същото се случва и с корелацията на различни показатели, ако няма значение кой от тях ще бъде корелиран. Две случайни променливи ще бъдат силно корелирани в едно изпитание от 65. Умножавам вероятността по 2, тъй като ние също се интересуваме от корелация под -70%.
Но ако вземете само 9 случайни променливи (11 точки всяка), тогава с вероятност от 50% ще има корелация от повече от 70% или по-малко - 70%
Hardcore conf в C++. Каним само професионалисти.