Лъжи, откровени лъжи и (математическа) статистика
Трябва ли да вярваме на математическата статистика? Ако вземете произволно сто научни статии, използващи статистически методи, колко погрешни заключения ще съдържат те?
Вероятността от 1/2 1000, която изчислихме, показва доколко данните, които имаме, са в съответствие с нулевата хипотеза. Нарича се p-стойност и се обозначава с буквата p. Ако p е малко, това означава, че нулевата хипотеза ни изглежда нереалистична. Логиката е следната: ако вярваме, че нулевата хипотеза е вярна, тогава ще трябва да стигнем до заключението, че се е случило събитие с много малка вероятност - с други думи, че сме имали фантастичен късмет. Но когато избираме между фантастичен късмет и необходимостта да отхвърлим нулевата хипотеза, ние предпочитаме втория вариант. Ето как протичат всички разсъждения в математическата статистика.
Изглежда очевидно, че хиляда загуби от хиляда са повече от достатъчни, за да докажат, че колелото не е справедливо. И дори 999 от 1000 най-вероятно биха ни били достатъчни. Ами ако загубим сто пъти от сто? И ако 99 от сто? Или 98? Или пет от пет? Или две от две? Къде е границата между „това може да се обясни случайно“ и „трябваше да имаме фантастичен късмет, не се случва така“.
Да преброим. Вероятността за две загуби от две (ако приемем, че колелото е симетрично) е 1/2×1/2=1/4. Тя не изглежда много малка. Вероятността за три загуби от три е 1/2 3 =1/8=0,125, т.е. малко повече от 10%. За четири от четири загуби това число ще бъде 1/2 4 = 0,0625. За пет вече 1/2 5 \u003d 0,03125. За десет загуби тази вероятност ще бъде близо до една хилядна.
За да решим каква вероятност считаме за „много малка“, трябва да начертаем граница някъде. Тази граница се нарича "ниво на значимост" и се обозначаваГръцка буква а. Какво е нивото на значимост? Обикновено се избира да бъде 5% или 1% (т.е. α=0,05 или α=0,01). Конкретната стойност на нивото на значимост зависи от областта на дейност, за която се провежда изследването, и е свързана с „цената на грешката“ в тази област.
Например, ако приемем, че нивото на значимост е α = 0,05, тогава четири загуби от четири пак няма да са достатъчни, за да отхвърлим нулевата хипотеза за симетрията на колелото (т.е. вярваме, че това може да се случи в резултат на случайност), а пет загуби (от пет опита) вече са достатъчни (не вярваме в толкова ниска вероятност). И ако вземем нивото на значимост равно на α = 0,01, тогава дори шест загуби (от шест опита) няма да са достатъчни, а седем вече са достатъчни. (Проверете дали това е така.)
Нека използваме нашия пример, за да илюстрираме съображенията за избор на ниво на значимост. Да предположим, че решим, че ако стигнем до заключението, че колелото е асиметрично, тогава ще извикаме полицията и ще поискаме точката на играта да бъде затворена. Полицията ще направи проверка и ще установи дали колелото наистина е асиметрично. Ако е така, тогава ще получим бонус (и чувство на дълбоко морално удовлетворение), а ако не, тогава глоба за фалшиво обаждане. Ясно е, че изборът на ниво на значимост зависи от това колко голяма е премията (и моралното удовлетворение) и колко голяма е санкцията. Ако наказанието за фалшиво повикване е малко и премията е голяма, тогава можем да изберем относително голямо число като ниво на значимост. И ако, напротив, глобата за фалшиво обаждане е много голяма, тогава ще действаме по-внимателно и ще докладваме на полицията само ако получим много убедителни доказателства за „нечестността“ на колелото, тоест много малка p-стойност. В този случай нивото на значимост трябва да бъде избрано малко.
Каквое равно на p-стойност за случая от нашата история - три от четири загуби? Да преброим.
Имахме четири опита, във всеки можехме да спечелим или загубим. Нека обозначим победата с "B", а загубата с "P" и да напишем резултата от тези четири опита като последователност от четири букви. Резултатът, получен в историята, се записва като "PVPP" (нарича се "елементарен резултат"). Може да има общо 2 4 = 16 такива различни резултата (опитайте се да ги запишете всичките). Следователно вероятността за всеки елементарен резултат - при условие, че нулевата хипотеза е вярна - е равна на 1/16.
Но ситуацията "три загуби от четири" може да се реализира по различни начини. Можем да загубим първия път и да спечелим останалите три ("WFP") или да загубим последния път ("FWF") или накрая предпоследния ("FWF"). Общо има четири такива комбинации, даващи „три загуби от четири“. Вероятността за всеки е 1/16. Така че вероятността да получите "три загуби от четири" е 4/16=1/4.
Намерихме ли p-стойност? Не точно.
За да видим това, нека да разгледаме друг пример. Да кажем, че завъртаме колелото 1000 пъти и печелим точно 500 от тях и губим точно 500 от тях. От една страна, точно това е резултатът, който би трябвало да получим „средно“, ако колелото е „честно“. Това със сигурност не свидетелства против хипотезата, че колелото е симетрично. (Може би може да се твърди, че игрите не са независими, т.е. поставя под съмнение целия модел - но това е малко по-различен въпрос.) От друга страна, вероятността да се получи точно 500/500 (а не 499/501 или 502/498) е доста малка (равна е на C 500 1000 / 2 1000 ≈ 0,025). Ако смятахме, че сме намерили p-стойността по този начин, тогава ще трябва да отхвърлим хипотезата за симетрия (на нивозначимост от 5%)! Въпреки че е очевидно, че това не трябва да се прави.
За да намерим p-стойността, не е достатъчно да изчислим каква е вероятността да получим резултатите, които всъщност получихме. Трябва да се има предвид, че е възможно да се получат и други резултати, свидетелстващи (даже по-силно) в полза на необходимостта от отхвърляне на нулевата хипотеза.
Да се върнем към нашата история. Вероятността да получите три загуби от четири е 1/4. Но ако загубим и четирите пъти, това би било не по-малък аргумент в полза на асиметрията на колелото. Така че трябва да вземем предвид и този случай. Вероятността да го получите е 1/16, а общата p-стойност е 5/16.
Сега можете да опитате да отговорите на въпросите, поставени в преамбюла. Статистиката е точна наука, но вероятностният характер на процесите, които описва, се усеща: ако имате сто твърдения пред себе си, които са потвърдени на 5% ниво на значимост, средно 5 от тях може да се окажат грешни. Но не се разстройвайте. Предупреденият е предварително въоръжен.
- Трябва ли да се отхвърли нулевата хипотеза (за симетрията и честността на колелото) в случая, описан в историята, при ниво на значимост α=0,05?
- Трябва ли нулевата хипотеза да бъде отхвърлена при ниво на значимост α=0,1, ако колелото е било завъртяно 6 пъти и изгубено 5 пъти? И при 5% ниво на значимост?