Условия и ограничения за използване на хи-квадрат теста на Pearson

1. Сравнимите показатели трябва да се измерват вноминална скала(например пол на пациента - мъж или жена) или впорядък(например степен на артериална хипертония, като се вземат стойности от 0 до 3).

2. Този метод ви позволява да анализирате не само таблици с четири полета, когато и факторът, и резултатът са двоични променливи, тоест те имат само две възможни стойности (например мъж или жена, наличие или отсъствие на определено заболяване в историята.). Хи-квадрат тестът на Pearson може да се използва и в случай на анализ на таблици с множество полета, когато факторът и (или) резултатът приемат три или повече стойности.

3. Съвпадащите групи трябва да са независими, т.е. тестът хи-квадрат не трябва да се използва, когато се сравняват наблюденията „преди-" след. В тези случаи се изпълняватестът на McNemar(когато се сравняват два свързани набора) или се изчисляваQ-тестът на Cochran(когато се сравняват три или повече групи).

4. При анализиране на таблици с четири полетаочакваните стойностивъв всяка от клетките трябва да бъдат най-малко 10. В случай, че поне в една клетка очакваното явление приеме стойност от 5 до 9, трябва да се изчисли хи-квадрат тестътс корекцията на Йейтс. Ако в поне една клетка очакваният феномен е по-малък от 5, тогава за анализ трябва да се използваточният тест на Фишер.

5. В случай на анализ на таблици с много полета очакваният брой наблюдения не трябва да приема стойности по-малки от 5 в повече от 20% от клетките.

Как да изчислим хи-квадрат теста на Пиърсън?

За да изчислите теста хи-квадрат, трябва:

1.Изчисляваме очаквания брой наблюденияза всяка от клетките на таблицата за непредвидени обстоятелства (при условие, че нулевата хипотеза за липсата на връзка е вярна)чрез умножаване на сумите от редове и колони, последвано от разделяне на получения продукт на общия брой наблюдения. Общият изглед на таблицата с очакваните стойности е представен по-долу:

Изход е (1)Няма изход (0)Обща сума
Има рисков фактор (1)(A+B)*(A+C) / (A+B+C+D)(A+B)*(B+D)/ (A+B+C+D)A+B
Няма рисков фактор (0)(C+D)*(A+C)/ (A+B+C+D)(C+D)*(B+D)/ (A+B+C+D)C+D
Обща сумаA+CB+DA+B+C+D

2.Намерете стойността на критерия χ 2по следната формула:

къдетоiе номерът на реда (от 1 до r),jе номерът на колоната (от 1 до c),Oijе действителният брой наблюдения в клетка ij,Eijе очакваният брой наблюдения в клетка ij.

В случай, че броят на очакваното явление е по-малък от 10 в поне една клетка, при анализиране на таблици с четири полета трябва да се изчислихи-квадрат тест с корекция на Йейтс. Тази корекция намалява вероятността от грешка от тип I, т.е. откриване на разлики там, където няма такива. Корекцията на Yates е да се извади 0,5 от абсолютната стойност на разликата между действителния и очаквания брой наблюдения във всяка клетка, което води до намаляване на стойността на теста хи-квадрат.

Формулата за изчисляване на критерия χ 2 с корекция на Yates е следната:

3.Определете броя на степените на свободапо формулата:f = (r – 1) × (c – 1). Съответно, за таблица с четири полета с 2 реда (r = 2) и 2 колони (c = 2), броят на степените на свобода е f2x2 = (2 - 1)*(2 - 1) = 1.

4.Сравнете стойността на критерия χ 2 с критичната стойностс броя на степените на свобода f (според таблицата).

Този алгоритъм е приложим и за дветечетириполеви и многополеви маси.

Как да интерпретираме стойността на Хи-квадрат на Pearson?

В случай, че получената стойност на критерия χ 2 е по-голяма от критичната, правим извода, че съществува статистическа връзка между изследвания рисков фактор и резултата на съответното ниво на значимост.

Пример за изчисление на Хи-квадрат на Pearson

Нека да определим статистическата значимост на влиянието на фактора тютюнопушене върху честотата на артериалната хипертония съгласно горната таблица:

Артериална хипертония да (1)Без артериална хипертония (0)Обща сума
пушене (1)
Непушачи (0)
Обща сума

1. Изчислете очакваните стойности за всяка клетка:

Артериална хипертония да (1)Без артериална хипертония (0)Обща сума
пушене (1)(70*72)/150 = 33,6(70*78)/150 = 36,4
Непушачи (0)(80*72)/150 = 38,4(80*78)/150 = 41,6
Обща сума

2. Намерете стойността на хи-квадрат теста на Пиърсън:

χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.

3. Броят на степените на свобода f = (2-1)*(2-1) = 1. Намерете критичната стойност на теста хи-квадрат на Pearson от таблицата, която при ниво на значимост p=0,05 и брой степени на свобода 1 е 3,841.

4. Сравнете получената стойност на хи-квадрат теста с критичната: 4,396 > 3.841, следователно зависимостта на честотата на артериалната хипертония от наличието на тютюнопушене е статистически значима. Нивото на значимост на тази връзка съответства на p 2 при p=0.05χ 2 при p=0,013,8416,6355,9919.217,81511,3459,48813,27711.0715,08612,59216,81214,06718,47515,50720.0916,91921,66618.30723.20919,67524,72521,02626.21722,36227,68823,68529.14124,99630,57826,29627,58733,40928,86934,80530.14436.19131.4137,566