Условия и ограничения за използване на хи-квадрат теста на Pearson
1. Сравнимите показатели трябва да се измерват вноминална скала(например пол на пациента - мъж или жена) или впорядък(например степен на артериална хипертония, като се вземат стойности от 0 до 3).
2. Този метод ви позволява да анализирате не само таблици с четири полета, когато и факторът, и резултатът са двоични променливи, тоест те имат само две възможни стойности (например мъж или жена, наличие или отсъствие на определено заболяване в историята.). Хи-квадрат тестът на Pearson може да се използва и в случай на анализ на таблици с множество полета, когато факторът и (или) резултатът приемат три или повече стойности.
3. Съвпадащите групи трябва да са независими, т.е. тестът хи-квадрат не трябва да се използва, когато се сравняват наблюденията „преди-" след. В тези случаи се изпълняватестът на McNemar(когато се сравняват два свързани набора) или се изчисляваQ-тестът на Cochran(когато се сравняват три или повече групи).
4. При анализиране на таблици с четири полетаочакваните стойностивъв всяка от клетките трябва да бъдат най-малко 10. В случай, че поне в една клетка очакваното явление приеме стойност от 5 до 9, трябва да се изчисли хи-квадрат тестътс корекцията на Йейтс. Ако в поне една клетка очакваният феномен е по-малък от 5, тогава за анализ трябва да се използваточният тест на Фишер.
5. В случай на анализ на таблици с много полета очакваният брой наблюдения не трябва да приема стойности по-малки от 5 в повече от 20% от клетките.
Как да изчислим хи-квадрат теста на Пиърсън?
За да изчислите теста хи-квадрат, трябва:
1.Изчисляваме очаквания брой наблюденияза всяка от клетките на таблицата за непредвидени обстоятелства (при условие, че нулевата хипотеза за липсата на връзка е вярна)чрез умножаване на сумите от редове и колони, последвано от разделяне на получения продукт на общия брой наблюдения. Общият изглед на таблицата с очакваните стойности е представен по-долу:
Изход е (1) | Няма изход (0) | Обща сума | |
Има рисков фактор (1) | (A+B)*(A+C) / (A+B+C+D) | (A+B)*(B+D)/ (A+B+C+D) | A+B |
Няма рисков фактор (0) | (C+D)*(A+C)/ (A+B+C+D) | (C+D)*(B+D)/ (A+B+C+D) | C+D |
Обща сума | A+C | B+D | A+B+C+D |
2.Намерете стойността на критерия χ 2по следната формула:
къдетоiе номерът на реда (от 1 до r),jе номерът на колоната (от 1 до c),Oijе действителният брой наблюдения в клетка ij,Eijе очакваният брой наблюдения в клетка ij.
В случай, че броят на очакваното явление е по-малък от 10 в поне една клетка, при анализиране на таблици с четири полета трябва да се изчислихи-квадрат тест с корекция на Йейтс. Тази корекция намалява вероятността от грешка от тип I, т.е. откриване на разлики там, където няма такива. Корекцията на Yates е да се извади 0,5 от абсолютната стойност на разликата между действителния и очаквания брой наблюдения във всяка клетка, което води до намаляване на стойността на теста хи-квадрат.
Формулата за изчисляване на критерия χ 2 с корекция на Yates е следната:
3.Определете броя на степените на свободапо формулата:f = (r – 1) × (c – 1). Съответно, за таблица с четири полета с 2 реда (r = 2) и 2 колони (c = 2), броят на степените на свобода е f2x2 = (2 - 1)*(2 - 1) = 1.
4.Сравнете стойността на критерия χ 2 с критичната стойностс броя на степените на свобода f (според таблицата).
Този алгоритъм е приложим и за дветечетириполеви и многополеви маси.
Как да интерпретираме стойността на Хи-квадрат на Pearson?
В случай, че получената стойност на критерия χ 2 е по-голяма от критичната, правим извода, че съществува статистическа връзка между изследвания рисков фактор и резултата на съответното ниво на значимост.
Пример за изчисление на Хи-квадрат на Pearson
Нека да определим статистическата значимост на влиянието на фактора тютюнопушене върху честотата на артериалната хипертония съгласно горната таблица:
Артериална хипертония да (1) | Без артериална хипертония (0) | Обща сума |
пушене (1) | ||
Непушачи (0) | ||
Обща сума |
1. Изчислете очакваните стойности за всяка клетка:
Артериална хипертония да (1) | Без артериална хипертония (0) | Обща сума |
пушене (1) | (70*72)/150 = 33,6 | (70*78)/150 = 36,4 |
Непушачи (0) | (80*72)/150 = 38,4 | (80*78)/150 = 41,6 |
Обща сума |
2. Намерете стойността на хи-квадрат теста на Пиърсън:
χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.
3. Броят на степените на свобода f = (2-1)*(2-1) = 1. Намерете критичната стойност на теста хи-квадрат на Pearson от таблицата, която при ниво на значимост p=0,05 и брой степени на свобода 1 е 3,841.
4. Сравнете получената стойност на хи-квадрат теста с критичната: 4,396 > 3.841, следователно зависимостта на честотата на артериалната хипертония от наличието на тютюнопушене е статистически значима. Нивото на значимост на тази връзка съответства на p 2 при p=0.05