Ковариационен анализ

Материал от MachineLearning.

Ковариационният анализе набор от методи на математическата статистика, свързани с анализа на модели на зависимостта на средната стойност на определена случайна променлива едновременно от набор от (основни) качествени фактори и (свързани) количествени фактори. Факторите задават комбинации от условия, при които са получени наблюденията и се описват с помощта на индикаторни променливи, а сред съпътстващите и индикаторните променливи могат да бъдат както случайни, така и неслучайни (контролирани в експеримента).

Ако случайната променлива е вектор, тогава се говори за многовариантен анализ на ковариацията.

Анализът на ковариациятачесто се използва преди анализа на дисперсията, за да се провери хомогенността (хомогенността, представителността) на извадка от наблюдения за всички съпътстващи фактори.

Съдържание

Примерни задачи

Пример 1: Да предположим, че имаме 3 метода за преподаване на аритметика и група ученици. Групата се разделя на случаен принцип на 3 подгрупи за изучаване на един от методите. В края на курса студентите полагат общ тест, резултатите от който се оценяват. Също така за всеки ученик има една или повече характеристики (количествени) на общото му образование.

Необходимо е да се провери хипотезата за същата ефективност на методите на обучение.

Пример 2: За да се сравни качеството на няколко вида нишесте (пшенично, картофено...), беше проведен експеримент, при който беше измерена силата на филмите от нишесте. Дебелината на използвания филм от нишесте също се измерва за всеки тест.

Необходимо е да се провери хипотезата за еднакво качество на различните нишестета.

Пример 3: Да приемем, че са събрани резултати за няколко различни училищастуденти, получени на общ изпит за всички. Също така за всеки от учениците са известни оценките, получени от тях на други изпити (например приемни в училище).

Изисква се проверка на хипотезата за еднакво качество на образованието в училищата.

Формулиране на проблема

Основните теоретични и приложни проблеми на ковариационния анализ са свързани с линейните модели. По-специално, ако наблюденията се анализират със съпътстващи променливи, възможни типове експериментални условия, тогава линейният модел на съответния ковариационен анализ се дава от уравнението:

където , индикаторните променливи са равни на 1, ако е изпълнено -тото условие на експеримента при наблюдение, и равни на 0 в противен случай. Коефициентите определят ефекта от това условие, — стойността на придружаващата променлива , при която е получено наблюдението, — стойностите на съответните регресионни коефициенти за ,

фактори
— независими случайни грешки с нулево математическо очакване.

Горната формула дефинира линеенеднофакторенмодел на ковариационен анализ снезависими променливиинивана фактора. Когато в модела са включени допълнителни фактори, ще се появят членовете от дясната страна на уравнението, които са отговорни за ефектите от нивата на факторите, нововъведени в модела.

Забележка:регресионните коефициенти в горната формула не зависят от качествени фактори. Това включва предположението, че линейната зависимост има едни и същи коефициенти за всяка стойност на качествения фактор.

Основната цел на ковариационния анализ е използването при конструирането на статистически оценки; и статистически критерии за тестване на различни хипотези относно стойностите на тези параметри. Ако постулираме a priori в модела, тогава ще получим модел на дисперсия аконо за да изключим влиянието на неколичествени фактори (поставете), тогава получаваме модел за регресионен анализ.

Хипотези и критерии за ковариационен анализ

Основната хипотеза, тествана при анализа на ковариацията, е

В случай на една придружаваща променлива (), тази хипотеза може да се тълкува по следния начин. При предположенията на линейния ковариационен модел, за всяко ниво на фактора регресионните криви на зависимата променлива спрямо придружаващата променлива са успоредни. Хипотезата предполага, че тези криви съвпадат.

Например, в проблема с разновидностите на нишестето, тази хипотеза гласи, че разликата в якостта на филма се дължи единствено на различни стойности на случайната променлива "дебелина на филма".

Обикновено тази хипотеза се тества с помощта на критерия на Фишер в резултат на редуциране на поставения проблем до проблеми на дисперсионния анализ (виж [3], раздел 6.2).