Konspekt_lektsy_ochnoe - Страница 9

Обикновено се дават данни за R 2 и R 2, които са обобщени мерки за общото качество на регресионното уравнение. Не бива обаче да се абсолютизира значението на коефициентите на детерминация. Има много примери за неправилно построени модели с високи коефициенти на детерминация. Следователно коефициентът на детерминация в момента се разглежда само като един от редицата показатели, които трябва да бъдат анализирани, за да се прецизира моделът, който се изгражда.

Оценка на значимостта на уравнението като цяло и всеки параметър във връзка с

вярност. Анализът на статистическата значимост на коефициента на детерминация се извършва на базата на тестване на нулевата хипотеза H 0 : R 2 =0 спрямо алтернативната хипотеза H 1 : R 2>0. За да се тества тази хипотеза, се използва следната F-статистика:

Стойността на F, когато са изпълнени предпоставките на LSM и ако нулевата хипотеза е вярна, има разпределението на Фишер. От формулата за изчисляване на F-статистиката се вижда, че показателите F и R 2 са равни или не са равни на нула едновременно. Ако F =0, тогава R 2 =0 и регресионната линия y y е най-добрият OLS и следователно стойността на y не зависи линейно от x 1 , x 2 . x p . За

тестване на нула - хипотеза при дадено ниво на значимост α според таблиците на критичните точки на разпределението на Фишер, критичната стойност F таблица (α; p; Ако F > F таблица, нула - хипотезата се отхвърля, което е еквивалентно на статистическата значимост на R 2, т.е. R 2> 1.

Еквивалентен анализ може да бъде предложен чрез разглеждане на друга нула – хипотезата, която е формулирана като H 0 : 1 ' 2 ' . p '0. Това

хипотезата може да се нарече хипотеза за общото значение на регресионното уравнение. Ако тази хипотеза не бъде отхвърлена, тогава се заключава, че кумулативната

влияние на всички р обяснителнипроменливи

на зависима промяна

y може да се счита за статистически незначимо и общото качество на регресионното уравнение е ниско.

Проверката на такава хипотеза се извършва на базата на дисперсионен анализ, сравняващ обяснените и остатъчните дисперсии, т.е. нула - хипотезата се формулира като H 0 :D fact =D rest срещу алтернативната хипотеза H 1 :D fact >D rest . В същото време се изгражда F-статистика:

Тук числителят е обяснената (факториална) дисперсия за една степен на свобода (броят на степените на свобода е равен на броя на факторите, т.е. p). Знаменателят е остатъчната дисперсия за една степен на свобода. Неговият брой степени на свобода е равен на Загуба ( p +1) на степента на свобода, свързана с необходимостта от решаване на системата ( p +1) от линейни уравнения при определяне на параметрите на емпиричното регресионно уравнение. Ако вземем предвид, че броят на степените на свобода на общата дисперсия е равен на броя на степените на свобода на обяснената дисперсия е равен на разликата – т.е. Р . Трябва да се отбележи, че изразът

y i y = i 2 / n p 1

става ясно дали числителят и знаменателят

изсипете общото стандартно отклонение:

y = i y 2 / y i y 2

y i y = i 2 / y i y 2

Следователно, техниката за приемане или отхвърляне на нулеви хипотези за статистиката

не се различава от това за статистиката

Анализът на статистиката F ни позволява да заключим, че за да приемем хипотезата за едновременно равенство на нула на всички коефициенти на линейна регресия, коефициентът на определяне R 2 трябва да бъде значително различен от нула. Критичната му стойност намалява с увеличаване на броя на наблюденията и може да стане произволно малка.

Например, нека при оценяване на регресия с две обяснения

променлива за 30 наблюдения R 2 =0.65. Тогава Ф

Според таблиците на критичните точки на разпределението на Фишернамерете F (0.05; 2; 27) = 3.36; F(0.01; 2; 27)=5.49. Тъй като F obs =25.05> F cr при 5% - nom,

и при 1% ниво на значимост, тогава нулевата хипотеза и в двата случая е

има тенденция. Ако в същата ситуация R 2 =0,4, тогава F 0,65 30 2 1 25.07. Предварително 0,35 2

и тук се отхвърля позицията за незначителността на връзката.

Както в случая на регресия по двойки, статистическата значимост на параметрите на множествената линейна регресия с p фактори се тества въз основа на t −

m b j m a се нарича

статистика: t b j

стандартната грешка на параметър b j a . Дефинира се така. Нека означим мат-

към матрицата: Z 1 X ' X 1 , и в тази матрица означаваме j -тия диагонален елемент като z jj ' . Тогава дисперсията на извадката на параметъра на емпиричната регресия е

, а за свободния член изразът изглежда така:

хипотеза

z 00 ', ако приемем, че в матрицата Z

индексите варират от 0 до p.

– безпристрастна оценка на дисперсията на случайната грешка ε: s 2

регресионните параметри са:

Получава се чрез израз

за съответния параметър има разпределение на Стюдънт с броя на степените на свобода. При необходимото ниво на значимост α, тази статистика се сравнява с критичната точка на разпределението на Стюдънт t ( α ; (двустранно). Ако t> t ( α ; тогава съответният параметър се счита за статистически значим, а нула - хипотезата във формата H 0 : b j =0 или H 0 : a = 0 се отхвърля. В противен случай ( t t ( α ; параметърът се счита за статистически незначим и нулев - хипотезата не може да бъде отхвърлена. Тъй като b j не се различава значително от нула, факторът x j не е линейно свързан с резултата. Присъствието му сред обяснителните променливи не е оправдано от статистическа гледна точка. Без да има сериозно влияние върху зависимитепроменлива, тя само изкривява реалната картина на връзката. Следователно, след установяване на факта, че коефициентът b j е статистически незначим, се препоръчва променливата x j да се изключи от уравнението на регресията. Това няма да доведе до значителна загуба в качеството на модела, но ще го направи по-специфичен.

Стриктният тест за значимостта на параметрите може да бъде заменен от обикновен сравнителен анализ.

Ако t 1 , т.е. b j m b j , тогава коефициентът е статистически незначим.

, тогава коефициентът е относително значим. IN

В този случай се препоръчва да се използва таблицата на критичните точки на разпределението на Стюдънт.

Ако 2 t 3 , тогава коефициентът е значим. Това твърдение е ха-

оценен на и 0,05.

Ако t>3, тогава коефициентът се счита за много значим. Вероятността за грешка в този случай с достатъчен брой наблюдения не надвишава

Анализът на значимостта на коефициента b j може да се подходи по различен начин. За целта се изгражда интервална оценка на съответния коефициент. Ако зададем нивото на значимост α, тогава се определя доверителният интервал, в който с вероятност попада неизвестната стойност на параметъра j ''

b j t ; n p 1 m b j j ' b j t; n p 1 m b j

a t; n p 1 m a ' a t ; n p 1 m a

Ако доверителният интервал не съдържа нулева стойност, тогава съответният параметър е статистически значим; в противен случай нулевата нулева хипотеза не може да бъде отхвърлена.

Сравняване на две регресии чрез включване и изключване на отделни набори от променливи. Друго важно направление в използването на статистиката на Фишер е да се тества хипотезата, че не всички коефициенти на регресия са равни на нула едновременно, а само част от тези коефициенти. Това ви позволява да оцените валидността на изключването.или добавяне на някои набори от фактори към регресионното уравнение, което е особено важно при подобряване на линеен регресионен модел.

Нека регресионното уравнение първоначално е съставено от n наблюдения