Среднопретеглена стойност на Tukey

Материал от MachineLearning.

tukey

Среднопретеглената стойност на Tukey е M-оценител на средната стойност на извадката, която е устойчива на наличието на извънредни стойности. Алгоритъмът за оценка е итеративен. Следните стъпки се повтарят до достигане на конвергенция:

  1. Изчислява се оценка на средната стойност на извадката (в началото на алгоритъма, обичайната медиана).
  2. Определят се разстоянията от изчислената средна до всеки елемент от извадката. В зависимост от тези разстояния на елементите от извадката се приписват различни тегла, като се има предвид, че се преизчислява средната стойност. Природата на тегловната функция е такава, че наблюденията, които са достатъчно далеч от средната стойност, не допринасят много за стойността на претеглената средна стойност.

Често се използва само една итерация на изчислението на резултата.

Съдържание

Метод за изчисляване на резултата в една стъпка

Нека има извадка. Според нея се изчислява медианата, след което за всяко наблюдение - модулът на отклонението му от медианата. Стойността – медианата на извадката – се нарича абсолютно отклонение на средната (англ. Median Absolute Deviation, MAD) и е мярка за вариация на извадката.

За всеки елемент от извадката се изчислява отклонението от средната стойност: където е параметърът, от който зависи чувствителността към отклонения от средната стойност, е малка постоянна стойност, чиято цел е да изключи възможността за деление на нула.

Получената средна стойност се изчислява по следната формула:

Допълнително предимство на алгоритъма е възможността за изчисляване на доверителния интервал за оценката с помощта на приближението на разпределението на Стюдънт. Симетричният % доверителен интервал се дава от

където е квантилът на разпределението на Стюдънт с броя на степените на свобода