Презентация за клъстерен анализ в STATISTICA Продължение на метода на K-Means

Подобни презентации

Презентация на тема: "Клъстерен анализ в STATISTICA Продължение: K-средни." — Препис:

1 Клъстерен анализ в STATISTICA Продължение: метод на k-средни стойности

3 В диалоговия прозорец Cluster Analysis изберете K-Means clustering

4 В диалоговия прозорец, който се появява, трябва да посочите всички променливи (ЛКМ върху бутона Променливи и изберете всички променливи)

5 В падащия списък Клъстер изберете Случаи (редове) - редове на клъстер (региони)

6 Посочете броя на клъстерите (Брой клъстери), равен на 2. Последователно ще увеличим броя на клъстерите, започвайки от два, и ще анализираме качеството на разделяне на клъстери

7 Останалите параметри в диалоговия прозорец ще останат непроменени Броят итерации е максималният брой итерации, които трябва да се извършат (ако стабилизирането на клъстера не се случи при по-малък брой итерации) В нашия случай стабилизирането ще се извърши при по-малко от 10 итерации по подразбиране

8 Секция за първоначални клъстерни центрове - начин за определяне на началните клъстерни центрове: -Изберете наблюдения за максимизиране на първоначалните разстояния между клъстерите (изберете наблюдения, които максимизират началните разстояния между клъстерите) -Сортирайте разстоянията и вземете наблюдения на постоянни интервали (сортирайте разстоянията и изберете наблюдения на постоянни интервали) -Изберете първите N (Брой клъстери) наблюдения (изберете първите N наблюдения) Може да се остави по подразбиране Ще променим, ако няма достатъчно повторения за постигане на стабилизиране на клъстера или за проверка дали е получено друго решение

9 След натискане на бутона Ok се появява диалогов прозорец за показване на резултатите от анализа(в раздела Разширени, разширен набор от резултати) Общата информация е посочена в горната част: - Брой променливи: 7 - Брой наблюдения: 13 - Метод на K-средните - Обработка на пропуснати липсващи стойности - Брой клъстери: 2 - Решение, намерено в 1 итерация

10 Бутон за обобщение: Клъстери означава & Евклидовите разстояния ви позволяват да показвате информация за координатите на центровете на клъстерите и да показвате матрицата на разстоянията между клъстерите (използвайки евклидовата метрика) Основната задача на метода е да получите възможно най-различни клъстери.Следователно центровете на клъстерите трябва да се различават един от друг колкото е възможно повече (това може да се види ясно на графиката)

11 Бутон за обобщение: Клъстери означава & Евклидовите разстояния ви позволяват да показвате информация за координатите на центровете на клъстерите и да показвате матрица на разстоянията между клъстерите (използвайки евклидовата метрика) Основната задача на метода е да получите възможно най-различни клъстери.Следователно, колкото по-голямо е разстоянието между клъстерите, толкова по-добре Под главния диагонал е евклидовото разстояние между клъстерите, а над главния диагонал е квадратът на евклидовото разстояние между клъстерите

12 Бутонът Анализ на дисперсията показва таблица с анализ на дисперсията.Таблицата показва стойностите на междугруповите (между SS) и вътрешногруповите (в рамките на SS) дисперсии на характеристиките. Колкото по-малка е стойността на вътрешногруповата вариация и колкото по-голяма е стойността на междугруповата вариация, толкова по-добре атрибутът характеризира принадлежността на обектите към клъстера и толкова по-добро е клъстерирането.Качеството на клъстерирането може да се съди както по стойността на F-критерия (колкото повече, толкова по-добре), така и по нивото на значимост p (колкото по-малко, толкова по-добре). Характеристики с ниво на значимост p> 0,05 могат да бъдат изключени от процедурата за групиране 0,05 може да бъде изключено от процедурата за групиранеизключване">

13 Бутонът Анализ на дисперсията показва таблица с анализ на дисперсията. За два клъстера резултатите от анализа на дисперсията показват добро качество на групирането: нивото на значимост p е по-малко от 5% навсякъде, само за характеристика X2 нивото на значимост е почти 3%

16 Интерпретация на резултатите от групирането Клъстер 1: Република Дагестан Краснодарски край Ставрополски край Волгоградска област Ростовска област Клъстер 2: Други региони

17 Интерпретация на резултатите от групирането Клъстер 1: Република Дагестан Краснодарска територия Ставрополска територия Волгоградска област Ростовска област Клъстер 2: Други региони Графиката на координатите на центровете на клъстера показва, че средните стойности на всички характеристики в първия клъстер са значително по-високи от съответните показатели във втория клъстер

18 Сравнение на резултатите от групирането Метод на k-средните Клъстер 1: Република Дагестан Краснодарска територия Ставрополска територия Волгоградска област Ростовска област Клъстер 2: Други региони Йерархични алгоритми 5) Република Калмикия 8) Чеченска република 3 клъстер: 2) Република Дагестан 10) Ставрополска територия 12) Волгоградска област 4 клъстер: 9) Краснодарска територия 13) Ростовска област

19 Нека повторим k-означава клъстериране, като последователно увеличаваме броя на клъстерите Три клъстера. Всички координати на центровете на клъстерите са различни истойностите в първия клъстер са най-големи, във втория е по-малък, а в третия е още по-малък Първият клъстер се различава значително от втория и третия

20 Results of analysis of variance Three clustersTwo clusters Comparing the results of analysis of variance for two and three clusters, we see that for three clusters the values ​​​​of intragroup variances noticeably increased, with a slight decrease in intergroup variance for three clusters. Also, in the case of three clusters, the feature X2 began to play a more significant role and its p value decreased significantly from 3% to 0.05%

21 Заключение Разделянето на регионите на три клъстера може да се счита за приемливо: показателите в първия клъстер са най-високи, във втория клъстер - средни, в третия клъстер - най-ниски. Състав на клъстерите, разделени на 2 клъстера Клъстер 1: Република Дагестан, Краснодарски край, Ставрополски край, Волгоградска област, Ростовска област, Клъстер 2: Други региони В новото разделение, Краснодарски край ory и Ростовска област бяха разграничени от първия клъстер. Вторият клъстер остана непроменен

22 Да продължим k-означава клъстерирането, последователно увеличаване на броя на клъстерите Четири клъстера Пет клъстера В случай на пет клъстера, значително влошаване на разликите между няколко клъстера - отделните координати в различните клъстери се различават малко една от друга Следователно по-нататъшното увеличаване на броя на клъстерите влошава качеството на клъстерирането

23 Четири клъстера В случай на четири клъстера, според признака X1, координатите на третия и четвъртия клъстери съвпадат, а останалите координати се различават.Следователно групирането в 4 групи може да се счита за задоволително.Също така се запазва разпределението на регионите с увеличение на разглежданите показатели

24 Четири клъстера Резултати от дисперсиятаанализът за четири клъстера се подобри още повече: вътрешногруповата дисперсия е ниска, а междугруповата дисперсия е висока; Стойностите на F-теста са високи, нивата на значимост са по-малко от 1%

25 Съставът на четири клъстера съвпада с идентифицираните по-рано йерархични методи за групиране 1 клъстер: 1) Република Адигея 6) Карачаево-Черкеска република 4) Кабардино-Балкарска република 7) Република Северна Осетия 11) Астраханска област 2 клъстер: 3) Република Ингушетия 5) Република Калмикия 8) Чеченска република 3 клъстер : 2) Република Дагестан 10) Ставрополска територия 12) Волгоградска област 4 клъстер: 9) Краснодарска област 13) Ростовска област