Презентация за клъстерен анализ в STATISTICA Продължение на метода на K-Means

Подобни презентации

Презентация на тема: "Клъстерен анализ в STATISTICA Продължение: K-средни." — Препис:

1 Клъстерен анализ в STATISTICA Продължение: метод на k-средни стойности

3 В диалоговия прозорец Cluster Analysis изберете K-Means clustering

4 В диалоговия прозорец, който се появява, трябва да посочите всички променливи (ЛКМ върху бутона Променливи и изберете всички променливи)

5 В падащия списък Клъстер изберете Случаи (редове) - редове на клъстер (региони)

6 Посочете броя на клъстерите (Брой клъстери), равен на 2. Последователно ще увеличим броя на клъстерите, започвайки от два, и ще анализираме качеството на разделяне на клъстери

7 Останалите параметри в диалоговия прозорец ще останат непроменени Броят итерации е максималният брой итерации, които трябва да се извършат (ако стабилизирането на клъстера не се случи при по-малък брой итерации) В нашия случай стабилизирането ще се извърши при по-малко от 10 итерации по подразбиране

8 Секция за първоначални клъстерни центрове - начин за определяне на началните клъстерни центрове: -Изберете наблюдения за максимизиране на първоначалните разстояния между клъстерите (изберете наблюдения, които максимизират началните разстояния между клъстерите) -Сортирайте разстоянията и вземете наблюдения на постоянни интервали (сортирайте разстоянията и изберете наблюдения на постоянни интервали) -Изберете първите N (Брой клъстери) наблюдения (изберете първите N наблюдения) Може да се остави по подразбиране Ще променим, ако няма достатъчно повторения за постигане на стабилизиране на клъстера или за проверка дали е получено друго решение

9 След натискане на бутона Ok се появява диалогов прозорец за показване на резултатите от анализа(в раздела Разширени, разширен набор от резултати) Общата информация е посочена в горната част: - Брой променливи: 7 - Брой наблюдения: 13 - Метод на K-средните - Обработка на пропуснати липсващи стойности - Брой клъстери: 2 - Решение, намерено в 1 итерация

10 Бутон за обобщение: Клъстери означава & Евклидовите разстояния ви позволяват да показвате информация за координатите на центровете на клъстерите и да показвате матрицата на разстоянията между клъстерите (използвайки евклидовата метрика) Основната задача на метода е да получите възможно най-различни клъстери.Следователно центровете на клъстерите трябва да се различават един от друг колкото е възможно повече (това може да се види ясно на графиката)

11 Бутон за обобщение: Клъстери означава & Евклидовите разстояния ви позволяват да показвате информация за координатите на центровете на клъстерите и да показвате матрица на разстоянията между клъстерите (използвайки евклидовата метрика) Основната задача на метода е да получите възможно най-различни клъстери.Следователно, колкото по-голямо е разстоянието между клъстерите, толкова по-добре Под главния диагонал е евклидовото разстояние между клъстерите, а над главния диагонал е квадратът на евклидовото разстояние между клъстерите

12 Бутонът Анализ на дисперсията показва таблица с анализ на дисперсията.Таблицата показва стойностите на междугруповите (между SS) и вътрешногруповите (в рамките на SS) дисперсии на характеристиките. Колкото по-малка е стойността на вътрешногруповата вариация и колкото по-голяма е стойността на междугруповата вариация, толкова по-добре атрибутът характеризира принадлежността на обектите към клъстера и толкова по-добро е клъстерирането.Качеството на клъстерирането може да се съди както по стойността на F-критерия (колкото повече, толкова по-добре), така и по нивото на значимост p (колкото по-малко, толкова по-добре). Характеристики с ниво на значимост p> 0,05 могат да бъдат изключени от процедурата за групиране 0,05 може да бъде изключено от процедурата за групиранеизключване">

13 Бутонът Анализ на дисперсията показва таблица с анализ на дисперсията. За два клъстера резултатите от анализа на дисперсията показват добро качество на групирането: нивото на значимост p е по-малко от 5% навсякъде, само за характеристика X2 нивото на значимост е почти 3%

16 Интерпретация на резултатите от групирането Клъстер 1: Република Дагестан Краснодарски край Ставрополски край Волгоградска област Ростовска област Клъстер 2: Други региони

17 Интерпретация на резултатите от групирането Клъстер 1: Република Дагестан Краснодарска територия Ставрополска територия Волгоградска област Ростовска област Клъстер 2: Други региони Графиката на координатите на центровете на клъстера показва, че средните стойности на всички характеристики в първия клъстер са значително по-високи от съответните показатели във втория клъстер

18 Сравнение на резултатите от групирането Метод на k-средните Клъстер 1: Република Дагестан Краснодарска територия Ставрополска територия Волгоградска област Ростовска област Клъстер 2: Други региони Йерархични алгоритми 5) Република Калмикия 8) Чеченска република 3 клъстер: 2) Република Дагестан 10) Ставрополска територия 12) Волгоградска област 4 клъстер: 9) Краснодарска територия 13) Ростовска област

19 Нека повторим k-означава клъстериране, като последователно увеличаваме броя на клъстерите Три клъстера. Всички координати на центровете на клъстерите са различни истойностите в първия клъстер са най-големи, във втория е по-малък, а в третия е още по-малък Първият клъстер се различава значително от втория и третия

20 Results of analysis of variance Three clustersTwo clusters Comparing the results of analysis of variance for two and three clusters, we see that for three clusters the values of intragroup variances noticeably increased, with a slight decrease in intergroup variance for three clusters. Also, in the case of three clusters, the feature X2 began to play a more significant role and its p value decreased significantly from 3% to 0.05%

21 Заключение Разделянето на регионите на три клъстера може да се счита за приемливо: показателите в първия клъстер са най-високи, във втория клъстер - средни, в третия клъстер - най-ниски. Състав на клъстерите, разделени на 2 клъстера Клъстер 1: Република Дагестан, Краснодарски край, Ставрополски край, Волгоградска област, Ростовска област, Клъстер 2: Други региони В новото разделение, Краснодарски край ory и Ростовска област бяха разграничени от първия клъстер. Вторият клъстер остана непроменен

22 Да продължим k-означава клъстерирането, последователно увеличаване на броя на клъстерите Четири клъстера Пет клъстера В случай на пет клъстера, значително влошаване на разликите между няколко клъстера - отделните координати в различните клъстери се различават малко една от друга Следователно по-нататъшното увеличаване на броя на клъстерите влошава качеството на клъстерирането

23 Четири клъстера В случай на четири клъстера, според признака X1, координатите на третия и четвъртия клъстери съвпадат, а останалите координати се различават.Следователно групирането в 4 групи може да се счита за задоволително.Също така се запазва разпределението на регионите с увеличение на разглежданите показатели

24 Четири клъстера Резултати от дисперсиятаанализът за четири клъстера се подобри още повече: вътрешногруповата дисперсия е ниска, а междугруповата дисперсия е висока; Стойностите на F-теста са високи, нивата на значимост са по-малко от 1%

25 Съставът на четири клъстера съвпада с идентифицираните по-рано йерархични методи за групиране 1 клъстер: 1) Република Адигея 6) Карачаево-Черкеска република 4) Кабардино-Балкарска република 7) Република Северна Осетия 11) Астраханска област 2 клъстер: 3) Република Ингушетия 5) Република Калмикия 8) Чеченска република 3 клъстер : 2) Република Дагестан 10) Ставрополска територия 12) Волгоградска област 4 клъстер: 9) Краснодарска област 13) Ростовска област