GIS-Lab Матрица на грешките и изчисляване на показателите за точност на тематичните карти

Географски информационни системи и дистанционно наблюдение

Дадена е дефиницията на матрицата на грешките (матрица на объркването, таблица на непредвидените обстоятелства, матрица на грешките), дадени са примери за нейното използване.

Матрицата на грешките е инструмент, който използва кръстосана таблица (http://en.wikipedia.org/wiki/Cross-tabulation), за да покаже как съвпадащите стойности на класове от различни източници се сравняват. Източниците могат да бъдат например растер за проверка (тематична класификация) и по-точен референтен източник на данни (растер или полеви набор от данни под формата на точки). При интерпретирането на резултатите обикновено се приема, че проверяваният резултат е потенциално неточен, а растерът за проверка отразява добре реалната ситуация. В противен случай, ако тестовият растер също е несъвършен, не може да се говори за "грешка", а трябва да се говори за "разлика" между двата набора от данни. Всички растерни клетки (пиксели) или извадка от клетки, разположени на случаен принцип, стратифицирани на случаен принцип или според някакво друго разпределение, могат да се използват за изграждане на матрицата.

На една от осите на матрицата се записват имената на класовете на класификационната легенда на проверявания набор от данни, на втората - класовете на легендата на данните, използвани за проверка.

грешките

Сивото маркира главния диагонал на матрицата, показвайки случаи, в които изчислените класове и реалните данни съвпадат (правилна класификация). Сумата от стойностите на диагоналните елементи показва общия брой правилно класифицирани пиксели, а съотношението на това число към общия брой пиксели в матрицата N се нарича обща точност на класификация и обикновено се изразява като процент:

За определяне на точносттана определен клас на изчисление е необходимо броят на правилно класифицираните пиксели от този клас да се раздели на общия брой пиксели в този клас според данните за проверка. Този показател се нарича още "точност на производителя", тъй като показва колко добре резултатът от класификацията за този клас съответства на данните от теста. За клас А:

Подобен показател може да се изчисли за реален клас, като се раздели броят на правилно класифицираните пиксели в даден клас на общия брой пиксели в този клас според данните, които се тестват. Този показател се нарича „точност на потребителя“, защото казва на потребителя на класификацията колко вероятно е даден клас да съответства на резултатите от класификацията. За клас А:

Недиагоналните елементи показват случаи на несъответствие между изчислените и реалните класове (грешки в класификацията).

Пример 1 Противопожарна маска

Нека дадем пример за реална ситуация, ако желаете, можете да повторите всички изчисления и изчисления. Да кажем, че имаме класификации, показващи коя територия е изгоряла и коя не. Една от тези класификации е базирана на базата данни AVHRR, а другата е базирана на MODIS. Например илюстрацията показва резултата от наслагването на две класификации, където:

0 - и двата източника идентифицират територията като неизгоряла; 1 - AVHRR определи района като опожарен, MODIS - като необгорял; 2 - MODIS определи зоната като опожарена, AVHRR - като необгоряла; 3 - и двата източника определят района като опожарен.

точност

В този случай, ако обозначим изгорялата област като "ДА", а не изгорялата област като "НЕ", нашата матрица за грешки ще изглежда така:

Изчислете общата грешка игрешки за различни класове.

Общата точност е 83%, от фигурата е очевидно, че масата територии, класифицирани като неизгорели и от двата източника, играе решаваща роля за такава висока точност.

Точността на производителя за класа на изгорелите площи е 88%. Високата точност на производителя означава, че има малко пропуски в класификацията, която се тества, т.е. пропуснати са няколко изгорени пиксела. С други думи, малък брой пиксели, които действително (според набора за валидиране) са били изгорени, са погрешно класифицирани като неизгорени.

Точността на потребителя за класа на изгорели площи е 54%. Ниската потребителска точност означава, че има много комисионни грешки в проверяваната класификация, т.е. много пиксели, които не са изгорели, но са класифицирани като изгорели.

Нека анализираме интерпретацията на точността за класа на изгорели площи, като целеви клас в този пример. Както може да се види, за този клас точността на производителя е много по-добра от точността на потребителя, което на човешки език означава, че при производството на този набор от данни е дадено предпочитание на факта, че „е по-добре всички области, които действително са изгорели, да бъдат класифицирани като изгорели“, а не „по-добре е да има по-малко изгорели области, но всички те определено са изгорели“.

Както можете да видите от примера, комисионните и комисионните грешки за един клас често са противоположни, високата стойност на една от тях често е свързана с ниска стойност на другата. Интерпретацията на качеството на класификацията зависи от задачите, които са й възложени, обичайната стратегия е да се намери максималната стойност на двата вида грешки.

Пример 2

По-труднонапример с повече класове (източник):

Брой класове q = 5.

точност

Нека изчислим общата точност, точността на производителя и потребителя:

изчисляване

Изчисления на всички показатели за точност за горните данни във формат MS Excel XLS.

Свързани връзки

Последна актуализация: 07 септември 2010 г