Big data - в услуга на полицията (и престъпниците), Computerra
Има едно клише, което витае във филми и телевизионни предавания за полицаи и агенти на разузнаването. Когато идва моментът да разкрият поредната мистерия, те изваждат доказателствата, окачват карта на стената, където са отбелязани неразкритите престъпления, и се опитват да разберат какво ги обединява.
Кадър от поредицата FlashForward.
Съвременните инструменти за анализ на данни са предназначени да решат поразително подобен проблем. Те, подобно на агентите от филмите, търсят скрити модели в наличната информация. Вярно, като правило, с по-мирни цели.
Веригите магазини използват анализ на големи данни, за да разберат предпочитанията на своите клиенти. Финансовите институции търсят улики в оскъдната информация за клиентите, за да помогнат да се оцени вероятността кредитът да бъде изплатен. Платежните системи се опитват да отсеят измамниците, като вземат предвид фините разлики в тяхното поведение.
Тези технологии биха могли да се използват за разрешаване или дори предотвратяване на престъпления. Вероятността от престъпление може да бъде оценена с помощта на същите инструменти, които предвиждат неизпълнение на заем или изграждат профил на купувач. Престъпниците трябва да имат нещо общо - и анализът на данните може да покаже какво е то.
Това не е нова идея. Преди около двадесет години лондонската полиция направи опит да идентифицира чертите, които обединяват хората, осъдени за изнасилване. Оказа се, че много кандидат-изнасилвачи са се занимавали с полицията в миналото във връзка с дребно, но много странно престъпление - кражба на женско бельо, което се суши на улицата. След това откритие такива крадци бяха поставени на специална сметка.
През 90-те години подобни изследвания отнемаха много време. Готовият софтуер, който автоматизира процеса, не е такъвбеше, а самите данни представляваха запис на хартия, събиращ прах в архивите. Цялата работа беше извършена ръчно, което означава, че беше анализирана само малка част от възможната информация.
Сега един от лидерите в тази област е IBM Corporation. През 2011 г. придобива британската компания i2 Group, която разработва анализи за правоприлагащи органи, разузнаване, военно разузнаване и специалисти по борба с измамите.
IBM i2 COPLINK.
През 2007 г. полицейското управление на Дърам в Северна Каролина започна да използва i2 инструменти, за да анализира своя архив с данни за престъпления. За четири години в един от кварталите на града броят на извършените престъпления е намалял с 50%. Малко вероятно е такъв напредък да се дължи единствено на силата на софтуера на IBM, но никой не отрича неговия принос.
Във Ванкувър, Канада, полицията внедри система за анализ на данни, базирана на географската информационна система на IBM и Esri. Системата не само идентифицира тенденциите, но и прогнозира вероятното време и място на престъпленията. От 2007 до 2011 г. престъпленията, свързани с собствеността, са намалели с 24%, а насилствените престъпления с 9%.
Подобни резултати съобщават полицейските управления в Лас Вегас, Мемфис и други градове, където експериментират със софтуер за анализ на данни.
Прост и разбираем пример за това как работят подобни програми е „криминалният класификатор“, демонстриран на конференцията Strata 2013. Специалистът по данни Джим Адлер го направи, за да покаже колко „големите данни“ са, от една страна, полезни за полицията, а от друга – опасни.
Алгоритъмът е изградил дърво на решенията, където на всеки клон е присвоено определено тегло.Например при избор на мъжки пол резултатът се увеличава с 0,1, а при избор на женски намалява с 0,5. Теглото на всички избрани клонове се сумира. Ако резултатът надхвърли праговата стойност, изчислена по време на обучението, тогава въпросното лице се обявява за потенциален престъпник.
Зависимост на съотношението на грешки от първи вид (хоризонтална ос) и грешки от втори род (вертикална ос) от праговата стойност, използвана от алгоритъма в експеримента на Адлер.
На пръв поглед класификаторът свърши добра работа. При тестване с най-„агресивните“ настройки алгоритъмът идентифицира правилно 51 246 души, осъдени за тежки престъпления, тоест всичките сто процента от престъпниците, споменати в извадката на Adler. В същото време броят на фалшивите положителни резултати е 2200. При по-меки настройки невинните хора биват залавяни по-рядко (152 фалшиви положителни резултати), но след това някои престъпници също бягат (37 842 от 51 246 са взети под внимание).
Адлер не е сигурен, че това може да се счита за успех. Какво всъщност показа експериментът? Че престъпниците могат да бъдат разграничени по цвета на кожата, пола и наличието на татуировки? Или фактът, че полицията подозира престъпници в хора с предварително известен цвят на кожата, а наличието на татуировки влияе на отношението на съда? В базата данни, върху която е обучен алгоритъмът, няма неразкрити престъпления. В него няма оправдателни присъди, а в крайна сметка цветът на кожата определено корелира с финансовите възможности, необходими, за да се наеме добър адвокат. Това не може да не се отрази на резултата.
В резултат на обработката на исторически данни резултатът не беше класификатор на престъпници, а експертна система, която кодира предразсъдъците на полицаи от Кентъки. Според Адлер това показва необходимостта да бъдем по-критични при анализа на данните.Някои резултати не са това, което изглеждат. „Подобно на истинското изкуство, реалният анализ на данни повдига толкова въпроси, колкото и отговори“, пише той в публикация в блог. „Понякога тези въпроси са неприятни, но в крайна сметка водят до по-добър резултат.“
Двусмисленият резултат от експеримента на Адлер изобщо не означава, че самият метод е порочен. В този случай, обобщени първоначалните данни. По-голям брой взети под внимание критерии и много по-сериозно количество първоначални данни най-вероятно биха могли да направят заключенията на алгоритъма по-точни, неочаквани и по-ценни.
По един или друг начин правоприлагащите органи ще трябва да овладеят „големите данни“. В противен случай ще бъдат изпреварени от престъпници, които не са ограничени от бюрокрация, закони и благоприличие. Ако „анализът на данни“ работи, нищо няма да ги спре да изградят своите клъстери, да получат продукти на IBM и да наемат анализатори. Вече се случва.
Когато лондонската полиция разкопаваше архиви със старомодни методи в колумбийския наркокартел Кали, анализът на данни отдавна беше поставен в голям мащаб. В началото на 90-те години на миналия век картелът придоби мощна компютърна система IBM AS/400, която по това време струваше 1,5 милиона долара, и придоби персонал от системни администратори и програмисти, които разработиха специализиран софтуер за извличане на данни.
">