DataMining в SAP използва модела на дървото на решенията
DataMining в SAP: използване на модел на дърво на решенията
Дървета на решенията
При изграждането на дърво на решенията се използва един от алгоритмите за класифициране и разделяне на данните. Основата за изграждане на дърво на решенията е набор от данни за обучение, който е набор от атрибути, характеризиращи определен обект и известен резултат от събитие, свързано с този обект.
Сегментирането се извършва, за да се комбинират в групи прецеденти с еднакви вероятности за резултат. Сегментирането на данни се осъществява чрез последователно фрагментиране на пространството от данни на области с фиксирани граници. Критерият за разделяне за изграждане на дърво на решенията е разликата в съотношението на положителните и отрицателните резултати от събитията. Обучението спира, когато по-нататъшното разделяне на по-малки групи не доведе до значителна разлика в това съотношение. Предполага се, че обучителната извадка е представителна и с известна грешка може да предскаже резултата за нови набори от данни.
Конструираното дърво на решенията е изходният материал за Data Mining – „извличане на знания“. Тя ви позволява да визуализирате получените модели по разбираем начин.
Практическото приложение на този алгоритъм е кредитен скоринг, анализ на клиентското поведение.
Използване
Помислете как можете да извлечете модели и да изградите правила (дърво на решения) от първоначалния набор от информация. Ще идентифицираме най-значимите фактори, влияещи върху вземането на решения от конкретна група хора, потребители на стоки и услуги.
Ефективно е описаният подход да се използва при стартиране на кампания за предлагане на нов продукт в отделен пилотен регион или произволно избрани клиенти. СегментиранеПолучените данни ще ви позволят да изберете сегменти от клиенти, които са лоялни към предложения продукт. В същото време основната маркетингова кампания вече ще бъде насочена към конкретна целева аудитория. Идеалният случай за използване на такива модели е да имате постоянна обратна връзка, която ще ви позволи да анализирате резултатите от всяка маркетингова кампания.
Наличието на обратен поток от информация ще позволи създаването ("обучението") на нови модели, за да се видят резултатите от стартирането на пилотни продажби. Могат да бъдат идентифицирани нови модели, които по принцип са неразличими на тестовата проба, но са се появили при повторното пускане на модела.
Необходимо е да се стремим към намаляване на размера на целевата група за всяка маркетингова кампания, като същевременно повишаваме ефективността на кампанията, като се фокусираме върху клиентите с най-голям потенциал. Постепенно броят на моделите трябва да се разширява и качеството им да се подобрява: подгответе модели, които отчитат спецификата на даден регион и / или уникалните познания на експертите.
Кампания, реализирана въз основа на анализа на дървото за изграждане на решения, ще даде следните резултати:
Внедряване в SAP
Както SAP BW складът за данни, така и инструментите за анализ на данни са вградени в платформата SAP NetWeaver. Освен това един прост пример ще покаже прилагането на анализ на данни от този стандартен инструментариум.
Файлът, предоставен в папката с примери за средата за анализ на данни SPSS Clementine 12.0, беше взет като първоначални данни. По-нова версия на този инструмент вече е част от продуктовата линия на SAP, наречена SAP BusinessObjects Predictive Workbench.
Изходният файл съдържа резултатите от някои виртуални изследвания в размер на 482 факта. Тази сума е достатъчна, за да демонстрира възможността за извличане на знания.
Изходният файл съдържа следните полета:
Ето пример за необработени данни от CSV файл:
Нека заредим тези данни в DSO, подобна по структура:
В транзакцията "RSA1 - Моделиране - DW инструменти" ще симулираме необходимия процес на зареждане. Първата стъпка е да създадете BW източник на данни в изходна система, предназначена за работа с файлове. В този случай PCFILE.
След това трябва да създадете инфопакет, който ще зареди данните от файла в PSA. В параметрите трябва да посочите разделителя на CSV файла и че данните са с променлива дължина.
Следващата стъпка е да създадете процес на трансформация и трансфер на данни. Трансформацията на данни е проста -
Ограничен достъп
За да прочететепълната версияна статията, трябва да влезете каторегистриран потребител.