Използване на дървета за вземане на решения за оценка на кредитоспособността на лицата, BaseGroup Labs

Съществуващата система за оценка на кредитоспособността на физическите лица

При кредитирането на физически лица са характерни малки размери на заемите, което води до голям обем работа по тяхното регистриране и доста скъпа процедура за оценка на кредитоспособността във връзка с получената печалба. За да оцени кредитоспособността на физическите лица, банката трябва да оцени както финансовото състояние на кредитополучателя, така и неговите лични качества. В този случай кредитният риск се състои от риска от неизплащане на главницата на дълга и лихвата върху тази сума. Сега оценката на кредитирането се използва за оценка на риска от кредитиране на кредитополучател. Същността на тази техника е, че всеки фактор, характеризиращ кредитополучателя, има своя собствена количествена оценка. Обобщавайки получените точки, можете да получите оценка на кредитоспособността на дадено лице. Всеки параметър има максимално възможен праг, който е по-висок за важни въпроси и по-нисък за второстепенни. Днес са известни много методи за кредитен скоринг. Един от най-известните е моделът Durand. Дюран идентифицира група фактори, които позволяват да се определи степента на кредитния риск във възможно най-голяма степен. Той също така определи коефициентите за различни фактори, характеризиращи кредитоспособността на дадено лице:

  1. Пол: женски (0,40), мъжки (0)
  2. Възраст: 0,1 точка за всяка година над 20 години, но не повече от 0,30
  3. Продължителност на пребиваване в района: 0,042 за всяка година, но не повече от 0,42
  4. Професия: 0,55 за професия с нисък риск; 0 - за високорискова професия; 0,16 - други професии
  5. Финансови показатели: наличие на банкова сметка - 0,45; наличие на недвижими имоти - 0,35; наличие на застрахователна полица - 0,19
  6. Работни места: 0,21 - предприятия в обществения сектор, 0 - други
  7. Заетост: 0,059 - за всяка година работа в това предприятие

Той също така определя прага, след преминаването на който човек се счита за кредитоспособен. Този праг е равен на 1,25, т.е. ако натрупаният резултат е по-голям или равен на 1,25, тогава на потенциалния кредитополучател се дава исканата от него сума.

Недостатъци на скоринг системата за оценка на кредитоспособността на физическите лица

Основният недостатък на скоринг системата за оценка на кредитоспособността на физическите лица е, че е много слаба адаптивна. И системата, използвана за оценка на кредитоспособността, трябва да съответства на сегашното състояние на нещата. Например в САЩ се счита за плюс, ако човек е сменил много работни места, което показва, че е търсен. В СССР, напротив, това обстоятелство показва, че човек или не може да се разбира с екипа, или е специалист с ниска стойност и съответно вероятността от забавяне на плащанията се увеличава. Друг пример за разликата в коефициентите на тежест е, че ако в СССР наличието на личен автомобил показва добро финансово състояние на кредитополучателя, сега това присъствие практически не означава нищо. Следователно е изключително необходимо да се адаптира моделът както за различни периоди от време, така и за различни страни и дори за различни региони на страната.

За да адаптира скоринг модела за оценка на кредитоспособността на физическите лица, специалистът трябва да следва път, подобен на този, който направи Duran, тоест специалистите, които ще бъдат ангажирани с такава адаптация, трябва да бъдат висококвалифицирани и следователно много високо платени, да могат да оценят текущата ситуация на пазара. Резултатът от този вид извършена работа ще бъде набор от фактори с тегла плюсопределен праг (стойност), при преодоляване на който лицето, кандидатстващо за заем, се счита за способно да изплати искания заем и лихвата. Получените резултати са предимно субективно мнение и като правило са слабо подкрепени от статистика (статистически необосновани). В следствие на всичко това полученият модел не отговаря напълно на настоящата реалност. Финансовият резултат от този подход ще бъде, че в предлагания от банката лихвен процент по кредитиране голям дял ще заема частта, която покрива риска от неплащания.

И така, основните недостатъци на точковата система за оценка на кредитоспособността на физически лица са:

  1. Високите разходи за адаптиране на използвания модел към текущото състояние на нещата;
  2. Голяма вероятност за грешка на модела при определяне на кредитоспособността на потенциален кредитополучател, поради субективно мнение на специалист.

Дърветата на решенията като решение на проблема за отстраняване на недостатъците на точковата система

Един от вариантите за решаване на горния проблем е използването на алгоритми, които решават проблеми с класификацията. Задачата за класификация е задачата за приписване на обект (потенциален кредитополучател) към един от предварително известните класове (Дава/Не дава заем). Такива задачи се решават с голям успех чрез един от методите на Data Mining - чрез използване на дървета на решенията. Дърветата на решенията са един от методите за автоматичен анализ на данни. Полученият модел е начин за представяне на правилата в йерархична, последователна структура, където всеки обект съответства на един възел, който дава решение. Пример за дърво е показано нафиг. 1.

използване

Същността на този метод е следната:

  1. Въз основа на данните за минали периоди се изгражда дърво. При коетопредварително е известен класът на всяка от ситуациите, на базата на които се изгражда дървото. В нашия случай трябва да се знае дали са върнати главницата и лихвите и дали е имало забавяне на плащанията. При конструирането на дърво всички известни ситуации от обучителната извадка първо попадат в горния възел и след това се разпределят между възлите, които от своя страна също могат да бъдат разделени на дъщерни възли. Критерият за разделяне е различни стойности на някои входни фактори. За да се определи полето, върху което ще се извърши разделянето, се използва индикатор, наречен ентропия - мярка за несигурност. Избрано е полето, при разделянето на което се елиминира повече несигурност. Колкото по-висока е несигурността, толкова повече примеси (обекти, принадлежащи към различни класове) има в един възел. Ентропията е нула, ако възелът съдържа обекти, принадлежащи към същия клас.
  2. Полученият модел се използва за определяне на класа (Давам/Не давам заем) на нововъзникнали ситуации (постъпила е молба за заем).
  3. При значителна промяна в текущата пазарна ситуация дървото може да бъде възстановено, т.е. адаптира към съществуващата ситуация.

Практически пример

За демонстриране на тази технология ще се използва програмата Tree Analyzer от пакета Deductor ver.3. Като първоначални данни е взета извадка, състояща се от 1000 записа, като всеки запис е описание на характеристиките на кредитополучателя и параметър, описващ поведението му по време на изплащане на кредита. При обучението на дървото са използвани следните фактори за определяне на кредитополучателя: "N паспорти"; "ПЪЛНО ИМЕ"; „Адрес“; "Заета сума"; „Срок на кредита“; „Цел на кредита”; „Среден месечен доход”; „Среден месечен разход”; "Основното направление на разходите"; „Наличие на недвижими имоти”; „Наличностпревозни средства"; "Наличие на банкова сметка"; "Наличие на застраховка"; "Име на организацията"; "Отраслова принадлежност на предприятието"; "Срок на работа в това предприятие"; "Професия на кредитополучателя"; "Срок на работа в това направление"; "Пол"; "Семейно положение"; "Брой години"; "Брой на зависими лица"; "Срок на пребиваване в дадената област"; спорт", "Име", "Адрес", "Име на организация" бяха определени от алгоритъма още преди изграждането на дървото на решенията като неподходящи (Фиг. 2) поради практическата уникалност на всяка от стойностите.

решения

Целевото поле е полето „Дайте кредит“, което приема стойностите „Да“ (True) и „Не“ (False). Тези стойности могат да се тълкуват по следния начин: "Не" - платецът или е много закъснял с плащанията, или не е върнал част от парите, "Да" - обратното на "Не".

След процеса на изграждане на дърво на решенията с помощта на програмата Tree Analyzer, получаваме следния модел за оценка на кредитоспособността на физическите лица, описващ ситуацията, свързана с конкретна банка. Този модел е представен под формата на йерархична структура от правила - дърво на решенията (Фиг. 3).

оценка

Анализирайки полученото дърво на решенията (вижФиг. 3), можем да кажем следното:

  1. Дървото на решенията може да се използва за анализиране на значими фактори. Това е възможно поради факта, че при определяне на параметъра на всяко ниво на йерархията, според което се извършва разделянето на дъщерни възли, се използва критерият за най-голямо елиминиране на несигурността. По този начин по-значимите фактори, за които се извършва класификация, са на по-близко разстояние (дълбочина) от корена на дървото, отколкото по-малко значимите. Например факторът "Обезпечение на кредита"по-значим от фактора „Продължителност на пребиваване в района“. А факторът "Основно направление на разходите" е значим само в комбинация с други фактори. Друг интересен пример за значимостта на различни фактори е липсата на параметъра „Наличност на превозни средства” в изграденото дърво, което показва, че днес това наличие не е определящо при оценката на кредитоспособността на дадено лице.
  2. Можете да забележите, че такива показатели като „Размер на кредита“, „Срок на кредита“, „Среден месечен доход“ и „Среден месечен разход“ изобщо не присъстват в резултантното дърво. Този факт може да се обясни с факта, че в първоначалните данни има такъв индикатор като „Обезпечение на заема“ и оттогава. този фактор е точно обобщение на 4-те индикатора, описани по-горе, алгоритъмът за изграждане на дървото на решенията го избра.

Много важна особеност на изградения модел е, че правилата, по които се определя принадлежността на заемателя към определена група, са написани на естествен език. Например въз основа на конструирания модел се получават следните правила:

  1. АКО Обезпечение на заема = Да И Продължителност на пребиваване в района, години > 5.5 и брой години > 19.5 И Наличие на недвижимо имущество = Да И Наличие на банкова сметка = Да ДА Дадете заем =Да(98% надеждност)
  2. АКО Обезпечение на заема = Да И Продължителност на пребиваване в района, години > 5.5 И Наличие на недвижими имоти = Да И Брой години > 21.5 И Срокът на работа в тази област, години И Пол = Съпруг И Наличие на банкова сметка = Не И Основното направление на разходите = Облекло, храна и др. ДА Дадете заем =Не(88% надеждност)

Правилно изграденото дърво на решенията, базирано на минали данни, има още една много важна характеристика. Товафункцията се нарича "способност за обобщаване", т.е. ако възникне нова ситуация (приложен потенциален кредитополучател), тогава най-вероятно вече е имало такива ситуации и доста. В резултат на това може да се каже с висока степен на сигурност, че новоподаденият кредитополучател ще се държи по същия начин като онези кредитополучатели, чиито характеристики са много сходни с тези на новия кандидат.

Въз основа на изградения модел е възможно да се определи дали потенциалният кредитополучател принадлежи към един от класовете. За да направите това, трябва да използвате диалоговия прозорец "Експеримент" на програмата Tree Analyzer (фиг. 4), в който чрез последователни отговори на въпросите можете да получите отговор на въпроса: "Дайте заем."

използване

Пример за получаване на резултата.

Въпроси: Обезпечение на заема: Да > Наличност на имота: Да > Пол: Мъж > Банкова сметка: Не > Основното направление на разходите: Закупуване на стоки за дълготрайна употреба.

Отговор: Дайте кредит: Да (96% надеждност)

Използвайки този подход, е възможно незабавно да се премахнат и двата гореописани недостатъка на системата за оценка на кредитоспособността.

  1. Разходите за адаптация са намалени почти до минимум поради факта, че алгоритмите за изграждане на класификационен модел (дърво на решения) са самоадаптивни модели (човешката намеса е минимална)
  2. Качеството на резултата е доста високо поради факта, че алгоритъмът избира най-значимите фактори за определяне на крайния отговор. Освен това полученият резултат е статистически обоснован.

Заключение

Горният пример е доста груба представа за това как методите за извличане на данни, по-специално дърветата на решенията, могат да се използват за постигане на поставената цел.цели: намаляване на риска при кредитиране на физически лица. Въпреки че дори и с това първо приближение се наблюдават положителни резултати. По-нататъшните подобрения могат да включват точки като: по-точен подбор на факторите, определящи кредитополучателя; промяна на самата декларация за проблема, така че, например, вместо две стойности на целевия параметър, можете да използвате по-подробна информация (Върнато / Не върнато / Не навреме) или да използвате вероятността парите да бъдат платени навреме като целева стойност; тази статия не казва нито дума за почистването на данни, въпреки че, както показва практиката, използването на първоначална предварителна обработка на данни може значително да подобри качеството на резултата и е важна стъпка в интегрирания подход за решаване на всеки проблем с анализа на данни.