Построение  скоринговых  моделей на основе  логистической  регрессии

Е.Б. Иванов,

к.т.н., с.н.с., ivanov-ics@mail.ru, 

Л.А. Мещерякова,

ИПУ РАН, г. Москва

Введение

Кредитный скоринг — система оценки кредитоспособности (кредитных рисков) лица, основанная на численных статистических методах. Заключается в присвоении баллов по заполнению анкеты, разработанной оценщиками кредитных рисков андеррайтерами. По результатам набранных баллов системой принимается решение об одобрении или отказе в выдаче кредита. Данные для скоринговых систем получаются из вероятностей возвратов кредитов отдельными группами заемщиков, полученными из анализа кредитной истории тысяч людей [1].

В представленной нами  работе были проведены следующие исследования:

·      Анализ процесса принятия заявки и выдачи авто-кредитов.

·      Анализ ролей и процесса принятия решения при выдаче кредита.

o  Выявление   зависимостей   и   особенностей   клиентской   базы,   включая   проверку предположений относительно характерного «портрета» заемщика.

o  Анализ данных, содержащихся в обучающей выборке.

·      Построение скоринговых моделей на основе Обучающей выборки.

o  Скоринг заемщиков из Тестовой  выборки с целью оценки  качества полученных скоринговых моделей.

o  Предварительный анализ и построение скоринговых моделей для оценки мошенничества [2,3].

1. Математическая постановка задачи

Пусть задан вектор входных параметров Х, характеризующий кредитоспособность клиента:

·      пол (М или Ж);

·      возраст (18-60);

·      количество детей (1-3);

·      тип автомобиля (не принципиально);

·      год выпуска автомобиля (до 5 лет);

·      наличие квартиры (желательно);

·      наличие дома (желательно);

·      наличие гаража (желательно);

·      наличие земельного участка (желательно);

·      стаж вождения автомобиля (до 3 лет);

·      тип предприятия (не принципиально);

·      занимаемая должность (не принципиально);

·      стаж работы, (от 1 года);

·      стаж работы в данной сфере (от 1 года).

Требуется определить вектор выходных параметров Y, характеризующий прибыль:

Y = {, , },                            (1)

где: – функция, характеризующая срок кредита;– функция, характеризующая процентную ставку; – функция, характеризующая долю выплат в сальдо.

Пусть задан вектор входных параметров Х1, также характеризующий конкретный кредитоспособность отдельно взятого клиента. В вектор X1 включены переменные вектора X и переменные: пол, возраст, семейное положение, недвижимое имущество, автомобиль.

Необходимо построить две модели.

Модель, разрабатываемая для специальности кредитный эксперт, должна выражать зависимость Y = F(X) или Y(X). На основе полученного Y требуется определять прибыль , которая и является общим критерием оценки.

Пусть вектор  характеризует последовательность входных воздействий, где - входные воздействия в i-ый момент времени, тогда  и .

Построенная модель должна также уметь сравнивать различные Z по критерию . Система должна работать в двух режимах: режиме ввода данных и режиме самообучения.

Для режима ввода данных должен быть реализован случай с помощью описанных моделей Y(X) для специальности кредитный эксперт.

Режим самообучения необходимо реализовать в виде конечного вероятностного автомата вида S = <A, B, C, , , a0 >.

Множество А – множество состояний автомата, характеризующее вопросы к пользователю, a0 Î А - начальное состояние автомата.

 Множество B – множество входных сигналов {x}, где x = < b1, b2 > и b1Î{«выйти», «следующий вопрос»}, b2 – переменная из множества всевозможных ответов на заданный вопрос.

 Множество C – множество выходных сигналов {«правильно», «неправильно»}.

Функция  (b, a) - вероятностная функция переходов из состояния в состояние.

Так если b1 Î B и b1 = «выйти», то автомат переходит в конечное состояние, если b1 = «следующий вопрос», то автомат с вероятностью  переходит в любое другое состояние отличное от конечного и начального состояния.

Функция  (b, a) - функция выходов, назначение которой сравнение двух решений поставленного вопроса: решения b2, предложенного кредитным экспертом, и эталонного решения, определяемого по модели Y(X) или Y(Z) илиY(X1) в зависимости от типа вопроса.

2. Построение модели на основе логистической регрессии

рис. Интерфейс скоринговой системы

ЭТАП 1: Полный обучающий набор

Модель LR2. Обучающий набор с уравновешенными наблюдениями.                                 

Точка отсечения: 0.5

Матрица ошибок;

Таблица 1

Actual

Predicted

Bad

Good

Bad

72.92%

27.08%

Good

41.76%

58.24%

Общая точность модели                         62.33% Доля принятых заявок                           49.55%

Bad rate                                                             15.23%


ЭТАП 2: Набор без «неопределенных» заемщиков

Модель LR3. Несбалансированный обучающий набор.                         

Точка отсечения: 0.63                                                                  

Матрица ошибок:

Таблица 2

Actual

Predicted

Bad

Good

Bad

53.33%

46.67%

Good

25.17%

74.83%

Общая точность модели                                     68.1 6%

Доля принятых заявок                                        66.09%

Bad rate                                                                 21.92%

 

 

Модель LR4. Обучающий набор с уравновешенными наблюдениями.                   

Точка отсечения: 0.44                                                                                      

Матрица ошибок:

Таблица 3

Actual

Predicted

Bad

Good

Bad

71.18%

28.82%

Good

38.72%

61 .28%

Общая точность модели                                      64.35%

Доля принятых заявок                                        51 .20%

Bad rate                                                                 17.47%

3. Построение скоринговых моделей на основе правил решений

Модели на основе правил решений являются модификацией метода деревьев решений. На основе оптимального дерева решений формируется и обобщается набор формализованных правил, определяющих принадлежность заемщика «хорошей» или «плохой» категории. В целом модели правил решений показывают точность чуть ниже деревьев решений, однако имеют преимущество передними в уровне обобщения, и менее резко реагируют на изменения профиля заемщиков.

Результаты построения моделей таковы

Этап 1: полный обучающий набор

Модель DR1. Уровень обобщения 0,25.                      

Матрица ошибок:

Таблица 4

Actual

Predicted

Bad

Good

Bad

35,82%

64.18%

Good

10.63%

89.37%

Общая точность модели                         74.45%

Доля принятых заявок                           82.35%

Bad rate                                                 21.72%

 

Модель DR2. Уровень обобщения 0,45.

Матрица ошибок:

Таблица 5

Actual

Predicted

Bad

Good

Bad

36,25%

63.75%

Good

11.61%

88.39%

Общая точность модели                         73.86%

Доля принятых заявок                           81 .52%

Bad rate                                                  21.79%

 

Этап 2: набор без «неопределенных» заемщиков.

Модель DR3. Уровень обобщения 0,25.                              

Матрица ошибок:

Таблица 6

Actual

Predicted

Bad

Good

Bad

40,00%

60.00%

Good

19.46%

80.54%

Общая точность модели                           67.96%

Доля принятых заявок                             74.1 7%

Bad rate                                                   25.11%

 

Модель DR4. Уровень обобщения 0,45.

Матрица ошибок:

Таблица 7

Actual

Predicted

Bad

Good

Bad

45.38%

54.62%

Good

23.72%

76.28%

Общая точность модели                          66.69% 

Доля принятых заявок                           69.56%

Bad rate                                                 24.38%

 

В соответствии с условиями кредитования определенного банка в разработанной системе возможно установление жестких правил по выдаче конкретного результата, т.е. возможности или невозможности выдачи кредита. В связи с этим, а также с учетом рассматриваемых параметров кредитования и установлением 70% барьера положительного результат возможны следующие варианты событий:

1.   Если 70% удовлетворяет условию, то 135 = 371.293 варианта возможности выдачи кредита и 1,2×109 - не выдачи кредита.

2.   Если 80% удовлетворяет условию, то 144 = 38.416 варианта возможности выдачи кредита и 2,6×108 - не выдачи кредита.

3.   Если 90% удовлетворяет условию, то 162 = 256 вариантов возможности выдачи кредита и 65.536 - не выдачи кредита.

4.   Если 99% удовлетворяет условию, то 1 вариант возможности выдачи кредита и 0 - не выдачи кредита.

Заключение

В данной работе представлена экспертная система – скоринговая система. Идея построения состоит в том, чтобы каждому клиенту банка поставить в соответствие некоторое вещественное число, которое характеризовало бы его платежеспособность. Затем, по этому числу определяется вероятность, с которой клиент выплатит кредит. Далее несколькими способами формируется критерий выдачи кредита.

В результате проведения отладки и последующего тестирования было установлено, что протокол работает корректно в соответствии с требованиями, указанными в ТЗ дипломного проекта. Сформированы протоколы тестирования функций в составе протокола.

Литература

1.   Барский А.Б. «Нейронные сети: распознавание, управление, принятие решений». – М.: Финансы и статистика», 2004г.

2.   Каллан Р. «Основные концепции нейронных сетей». – М.: «Вильямс», 2003г.

3.   Круглов В.В., Борисов В.В. «Искусственные нейронные сети. Теория и практика». – М.: «Горячая линия – Телеком», 2002г. 2-е издание.