Построение скоринговых
моделей на основе логистической регрессии
Е.Б. Иванов,
к.т.н.,
с.н.с., ivanov-ics@mail.ru,
Л.А. Мещерякова,
ИПУ
РАН, г. Москва
Кредитный скоринг —
система оценки кредитоспособности (кредитных рисков) лица, основанная на
численных статистических методах. Заключается в присвоении баллов по заполнению
анкеты, разработанной оценщиками кредитных рисков андеррайтерами. По
результатам набранных баллов системой принимается решение об одобрении или
отказе в выдаче кредита. Данные для скоринговых систем получаются из
вероятностей возвратов кредитов отдельными группами заемщиков, полученными из
анализа кредитной истории тысяч людей [1].
В представленной нами работе были проведены следующие исследования:
·
Анализ процесса принятия заявки и выдачи авто-кредитов.
·
Анализ ролей и процесса принятия решения при выдаче кредита.
o Выявление зависимостей и
особенностей клиентской базы,
включая проверку предположений
относительно характерного «портрета» заемщика.
o Анализ данных, содержащихся
в обучающей выборке.
·
Построение скоринговых моделей на основе Обучающей выборки.
o Скоринг заемщиков из
Тестовой выборки с целью оценки качества полученных скоринговых моделей.
o Предварительный анализ и
построение скоринговых моделей для оценки мошенничества [2,3].
Пусть задан вектор входных
параметров Х, характеризующий кредитоспособность клиента:
· пол (М или Ж);
· возраст (18-60);
· количество детей (1-3);
· тип автомобиля (не
принципиально);
· год выпуска автомобиля (до
5 лет);
· наличие квартиры
(желательно);
· наличие дома (желательно);
· наличие гаража (желательно);
· наличие земельного участка
(желательно);
· стаж вождения автомобиля
(до 3 лет);
· тип предприятия (не
принципиально);
· занимаемая должность (не
принципиально);
· стаж работы, (от 1 года);
· стаж работы в данной сфере
(от 1 года).
Требуется определить вектор
выходных параметров Y, характеризующий прибыль:
Y = {, , },
(1)
где: – функция, характеризующая срок кредита;– функция, характеризующая процентную ставку; – функция, характеризующая долю выплат в сальдо.
Пусть задан вектор входных
параметров Х1, также характеризующий конкретный кредитоспособность отдельно
взятого клиента. В вектор X1 включены переменные вектора X и переменные: пол,
возраст, семейное положение, недвижимое имущество, автомобиль.
Необходимо построить две
модели.
Модель, разрабатываемая для
специальности кредитный эксперт, должна выражать зависимость Y = F(X) или Y(X).
На основе полученного Y требуется определять прибыль , которая и является общим критерием оценки.
Пусть вектор характеризует
последовательность входных воздействий, где - входные воздействия в i-ый момент времени, тогда и .
Построенная модель должна
также уметь сравнивать различные Z по критерию . Система должна работать в двух режимах: режиме ввода данных
и режиме самообучения.
Для режима ввода данных
должен быть реализован случай с помощью описанных моделей Y(X) для специальности
кредитный эксперт.
Режим
самообучения необходимо реализовать в виде конечного вероятностного автомата
вида S = <A, B, C, , , a0 >.
Множество
А – множество состояний автомата, характеризующее вопросы к пользователю, a0 Î А - начальное состояние автомата.
Множество B – множество входных сигналов {x},
где x = < b1, b2 > и b1Î{«выйти», «следующий
вопрос»}, b2 – переменная из множества всевозможных ответов на заданный вопрос.
Множество C – множество выходных сигналов
{«правильно», «неправильно»}.
Функция
(b, a) - вероятностная функция переходов из состояния в состояние.
Так
если b1 Î B и b1 = «выйти», то
автомат переходит в конечное состояние, если b1 = «следующий вопрос», то
автомат с вероятностью переходит в любое
другое состояние отличное от конечного и начального состояния.
Функция
(b, a) - функция выходов, назначение которой сравнение двух решений
поставленного вопроса: решения b2, предложенного кредитным экспертом, и эталонного
решения, определяемого по модели Y(X) или Y(Z) илиY(X1) в зависимости от типа
вопроса.
рис. Интерфейс скоринговой
системы
ЭТАП 1: Полный обучающий набор
Модель LR2. Обучающий набор с уравновешенными наблюдениями.
Точка отсечения: 0.5
Матрица ошибок;
Таблица 1
Actual |
Predicted |
Bad |
Good |
Bad |
72.92% |
27.08% |
|
Good |
41.76% |
58.24% |
|
Общая точность
модели 62.33%
Доля принятых заявок
49.55% Bad rate
15.23% |
ЭТАП 2: Набор без
«неопределенных» заемщиков
Модель LR3.
Несбалансированный обучающий набор.
Точка отсечения: 0.63
Матрица ошибок:
Таблица 2
Actual |
Predicted |
Bad |
Good |
Bad |
53.33% |
46.67% |
|
Good |
25.17% |
74.83% |
|
Общая точность модели 68.1 6% Доля принятых заявок 66.09% Bad rate
21.92% |
Модель LR4. Обучающий набор
с уравновешенными наблюдениями.
Точка отсечения: 0.44
Матрица ошибок:
Таблица 3
Actual |
Predicted |
Bad |
Good |
Bad |
71.18% |
28.82% |
|
Good |
38.72% |
61 .28% |
|
Общая точность
модели
64.35% Доля принятых заявок 51 .20% Bad rate
17.47% |
Модели на основе правил
решений являются модификацией метода деревьев решений. На основе оптимального
дерева решений формируется и обобщается набор формализованных правил,
определяющих принадлежность заемщика «хорошей» или «плохой» категории. В целом
модели правил решений показывают точность чуть ниже деревьев решений, однако
имеют преимущество передними в уровне обобщения, и менее резко реагируют на
изменения профиля заемщиков.
Результаты построения моделей таковы
Этап 1: полный обучающий набор
Модель DR1. Уровень обобщения 0,25.
Матрица ошибок:
Таблица 4
Actual |
Predicted |
Bad |
Good |
Bad |
35,82% |
64.18% |
|
Good |
10.63% |
89.37% |
|
Общая точность модели 74.45% Доля принятых заявок 82.35% Bad rate
21.72% |
Модель DR2. Уровень обобщения 0,45.
Матрица ошибок:
Таблица 5
Actual |
Predicted |
Bad |
Good |
Bad |
36,25% |
63.75% |
|
Good |
11.61% |
88.39% |
|
Общая точность
модели 73.86% Доля принятых заявок 81 .52% Bad rate 21.79% |
Этап 2: набор без «неопределенных» заемщиков.
Модель DR3. Уровень обобщения 0,25.
Матрица ошибок:
Таблица 6
Actual |
Predicted |
Bad |
Good |
Bad |
40,00% |
60.00% |
|
Good |
19.46% |
80.54% |
|
Общая точность модели 67.96% Доля принятых заявок 74.1 7% Bad rate
25.11% |
Модель DR4. Уровень обобщения 0,45.
Матрица ошибок:
Таблица 7
Actual |
Predicted |
Bad |
Good |
Bad |
45.38% |
54.62% |
|
Good |
23.72% |
76.28% |
|
Общая точность модели 66.69% Доля принятых заявок 69.56% Bad rate
24.38% |
В соответствии с условиями
кредитования определенного банка в разработанной системе возможно установление
жестких правил по выдаче конкретного результата, т.е. возможности или
невозможности выдачи кредита. В связи с этим, а также с учетом рассматриваемых
параметров кредитования и установлением 70% барьера положительного результат
возможны следующие варианты событий:
1.
Если 70% удовлетворяет условию, то 135 = 371.293 варианта возможности
выдачи кредита и 1,2×109 - не выдачи кредита.
2.
Если 80% удовлетворяет условию, то 144 = 38.416 варианта возможности выдачи
кредита и 2,6×108 - не выдачи кредита.
3.
Если 90% удовлетворяет условию, то 162 = 256 вариантов возможности
выдачи кредита и 65.536 - не выдачи кредита.
4.
Если 99% удовлетворяет условию, то 1 вариант возможности выдачи кредита
и 0 - не выдачи кредита.
В данной работе представлена экспертная система –
скоринговая система. Идея построения состоит в том, чтобы каждому клиенту банка
поставить в соответствие некоторое вещественное число, которое характеризовало
бы его платежеспособность. Затем, по этому числу определяется вероятность, с
которой клиент выплатит кредит. Далее несколькими способами формируется
критерий выдачи кредита.
В
результате проведения отладки и последующего тестирования было установлено, что
протокол работает корректно в соответствии с требованиями, указанными в ТЗ
дипломного проекта. Сформированы протоколы тестирования функций в составе протокола.
1.
Барский А.Б. «Нейронные сети: распознавание, управление, принятие
решений». – М.: Финансы и статистика», 2004г.
2.
Каллан Р. «Основные концепции нейронных сетей». – М.: «Вильямс», 2003г.
3.
Круглов В.В., Борисов В.В. «Искусственные нейронные сети. Теория и
практика». – М.: «Горячая линия – Телеком», 2002г. 2-е издание.