Автор работы: Пользователь скрыл имя, 01 Ноября 2011 в 16:00, курсовая работа
Динамичное развитие финансового рынка, появление новых инструментов и институтов способствуют возникновению явных и скрытых угроз стабильности. Предупреждение кризисов непосредственно связано с выявлением рисков и управлением ими. Примером по внедрению в международную практику методов оценки рисков является Базельское соглашение о норме собственного капитала, в котором достаточность капитала определяется при помощи коэффициентов, учитывающих кредитный, рыночный и операционный риски.
Введение………………………………………………………………….3
1. Обзор моделей оценки кредитного риска…………………………...6
1.1 Подходы к оценке кредитного риска…………………………...6
1.2 Понятие качества и прозрачности методик…………………….7
1.3 Характеристики физического лица. Структура данных………10
2. Статистические и экономические методы оценки риска…………..11
2.1 Скоринговые методики………………………………………….11
2.2 Кластерный анализ………………………………………………12
2.3 Дискриминантный анализ……………………………………….15
2.4 Дерево классификаций…………………………………………..18
2.5 Нейронные сети…………………………………………………..19
2.6 Технология Data mining………………………………………….20
2.7 Линейная вероятностная регрессионная модель……………….20
2.8 Логистическая регрессия………………………………………...24
3. Признаки устойчивости банка……………………………………….27
Заключение………………………………………………………………33
Список литературы……………………………………………………...36
2. Пошаговый метод. При выполнении дискриминантного анализа можно применить пошаговый образ действий, который рекомендуется при наличии большого количества независимых переменных.
Таблица 11. Classification Results(a)
Y | Predicted Group Membership | Total | |||
0 | 1 | ||||
Original | Count | 0 | 219 | 81 | 300 |
1 | 203 | 497 | 700 | ||
% | 0 | 73,0 | 27,0 | 100,0 | |
1 | 29,0 | 71,0 | 100,0 |
a 71,6% of original grouped cases correctly classified.
Лямбда Уилкса показывает на значимое различие групп (p < 0,001).
Таблица 12. Wilks' Lambda
Test of Function(s) | Wilks' Lambda | Chi-square | df | Sig. |
1 | ,774 | 254,126 | 10 | ,000 |
В таблице 13 приведены коэффициенты дискриминантной функции
Таблица 13. Canonical Discriminant Function Coefficients
Function | |||
1 | |||
SCHET | ,528 | ||
SROK | -,140 | ||
HISTOR | ,315 | ||
ZAIM | -,145 | ||
CHARES | ,186 | ||
TIMRAB | ,133 | ||
VZNOS | -,240 | ||
FAMIL | ,248 | ||
PORUCHIT | ,372 | ||
INIZAIMI | ,262 | ||
(Constant) | -3,288 |
Точность распознавания дискриминантным анализом выше, чем кластерным. Но результаты по-прежнему остаются неудовлетворительными.
2.4 Дерево классификаций
Дерево классификаций является более общим алгоритмом сегментации обучающей выборки прецедентов. В методе дерева классификаций сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис .1).
Рис.1.
Дерево классификации
На первом шаге разделение выборки прецедентов на сегменты производится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура повторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положительных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) выбирается автоматически.
В рассмотренной методике также не дается ответ, насколько кредит хорош или плох. Метод не позволяют получить точную количественную оценку риска и установить допустимый риск.
2.5 Нейронные сети
Нейронные сети NN используются при определении кредитоспособности юридических лиц, где анализируются выборки меньшего размера, чем в потребительском кредите. Наиболее успешной областью их применения стало выявление мошенничества с кредитными карточками. Нейронные сети выявляют нелинейные связи между переменными, которые могут привести к ошибке в линейных моделях. NN позволяют обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 2). Форма сегментов зависит от внутренней структуры NN Формулы и коэффициенты модели риска на основе NN лишены физического и логического смысла.
Рис.2. Сегменты разделения «хороших» и «плохих» объектов в NN
Нейросеть — это «черный ящик», внутреннее содержание которого (так называемые веса нейронов) не имеет смысла в терминах оценки риска. Такие методики не позволяют объяснить, почему данному заемщику следует отказать в кредите. NN-модели классификации обладают низкой стабильностью (робастностью).
2.6 Технология Data mining
В основе технологии data mining лежат алгоритмы поиска закономерностей между различными факторами в больших объемах данных. При этом анализируются зависимости между всеми факторами; но, поскольку даже при небольшом числе факторов количество их всевозможных комбинаций растет экспоненциально, в data mining применяются алгоритмы априорного отсечения слабых зависимостей. Говоря терминами анализа кредитоспособности, data mining на основе данных о выданных кредитах выявляет те факторы, которые существенно влияют на кредитоспособность заемщика, и вычисляет силу этого влияния. Соответственно, чем сильнее определенный фактор влияет на кредитоспособность, тем больший балл ему присваивается в методике скоринга. Чем больше данные держателя кредитной карты похожи на данные «кредитоспособного гражданина», тем больший лимит по кредиту он может получить, тем лучшие условия ему могут быть предоставлены
Главное преимущество методик на основе data mining заключается в том, что они могут работать на малых выборках. При больших выборках их точность, робастность и прозрачность недостаточны. В них также не дается ответ, насколько кредит хорош или плох Метод не позволяет получить количественную оценку риска, установить допустимый риск, назначить цену за риск и выявить вклады факторов и их градаций в риск.
2.7 Линейная вероятностная регрессионная модель
Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Линейная модель связывает значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой:
Y=B0+B1X1+…+BpXp+e
где e - случайная ошибка. Здесь Xk означает не "икс в степени k", а переменная X с индексом k. Традиционные названия "зависимая" для Y и "независимые" для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию. Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,σ2), ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Для получения оценок коэффициентов регрессии минимизируется сумма квадратов ошибок регрессии:
Решение задачи сводится к решению системы линейных уравнений относительно . На основании оценок регрессионных коэффициентов рассчитываются значения Y:
О качестве полученного уравнения регрессии можно судить, исследовав - оценки случайных ошибок уравнения. Оценка дисперсии случайной ошибки получается по формуле
Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.
Так как мы ищем оценки , используя случайные данные, то они, в свою очередь, будут представлять случайные величины. В связи с этим возникают вопросы:
1. Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных?
В пакете SPSS вычисляются статистики, позволяющие решить эти задачи.
Для проверки одновременного отличия всех коэффициентов регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом:
В этом разложении обычно обозначают
- общую сумму квадратов
- сумму квадратов регрессионных отклонений;
- разброс по линии регрессии.
Статистика в условиях гипотезы равенства нулю регрессионных коэффициентов имеет распределение Фишера и, естественно, по этой статистике проверяют, являются ли коэффициенты B1,…,Bp одновременно нулевыми. Если наблюдаемая значимость статистики Фишера мала (например, sig F=0.003), то это означает, что данные распределены вдоль линии регрессии; если велика (например, Sign F=0.5), то, следовательно, данные не связаны такой линейной связью.
При
сравнении качества регрессии, оцененной
по различным зависимым
Корень
из коэффициента детерминации называется
КОЭФФИЦИЕНТОМ МНОЖЕСТВЕННОЙ
В этой формуле используются несмещенные оценки дисперсий регрессионного остатка и зависимой переменной.
Если переменные X независимы между собой, то величина коэффициента bi интерпретируется как прирост y, если Xi увеличить на единицу.
Можно ли по абсолютной величине коэффициента судить о роли соответствующего ему фактора в формировании зависимой переменной? То есть, если b1>b2, будет ли X1 важнее X2?
Абсолютные значения коэффициентов не позволяют сделать такой вывод. Однако при небольшой взаимосвязи между переменными X, если стандартизовать переменные и рассчитать уравнение регрессии для стандартизованных переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию.
Дисперсия коэффициента позволяет получить статистику для проверки его значимости . Эта статистика имеет распределение Стьюдента. В выдаче пакета печатается наблюдаемая ее двусторонняя значимость - вероятность случайно при нулевом регрессионном коэффициенте Bk получить значение статистики, большее по абсолютной величине, чем выборочное.
Построим
регрессию Y на факторы Z1-Z20 по методу
линейной регрессии (табл.14.)
Таблица 14. Оценка линейной вероятностной модели
В нашем случае прогнозные значения Yf указывают на вероятность возврата (невозврата) кредита. Построим график прогнозных значений (рис.3.)
Рис.3. график прогнозных значений
Можно
видеть, что прогнозные значения
могут находиться вне интервала
[0,1] – это главный недостаток LP модели.
Поэтому приступим к построению моделей,
лишенных этих недостатков.