[МУЗЫКА] Итак,
двигаясь по кредитному процессу,
мы дошли до применения в нем математических моделей.
Мы уже обсудили, что, прежде чем применять модели, необходимо разделить контрагентов
на группы похожих между собой сущностей, риск-сегменты.
Здесь следует сделать ремарку о том, что теоретически возможно было бы этого не
делать, и вести процесс сразу по контрагентам вместе, но на практике
выяснилось, что делать это неудобно, так как не удавалось создать процесс,
который одинаково хорошо обрабатывал бы слишком разных контрагентов.
После такого разделения следует провести оценку риска сделки.
Но это сказать просто: «Оценить риск по сделке».
На практике все чуть сложнее.
Давайте посмотрим в деталях, как это делается.
Начнем с исторической справки.
Вполне понятно, что оценивать клиентов при выдаче кредита начали в тот же момент,
когда начали выдавать кредиты.
Оценка же финансового состояния компании восходит, собственно, к тому моменту,
когда компании, а не отдельные физические лица, начали использовать кредитное плечо.
Надо сказать, что первые попытки, естественно, не были формальными и
очень часто базировались на оценках « главного лица» в бизнесе,
а также на оценках гарантий, которые он мог предоставить.
С развитием коммерции и торговли подобный анализ стал сложен, и часто, например,
в случае если заемщик ведет трансграничную торговлю, невозможен.
Однако нашлось решение.
На рубеже XV–XVI веков, опять же в связи с развитием торговли,
в Италии появился такой инструмент, как финансовая отчетность.
Конечно, она была не похожа на современную формализованную систему показателей,
но тем не менее разбирающийся человек вполне мог составить мнение о том,
насколько хорошо идут дела у компании.
Далее достаточно долго шло качественное развитие.
Например, с начала XX века стала появляться единообразная отчетность,
которая предоставлялась в государственные органы и проверялась ими.
В работе, опубликованной в 1968 году, Эдвард Альтман описал
применение регрессионного анализа для построения так называемого z-score —
комбинации общеизвестных параметров компании для определения того,
насколько вероятно ее банкротство в будущем.
Стоит отметить, что результат Альтмана является совершенно феноменальным,
особенно если учесть, что статистики у него было по современным меркам
совсем ничего: она охватывала около 100 компаний.
Феноменальность его результата, например, видна из того, что некоторые банки,
в основном в США, до сих пор используют чуть-чуть модифицированный z-score.
Работа Альтмана вызвала огромную волну исследований по данной теме,
так как быстро выяснилось, что подобная формула позволяет банку получать прибыль.
Как это происходит, мы покажем далее.
Кроме того, выяснилось,
что качество формулы прямо влияет на объем получаемой прибыли.
Это немедленно спровоцировало банки развитых стран,
в первую очередь банки США и Европы, на построение огромного объема формул,
или, как их сейчас называют, моделей, ибо часто речь идет не об одной формуле,
а скорее о некой процедуре расчета.
Органы банковского регулирования и надзора, соответственно,
столкнулись с новой проблемой ввиду того,
что крупнейшие банки стали оценивать риск по разработанным собственным моделям.
Как определить корректность и точность этих моделей,
регулирующие органы совершенно не представляли.
В этих условиях западное профессиональное сообщество поступает достаточно
стандартно: собирается независимая комиссия, в которую приглашаются
компетентные представители всех заинтересованных сторон.
Они исследуют предложенные подходы и формулируют концепт тех действий,
которые приводили в прошлом к успеху, то есть так называемую «лучшую практику».
Могут ли привести к успеху иные действия?
Конечно.
Но опробованными являются вот эти.
Такая комиссия сейчас называется Базельским комитетом по банковскому
надзору, в нее входят и российские представители,
и именно издает рекомендации национальным банковским регуляторам о том, как
контролировать процедуры оценки риска, и в частности те самые модели оценки риска.
В настоящее время этот комитет вырабатывает четвертую версию своих
рекомендаций, в России же пока внедряется вторая.
Эти рекомендации сами по себе ни от кого ничего не требуют, они просто подсказывают
национальным органам банковского регулирования, центральным банкам,
какие требования стоит применять к банкам, имеющим систему риск-менеджмента.
Соответственно, центральные банки выпускают свои интерпретации базельских
рекомендаций, и часто дают очень широкие комментарии.
При этом многие из этих комментариев не менее авторитетны, чем оригинал,
и являются справочными материалами даже для тех банков,
которые не относятся к их прямой зоне ответственности.
Например, комментарии Банка Англии или комментарии Европейской банковской
ассоциации являются многотомными справочниками о подробностях возможных и
запрещенных операций при разработке процесса риск-менеджмента в целом и модели
в частности.
Отдельно отмечу, что регулирующие документы разных центральных банков иногда
сильно различаются, если стандарты ведения банковского дела в странах не совпадают,
что создает особые трудности для трансграничных корпораций.
Но вернемся к моделям.
Со времени разработки z-score прошло 50 лет, и объем данных,
доступных моделистам, значительно расширился.
Если Альтман использовал только данные из отчетности и данные о рынке ценных бумаг,
то сейчас нам доступны данные о взаимодействии компаний,
о динамике отрасли, о бенефициарах и другие.
Наличие большого количества данных на самом деле
просто усложняет те самые формулы, но не меняет суть.
Далее мы сначала рассмотрим общий подход к оцифровке риска, а потом покажем ту самую
прибыль, которую увидели банки, реализовав идеи Альтмана на практике.
Итак, что же нам нужно оценить с помощью модели?
Представьте себе, что банк выдает кредит организации.
И если организация возвращает кредит и проценты, то все благополучно, риска нет.
Если же не возвращает, возможны различные варианты.
Например, организации могут потребоваться дополнительные кредитные средства для
запуска дополнительных мощностей, и в этом случае, возможно, проект взлетит.
Или наоборот, кредитная организация уже вошла в процедуру банкротства, и нужно
передавать кредитное досье в подразделение по работе с проблемными долгами, чтобы
юристы банка в судебном процессе пытались вернуть хотя бы часть кредитных средств.
Соответственно, первое, что можно попытаться оценивать — это средние
ожидаемые потери, которые мы можем понести от сделки.
Эта величина называется EL, от английского expected loss.
Естественно, можно оценивать не среднюю величину, а доверительные интервалы.
Например, часто хочется посчитать величину,
которую потери не превзойдут с заданной вероятностью.
Например, с вероятностью 99,99 %.
В этом случае исследуют величину UL, от английского unexpected loss.
Она такова, что сумма ее с ожидаемыми потерями и составляет величину,
которую с заданной вероятностью не превзойдут потери банка в целом.
Но это сложновычислимая величина, поэтому сейчас рассмотрим только ожидаемые потери.
Ожидаемые потери — довольно неудобная метрика для моделирования.
Одним из классических подходов к ее моделированию является разбиение ее на
несколько частей.
Хорошая новость в том, что эти части имеют свой собственный физический смысл,
и сейчас очень часто используются банковским сообществом независимо.
Давайте их рассмотрим.
Отчего могут возникнуть потери?
Естественно, как мы уже говорили, нет дефолта — нет потерь.
Первая часть разложения ожидаемых потерь — это вероятность дефолта.
Конечно, сам дефолт либо есть, либо нет.
Но так как заранее определить компании, которые достоверно войдут в дефолт,
не удается, то вероятность принимает значения между нулем и единицей.
Вероятность дефолта называется PD от английского probability of default.
В соответствии с базельскими рекомендациями,
эта величина рассчитывается на уровне контрагента, потому как известно,
что случаев, когда организация значительное время платит по одним
обязательствам и не платит по другим, практически не наблюдается.
Хорошо.
Допустим, наш контрагент допустил дефолт.
Теперь определим то, чем мы рискуем.
Эта величина называется EAD, от английского exposure at default.
Часто есть непонимание, почему наш риск не равен величине текущей задолженности.
Тут существенную роль играют так называемые внебалансовые обязательства
банка, то есть такие, о которых мы уже договорились с заемщиком, и которые
заемщик может превратить в деньги по своему желанию, или которые могут
превратиться в деньги при наступлении неких не зависящих от нас событий.
К таким обязательствам относятся, например, гарантии.
В результате у банка появятся кредитные требования к заемщику,
подверженные риску дефолта.
Конечно, для среднего заемщика наблюдается снижение задолженности со временем.
Однако EAD исследуется не для средних заемщиков,
а для тех, кто допускает дефолт.
И тут выясняется, что подобные заемщики обычно с ухудшением экономического
состояния до дефолта стараются поправить ситуацию с помощью кредитных средств.
Например, по мере возможности выбирая кредитные лимиты.
И одна из задач риск-менеджмента — отслеживание подобных действий и оценка
того, не наблюдаются ли критерии дефолта и не следует ли начать более внимательно
работать с данным заемщиком, таким образом предотвращая рост его задолженности.
EAD часто оценивается на уровне отдельного обязательства и выражается
в валюте обязательства или в базовой валюте расчета,
которую использует банк для оценки портфеля.
Это величина аддитивная, и сейчас банки часто оценивают портфель не по текущей
задолженности, а по суммарному EAD, потому как понимают, что отсутствие
текущей задолженности совсем не означает нулевой объем средств под риском.
Таким образом мы оценили вероятность дефолта и задолженность,
которая будет у заемщика перед банком в момент дефолта.
Однако это еще не потери.
Последняя часть, которую нужно оценить — это доля задолженности,
которую банк реально потеряет.
Эта часть может быть, например, равна нулю в первом из примеров,
который мы привели выше, про организацию, которая выздоравливает.
Или, например, 50 %, если юристы и служба сбора «плохих» долгов банка добились
возврата половины задолженности на момент дефолта в процедуре банкротства,
а активы компании обесценились настолько,
что получить полный объем кредитных средств не удалось.
Такая величина называется «доля потерь при дефолте», или LGD,
от английского loss given default.
Она определяется на уровне обязательства,
так как банк может по-разному оценивать перспективы взыскания разных обязательств.
Например, из-за различной обеспеченности.
Ну а теперь та самая обещанная история о банковской прибыли.
Давайте рассмотрим два банка.
Они будут существовать в абсолютно одинаковых модельных внешних условиях.
Итак, банк A.
Пусть у него есть 100 клиентов, и каждому из них он выдал
кредит без свободного лимита на 100 рублей с выплатой в конце срока.
Давайте пока забудем о том, что банк может терять или не терять проценты,
это несколько затруднит нам расчет.
Пусть банк A следит за рынком и знает, что дефолт допускает каждая 20-я компания.
Это, кстати, довольно высокий уровень, похожий на кризис экономики,
но для нашего примера — это несущественно.
И пусть управление взыскания плохих долгов у банка работает эффективно,
возвращая 50 копеек с каждого рубля задолженности.
Давайте оценим уровень потери,
на которые может рассчитывать банк A согласно формуле.
Вероятность дефолта — 5 %, EAD равен 100 рублям,
уровень потерь — 50 %, ну и это по каждому заемщику, а у банка их 100.
Ожидаемые потери — величина аддитивная, поэтому получаем 250 рублей.
Это величина средних потерь.
Их, очевидно, надо закладывать в резервы и опять же, очевидно,
перекладывать на заемщиков, прямо или косвенно.
Рассмотрим банк B: у него те же 100 клиентов, но он чуть умнее.
Он умеет разделить клиентов на две группы по 50 клиентов.
С вероятностью дефолта 2.5 % — хорошей, и 7.5 % — рисковой.
Кредиты он дает такие же — по 100 рублей без доступного лимита с выплатой в
конце срока.
Кроме этого, банк внедрил систему управления риском и заранее,
до заключения сделки, знает рисковых контрагентов.
Допустим, он предлагает сделку более рискованным клиентам, требуя, например,
обеспечение или структурируя сделку лучше.
И для рисковых контрагентов — уменьшить LGD до 25 %,
ну а для хороших контрагентов, наоборот,
можно раскрутить гайки и разрешить сделки с ними, такие, что их LGD будет 75 %.
Подсчитаем?
Ожидаемые потери составят 187.5 рублей, таким образом,
банк B получил экономию четверти резервов и смог снизить объем риска,
переносимый на заемщиков, то есть процентную ставку.
И мы уже не говорим о том,
что банк B имеет возможность управлять портфелем и привлекать хороших клиентов.
Обратите внимание, что все это было достигнуто достаточно простой техникой:
потребовалось разделить заемщиков на два класса,
внедрить модель LGD и систему управления рисками в процесс кредитования.
Хорошо.
Допустим, мы все согласились, что встроить качественные модели в процесс стоит.
Но как их создать?
Как написать ту самую формулу?
При этом взять чью-то чужую формулу так просто не получится,
так как она сильно зависит от портфеля заемщиков и процессов конкретного банка.
Покажем, как примерно это делается в «Сбербанке».
Начнем с жизненного цикла построения модели,
а затем приведем примеры по всем упомянутым моделям.
Кстати, этот цикл применим абсолютно для всех моделей.
Сначала формулируются задачи.
Для моделей, о которых мы говорили ранее, она сформулирована четко и подробно.
Для прочих задач это не всегда легко сделать.
В «Сбербанке» на эту тему есть целая программа обучения правильной формализации
и оценки задач для моделирования.
Далее выделяем те признаки, часто говорят «факторы» или «фичи»,
которые эксперты считают влияющими, а мы можем собрать данные о них.
В идеале должна быть выстроена целая система подготовки данных для
моделирования, но обычно к этому банки приходят спустя 3–5 лет после начала
внедрения системы риск-менеджмента.
Часто для корпоративных заемщиков приходится использовать полуэкспертный
процесс сбора, когда сотрудники, работавшие с заемщиками,
сообщают их показатели с помощью анкет.
Это крайне трудоемко и, по нашему опыту,
часто требует очень высоких затрат на обеспечение качества данных.
Мы рекомендуем использовать этот метод, только если все другие варианты
проанализированы и признаны совершенно невозможными.
Обратите внимание, что собирать данные нужно не на сейчас и не на момент дефолта,
а по состоянию на момент, когда бы вы применяли разрабатываемую модель.
Часто для решения подобной задачи требуются системы с качественной
поддержкой историчности.
Полученный список факторов называется лонг-лист.
Кроме того, собирают данные о целевой переменной, то есть о том признаке,
который моделируется.
Обратите внимание, что часто это совершенно нетривиальная задача.
Например, представьте, что вы хотели бы моделировать PD.
В этом случае вам нужно на значительную глубину во времени восстановить
то определение дефолта, которое у вас есть сейчас.
И если вы не регистрировали как дефолт какие-либо события 5–7 лет назад,
значит сейчас придется выявлять их и также обозначать дефолтами.
Пусть факторы выделены, а данные собраны.
Что с ними делать дальше?
Нужно провести так называемый однофакторный анализ.
Поясним на примере.
Пусть вы исследуете вероятность дефолта компании и пусть ваши эксперты решили,
что цвет глаз директора является признаком, позволяющим отделять компании,
которые допустят дефолт, от всех остальных.
Вы даже умудрились определить цвет глаз директора всех ваших заемщиков.
Тогда делаем просто: смотрим, есть ли зависимость,
то есть сравниваем долю дефолта среди заемщиков с кареглазыми директорами
против доли заемщиков с голубоглазыми директорами.
Если есть статистически значимая разница, значит предположение экспертов работает.
Если нет, то — нет.
Список работающих факторов называется шорт-лист.
Далее с шорт-лист проделывают простую операцию:
оптимизационными методами исследуют возможные модели,
которые из него можно составить, и выбирают наилучшую.
О способах, которыми это можно сделать, мы поговорим чуть дальше.
Эта операция называется «многофакторный анализ» и в первую очередь определяется
тем, какой класс модели будет использоваться в моделировании.
Очень часто исследуются несколько классов.
О разных классах мы тоже расскажем чуть позже.
После этого модель считается собранной и поступает на исследование.
Во-первых, нужно оценить, что будет, если ее применить.
Этот анализ называется impact-анализ («анализ эффекта»).
Результаты анализа выносятся на рабочую группу, которая создавала модель.
В «Сбербанке» в этой группе всегда есть представители бизнеса,
которые будут использовать модель.
Они получают полное пояснение, почему модель сделана именно так,
каковы ее статистические и эксплуатационные характеристики.
После того как рабочая группа согласовала модель,
она передается особым людям — группе валидации.
Согласно байесовским рекомендациям,
эта группа людей совершенно независима от моделистов.
Ее задача — выявить ошибки в модели, любые.
Моделисты обязаны защитить модель от всех вопросов группы валидации,
которая в случае наличия спорных вопросов имеет право блокировать внедрение модели
до выяснения причин.
После этого процесс повторяется, потому что, на самом деле, окружающий мир
приспосабливается к модели, и все модели постепенно начинают работать хуже.
Плохие заемщики уходят в дефолт и вымирают.
Рисковым контрагентам отказывают в кредите,
и портфель начинает состоят только из обеспеченных кредитов.
Из-за изменения экономической ситуации модели должны пересматриваться или
проверяться не реже, чем раз в год, и чаще всего — раз в 2–3 года
перестраиваться или как минимум настраиваться под текущие условия.
Теперь рассмотрим модели PD, EAD и LGD.
Начнем с модели PD.
Здесь все достаточно просто: для построения модели собирается статистика
всего портфеля того риск-сегмента, для которого строится модель.
При этом собирать фичи нужно на момент оценки, а не на момент дефолта, так как
вам не нужна модель, которая предсказывает дефолт уже дефолтной компании.
Вообще, вопрос о моменте наблюдения является одним из самых сложных в модели
PD, так как зависит от процесса, который существовал в банке 5–7 лет назад,
а именно такая глубина нужна для этой модели.
В тех случаях, когда процесс существенно менялся,
необходимо синтетически восстанавливать точки рассчета.
Для каждого наблюдения собираются все факторы,
на слайде приведены примеры факторов из разных групп.
Обратите внимание, что часть факторов может влиять непосредственно, а часть —
через взаимодействие с другими факторами, например, фактор групповой поддержки.
В «Сбербанке» по этой причине модели являются многомодульными.
После этого проводится однофакторный и многофакторный анализ.
Традиционно в модели PD используется логистическая регрессия.
С моделью EAD все обычно проще,
так как основная информация по задолженностям все же доступна.
Кроме того байесовские рекомендации по используемой формуле.
Вы видите ее на экране.
В этом случае моделируется прирост задолженности к дефолту.
Чаще всего это делается в разрезе кредитных продуктов.
Единственным сложным вопросов здесь является процессный вопрос о том,
как трактовать выборки после дефолта,
выполняемые например в рамках реструктуризации задолженности или
раскрытия соответствующих внебалансовых обязательств.
Такой вопрос решается банками индивидуально, причем это должно
одинаковым образом учитываться и в модели EAD, и в модели LGD.
С моделью LGD обычно сложнее всего, проблем здесь несколько.
Во-первых — а обычно LGD имеет очень неприятное распределение.
Часто встречаются примерно 0 % в потере и реже,
но часто встречаются примерно 100 % потери.
Промежуточные потери встречаются гораздо реже.
Такое распределение называется U-shape и вызывает чисто математические осложнения.
Во-вторых, для модели LGD нужна сложно получаемая и разнородная информация: по
структуре активов компании, по составу и характеристикам обеспечения.
В третьих, данные для модели LGD — это только компаний, попавших в дефолт,
а не весь портфель.
При этом, так как цикл взыскания достаточно длинные,
приходится работать с очень древней информацией.
Например, если нужно взять дефолт за экономический цикл в 7 лет, плюс время на
вызревания (это более трех лет), плюс год до дефолта — итого, более 10 лет.
И, наконец, в четвертых, на LGD оказывают влияние совершенно разные факторы.
Например, если заемщик находится на грани дефолта, в ситуации,
когда чуть-чуть помочь — и все будет хорошо, то на уровень потерь влияет то,
насколько быстро банк договорится с владельцем о дополнительных гарантиях.
В этом случае потери, скорее всего, будут малы.
И совсем другое дело,
если речь идет о банкротстве и прочих малоприятных и длительных процедурах.
Тем не менее такие модели можно строить и получается достаточно хорошо.
Для решения части математических проблем часто используются следующие приемы.
Вводятся стратегии, с помощью которых решается данный дефолтный случай.
Далее сначала создается модель предсказания стратегии,
а затем в рамках каждой отдельной стратегии уже предсказывается
уровень потерь, что гораздо проще,
так как в рамках стратегии на уровень потерь влияет уже исходный набор факторов.
Ну и, наконец, то, что мы обещали обсудить чуть раньше: какие бывают классы моделей,
и как из класса выбрать лучшую модель.
Начнем с простого замечания: если у нас есть две модели,
то их достаточно простыми методами можно сравнить и выбрать лучшую.
Для этого необходимо посмотреть, насколько хорошо они работают на некоторой,
заранее отделенной части выборки.
Теперь посмотрите на левый рисунок: по горизонтали и вертикали отложены два
фактора, например долг к активам и EBITDA к выручке.
Пусть они приведены на отрезок 0–1 — несущественно, как все это сделано.
И пусть у нас есть выборка, в которой синие точки — это дефолты,
а красные — не дефолты.
Тогда можно подобрать такое направление,
чтобы вдоль него синие и красные точки были разделены самым сильным образом.
Их может быть несколько, тогда сравниваем и выбираем лучшие.
Проекцию на это направление можно назвать баллом, или, точнее, скоринговым баллом.
Далее можно сказать, что при балле меньше какого-либо уровня мы будем считать,
что новая, неизвестная нам пока точка — синяя.
А если балл больше этого значения, то точка красная.
Можно перейти от бинарной оценки к вероятностям.
То есть если балл лежит в диапазоне от 0 до 0.1, то вероятность дефолта — 50 %.
И если от 0.1 до 0.2, то 30 % и так далее.
Подобная техника называется регрессией, в данном случае линейной.
Но логистическая регрессия отличается только характером расстановки баллом.
Это очень быстрый и очень хороший работающий алгоритм,
который замечательно находит решения.
Кроме того, если бизнесу рассказать, какие признаки вошли в балл,
то модель для него ясна и прозрачна и часто может быть посчитана на коленке.
Одна проблема: метод выявляет только линейные зависимости и в случае сильно
нелинейных областей работает плохо.
Можно поступить принципиально другим способом: давайте выберем уровень
среди всевозможных уровней по осям x и y, так, что по разные стороны от
него средняя доля дефолтов будет различаться самым сильным способом.
Пусть мы разделили, и получилось два прямоугольника.
Повторим с ними такую же процедуру и будем повторять,
пока в областях не останется мало наблюдений.
Тогда с новой точкой можно проделывать цикл вопросов и ответов.
Левее или правее первой границы?
Правее.
Хорошо.
Выше или ниже второй границы?
Повторять, пока не попадете в неразделенный прямоугольник.
Если в нем больше красных, значит точка красная, если синих, то синяя.
Или назначаем долю красных в этом прямоугольнике как
вероятность быть красным.
Такой подход тоже очень хорош: быстрый, четкий, понятный бизнесу.
Ему можно показать весь алгоритм определения ответа: ищет нелинейные
зависимости.
Одна проблема: при переходе через границу изменение может быть драматическим.
Можно поступить другим способом: подать наше наблюдение на обучение нейронное
сети, справа.
Тут сразу нюансы.
Во-первых, требуется очень много точек,
ориентировочно десятки тысяч, а лучше миллион.
Если получается, то все замечательно.
Учится эта штука, конечно, дольше, чем два предыдущих метода,
зато замечательно находит нелинейные зависимости.
И есть только одна проблема: даже моделист не понимает,
почему модель дает такой результат.
И, вообще, к нейронной сети неприменим вопрос «почему?».
Как это понять?
Несложно.
Представьте, что смотрите на картину абстракциониста и видите на ней дом.
Это обозначает, что нейронная сеть в вашем мозгу решила,
что этот рисунок похож на дом.
Почему? Не понятно, почему.
Никаких явных признаков дома на картине нет, однако.
Это три класса модели из нескольких десятков,
которые используются в кредитном скоринге.
Первые два из них — и похожие — используются там, где нужно уметь
ответить, а почему модель решила так, например, в самом кредитном скоринге.
Последние — там,
где такой необходимости нет и достаточно просто качественной работы.
Например, в выявлении мошеннических действий,
так как там все равно будет проведена проверка сотрудниками службы
безопасности и достаточно просто хорошо выявлять подозрительные случаи.
[МУЗЫКА] [МУЗЫКА]