Финансовые системы каждый день генерируют потоки данных: транзакции, котировки, события в мобильных приложениях, отчёты партнёров. Данные легко превратить в витрины и отчёты. Сложнее — превратить их в прогноз, который помогает принять решение в моменте.
Предиктивная аналитика отвечает на вопрос «что, скорее всего, произойдёт дальше». В финтехе это обычно сводится к вероятности события или прогнозу числа: риск дефолта, вероятность мошенничества, ожидаемый спрос на продукт. Дальше модель уже превращают в действие: лимит, скоринговый порог, приоритет проверки.
В статье расскажем, какие типы моделей чаще используют в финтехе, где они применяются, как обычно устроен конвейер данных и моделей, и какие ограничения чаще всего ломают качество в эксплуатации.
Выбор модели зависит от задачи и данных. Для бинарных решений подходит классификация. Для последовательностей во времени — модели временных рядов. Для поиска странного поведения — аномалии. Ниже — коротко про каждый класс.
Классификаторы отвечают на вопросы «да/нет» или «к какому классу относится объект». В банке это может быть:
решение по выдаче кредита,
проверка транзакции на мошенничество,
определение сегмента нового клиента.
Классификатор обучают на исторических данных: доход, стаж, кредитная история, соотношение долга к доходу. Качество упирается в признаки и в то, как собраны данные. В скоринге и антифроде важно заранее выбрать метрики (https://journal-vniispk.ru/1994-9960/article/view/280191) и пороги, потому что цена ошибки у разных типов промаха разная.
Модели временных рядов работают с последовательностями значений во времени. В финтехе ими прогнозируют динамику котировок, ставок и курсов. Иногда важнее не точная цифра, а диапазон или вероятность события, например резкого отклонения.
В практических моделях учитывают тренды, сезонность, циклы и внешние факторы, например цены на сырьё или макроэкономические релизы. Это помогает снизить ошибку, когда ряд меняется из‑за внешних причин, а не из‑за собственной динамики.
Аномалии — это отклонения от «нормального» поведения. «Норму» задаёт профиль клиента или профиль группы. В антифроде это выглядит так: по счёту обычно проходят небольшие операции, и вдруг появляется крупное списание или серия нетипичных транзакций. Система поднимает флаг.
Модели можно регулярно дообучать на новых данных. Так система быстрее реагирует на новые схемы мошенничества. Но без мониторинга и контроля качества этот контур легко начинает ошибаться.
Кластеризация группирует объекты без заранее заданных меток. Так находят скрытые структуры в данных, которые сложно описать правилами.
Пример — сегментация клиентов по истории транзакций, остаткам и использованию продуктов. Это помогает выбирать стратегии работы с группами и точнее оценивать риск, потому что внутри кластера поведение обычно более однородное.
Регрессия прогнозирует число, а не класс. В финансах её используют, чтобы оценить спрос на кредиты при разных ставках и спрогнозировать доходность портфеля с учётом волатильности.
Регрессия учитывает сразу несколько факторов. Так проще проверить, какие признаки реально влияют на результат и в какую сторону.
В финтехе решения принимают быстро, а цена ошибки высокая. Рынок меняется, схемы мошенничества эволюционируют, регуляторные требования ужесточаются. Предиктивные модели помогают там, где ручных правил и статической сегментации уже не хватает.
рынок меняется быстрее, чем обновляются ручные правила;
сегментации недостаточно, когда нужен прогноз поведения и риск‑профиля;
для моделей важны единые расчёты признаков и трассируемость данных;
мошеннические схемы появляются регулярно, поэтому важно обнаружение в реальном времени.
Торговля акциями и управление портфелем. Модели анализируют котировки и новости и ищут повторяющиеся закономерности. В портфельных задачах учитывают доходность, риск и взаимосвязь активов. Это помогает пересчитывать веса инструментов, когда условия рынка меняются.
Бюджетирование и учёт. Статичные бюджеты плохо работают, когда показатели быстро меняются. Предиктивные модели помогают регулярно обновлять прогноз доходов и расходов и видеть отклонения от плана раньше, чем они станут проблемой.
Маркетинг и продажи. Статичные бюджеты плохо работают, когда показатели быстро меняются. Предиктивные модели помогают регулярно обновлять прогноз доходов и расходов и видеть отклонения от плана раньше, чем они станут проблемой.
Кредитный скоринг. Скоринг особенно сложен для клиентов с короткой или нулевой кредитной историей. Тогда используют дополнительные сигналы, например поведение в цифровых каналах и косвенные признаки платёжеспособности. При этом важно заранее проверить, что набор признаков соответствует требованиям по персональным данным и недискриминации.
Обнаружение мошенничества. Антифрод‑системы оценивают транзакции в реальном времени: сумма, место, время, устройство, контекст клиента. Если операция выбивается из профиля, она попадает в подозрительные. Модели регулярно дообучают на новых данных, чтобы не отставать от новых схем.
Чтобы получать прогнозы быстро и стабильно, в финтехе строят конвейер: сбор данных, расчёт признаков, обучение модели, сервис предсказаний, мониторинг и переобучение.
Данные приходят из разных источников: транзакции, котировки, события в приложениях, отчёты партнёров. Потоковые события часто проходят через брокеры сообщений, например Kafka. Исторические данные хранят в объектных хранилищах и аналитических базах, например S3‑совместимых хранилищах, ClickHouse или BigQuery.
Ошибка в одном признаке может изменить кредитное решение или сработку антифрода. Поэтому контроль качества данных важен так же, как и качество модели.
После подготовки данные превращают в признаки, или фичи. Это числовые характеристики поведения: частота покупок, средний чек, доля онлайн‑операций.
Для пакетной обработки часто используют Spark. Для потоковой аналитики — Flink или Kafka Streams.
Feature store — хранилище признаков. Оно помогает держать один и тот же расчёт фичей для обучения и для эксплуатации. Так меньше ошибок при развёртывании новых моделей.
Базовые задачи часто решают градиентным бустингом и моделями из scikit‑learn, например XGBoost и CatBoost. Для последовательностей, текста и новостных потоков используют нейросети на PyTorch или TensorFlow. AutoML ускоряет подбор моделей и гиперпараметров. Это снижает время на перебор вариантов, но не отменяет валидацию и контроль утечек.
Модели обычно запускают как микросервисы на FastAPI или BentoML и управляют ими через Kubernetes.
Процессы MLOps включают реестр моделей, например MLflow или DVC, мониторинг качества предсказаний и переобучение, когда меняются данные или поведение клиентов.
В кредитных и антифрод‑решениях часто требуется обосновывать результат и уметь его воспроизвести. В разных юрисдикциях правила отличаются, но общий вектор один: меньше «чёрных ящиков», больше трассируемости.
SHAP и LIME помогают оценить вклад признаков в конкретный прогноз. В эксплуатации обычно журналируют входные данные, версию модели и результат, чтобы поддержать аудит и разбор инцидентов.
Предиктивные модели уже применяют в кредитном риске, антифроде и прогнозировании спроса. Ниже — несколько примеров, которые можно проверить по открытым источникам.
Есть академическая работа Forecasting of bank sales with Sberbank as a case study (https://journal-vniispk.ru/1994-9960/article/view/280191). Авторы сравнили линейную регрессию и ARIMA с моделями машинного обучения, например Random Forest и XGBRegressor, и получили более высокую точность у ML‑подходов.
Этот пример полезен как иллюстрация: даже в «классической» задаче прогнозирования временных рядов современные модели могут выиграть, если правильно собрать признаки и валидацию.
В мировой платёжной индустрии Mastercard описывает применение генеративного ИИ и графовых методов для детекции мошенничества. В пресс‑релизе от 22 мая 2024 года компания заявляет, что подход:
повышает скорость обнаружения компрометированных карт в 2 раза;
ускоряет идентификацию мерчантов с высоким риском на 300 %.
Это хороший пример для финтех‑инженерии: модель должна работать в потоке и выдерживать высокую нагрузку, а качество надо контролировать не только по recall, но и по уровню ложных срабатываний.
JPMorgan использует инструмент Cash Flow Intelligence для задач корпоративного казначейства. В публикации говорится, что он может сократить объём ручной работы по анализу денежных потоков примерно на 90 %.
Пример показывает, что предиктивные модели дают эффект не только в клиентских сценариях, но и во внутренних процессах, где много рутинного анализа.
Предиктивная аналитика ломается по трём причинам: плохие данные, смена поведения и отсутствие контроля в эксплуатации. Плюс есть юридические и этические ограничения. Ниже — основные точки риска.
Модели учатся на истории. Ошибки и пропуски сразу бьют по качеству. Устаревшие данные о клиенте искажают скоринг. Неполные события увеличивают долю ложных срабатываний антифрод‑систем. Даже небольшие искажения могут сместить модель, когда поток транзакций большой.
В кредитных решениях часто требуется объяснение результата и понятные причины отказа. Требования зависят от страны. В США ECOA и Regulation B описывают необходимость раскрывать основные причины adverse action. В Великобритании UK GDPR ограничивает решения «только автоматизированной обработкой» для случаев с существенным эффектом, включая кредитные решения.
Нейросети и сложные ансамбли часто ведут себя как «чёрный ящик». SHAP и LIME помогают объяснять отдельные прогнозы, но они не превращают модель в полностью прозрачную формулу.
Рынок и поведение клиентов меняются. Модель, которая не переобучается и не мониторится, начинает ошибаться. Это и есть дрейф данных и дрейф концепта.
Пример: скоринг на данных 2021 года может не учитывать схемы онлайн‑платежей, которые стали массовыми позже. Тогда растёт доля дефолтов или доля ложных отказов.
Если исторические данные содержат перекосы, модель может их закреплять. Это особенно заметно в скоринге: качество может отличаться на разных группах клиентов.
Регуляторные рамки тоже важны. В ЕС ограничения на решения, основанные только на автоматизированной обработке, описаны в GDPR, статья 22. В России в 2025 году опубликован Кодекс этики в сфере разработки и применения ИИ на финансовом рынке, подготовленный по итогам консультаций с участниками рынка при участии Банка России.
Сдвиг идёт в сторону более быстрой разработки, более потоковой обработки и более строгого контроля приватности. Ниже — направления, которые чаще всего обсуждают:
AutoML и ускорение прототипирования. AutoML автоматизирует подбор моделей и гиперпараметров. Это может сократить время от идеи до первого прототипа и упростить сравнение подходов.
Потоковая аналитика. Когда растёт доля онлайн‑операций и событий в приложениях, важно обрабатывать данные почти мгновенно. Kafka и Flink часто используют как основу потока. В связке с моделями это помогает быстрее реагировать на аномалии и пересчитывать лимиты.
Федеративное и приватное обучение. Федеративный подход позволяет обучать модель на данных разных организаций или контуров без передачи самих данных. Это упрощает работу с приватностью, но усложняет обучение и отладку.
Генеративные модели. Их используют для анализа неструктурированных данных, например текста, и для моделирования сценариев. Но для риск‑решений обычно всё равно требуется строгая валидация, потому что ошибки и галлюцинации здесь дорого стоят.
Предиктивная аналитика в финтехе — практический инструмент. Он помогает принимать решения на основе вероятностей, а не только на основе правил и отчётов.
Но качество упирается в данные, дрейф, объяснимость и контроль в эксплуатации. Без мониторинга и переобучения даже сильная модель начинает деградировать.
Если выстроить конвейер данных, трассируемость и модельный контроль, предиктивные модели становятся устойчивой частью финансовых процессов.
Источник


