Мошенничество — это не просто неприятность; это индустрия объемом 12,5 миллиардов долларов. Согласно данным FTC за 2024 год, зарегистрированные потери от мошенничества резко возросли. Традиционные системы, основанные на правилахМошенничество — это не просто неприятность; это индустрия объемом 12,5 миллиардов долларов. Согласно данным FTC за 2024 год, зарегистрированные потери от мошенничества резко возросли. Традиционные системы, основанные на правилах

Создайте систему защиты от мошенничества с искусственным интеллектом в реальном времени с помощью Python, XGBoost и BERT

2025/12/15 04:04
5м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Мошенничество — это не просто неприятность; это индустрия объемом 12,5 миллиардов долларов. Согласно данным FTC за 2024 год, зарегистрированные потери от мошенничества резко возросли, причем только инвестиционное мошенничество составляет почти половину этой суммы.

Для разработчиков и системных архитекторов задача двояка:

  1. Мошенничество с транзакциями: Обнаружение аномалий в структурированных финансовых данных (Кто отправил деньги? Куда? Сколько?).
  2. Коммуникационное мошенничество (Спам/Фишинг): Обнаружение злонамеренных намерений в неструктурированном тексте (SMS-ссылки, фишинговые электронные письма).

Традиционные системы, основанные на правилах ("Если сумма > 10 000 долларов, отметить"), слишком хрупки. Они генерируют ложные срабатывания и пропускают развивающиеся векторы атак.

В этом инженерном руководстве мы создадим Двухуровневую систему защиты. Мы реализуем высокоскоростную модель XGBoost для мониторинга транзакций и BERT-based NLP-движок для обнаружения спама, обернув все это в облачную микросервисную архитектуру.

Давайте приступим к созданию.

Архитектура: Реальное время и облачные технологии

Мы не создаем пакетное задание, которое выполняется за ночь. Мошенничество происходит за миллисекунды. Нам нужен движок вывода в реальном времени.

Наша система состоит из двух отдельных конвейеров, подающих данные в центральный механизм принятия решений.

Технический стек

  • Язык: Python 3.9+
  • Структурированное обучение: XGBoost (Extreme Gradient Boosting) и Random Forest.
  • NLP: Hugging Face Transformers (BERT) и Scikit-learn (Naïve Bayes).
  • Развертывание: Docker, Kubernetes, FastAPI.

Часть 1: Защитник транзакций (XGBoost)

При работе с табличными финансовыми данными (Сумма, Время, Местоположение, ID устройства), XGBoost в настоящее время является королем горы. В наших тестах он достиг 98,2% точности и 97,6% прецизионности, превзойдя Random Forest как по скорости, так и по надежности.

Проблема: Несбалансированные данные

Мошенничество редко. Если у вас 100 000 транзакций, возможно, только 30 из них являются мошенническими. Если вы обучите модель на этом, она будет просто угадывать "Легитимно" каждый раз и достигнет 99,9% точности, пропуская при этом каждый случай мошенничества.

Решение: Мы используем SMOTE (Synthetic Minority Over-sampling Technique) или взвешивание классов во время обучения.

План реализации

Вот как настроить классификатор XGBoost для оценки транзакций.

import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import precision_score, recall_score, f1_score import pandas as pd # 1. Load Data (Anonymized Transaction Logs) # Features: Amount, OldBalance, NewBalance, Location_ID, Device_ID, TimeDelta df = pd.read_csv('transactions.csv') X = df.drop(['isFraud'], axis=1) y = df['isFraud'] # 2. Split Data X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. Initialize XGBoost # scale_pos_weight is crucial for imbalanced fraud data model = xgb.XGBClassifier( objective='binary:logistic', n_estimators=100, learning_rate=0.1, max_depth=5, scale_pos_weight=10, # Handling class imbalance use_label_encoder=False ) # 4. Train print("Training Fraud Detection Model...") model.fit(X_train, y_train) # 5. Evaluate preds = model.predict(X_test) print(f"Precision: {precision_score(y_test, preds):.4f}") print(f"Recall: {recall_score(y_test, preds):.4f}") print(f"F1 Score: {f1_score(y_test, preds):.4f}")

Почему XGBoost выигрывает:

  • Скорость: Он обрабатывает табличные данные значительно быстрее, чем глубокие нейронные сети.
  • Разреженность: Он изящно обрабатывает отсутствующие значения (что часто встречается при снятии отпечатков устройств).
  • Интерпретируемость: В отличие от "Черного ящика" нейронной сети, мы можем вывести важность признаков, чтобы объяснить, почему транзакция была заблокирована.

Часть 2: Охотник за спамом (NLP)

Мошенничество часто начинается со ссылки. "Нажмите здесь, чтобы обновить свой KYC." \n Для обнаружения этого нам нужна обработка естественного языка (NLP).

Мы сравнили Naïve Bayes (легкий, быстрый) с BERT (глубокое обучение).

  • Naïve Bayes: 94,1% точности. Хорош для простого спама с ключевыми словами.
  • BERT: 98,9% точности. Необходим для "контекстного" фишинга (например, социально спроектированных писем, которые не выглядят как спам).

План реализации (BERT)

Для производственной среды мы дообучаем предварительно обученную модель Transformer.

from transformers import BertTokenizer, BertForSequenceClassification import torch # 1. Load Pre-trained BERT model_name = "bert-base-uncased" tokenizer = BertTokenizer.from_pretrained(model_name) model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2) def classify_message(text): # 2. Tokenize Input inputs = tokenizer( text, return_tensors="pt", truncation=True, padding=True, max_length=512 ) # 3. Inference with torch.no_grad(): outputs = model(**inputs) # 4. Convert Logits to Probability probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1) spam_score = probabilities[0][1].item() # Score for 'Label 1' (Spam) return spam_score # Usage msg = "Urgent! Your account is locked. Click http://bad-link.com" score = classify_message(msg) if score > 0.9: print(f"BLOCKED: Phishing Detected (Confidence: {score:.2%})")

Часть 3: Рабочий процесс "Жесткой остановки"

Обнаружение бесполезно без действия. Самая инновационная часть этой архитектуры — Логика вмешательства.

Мы не просто регистрируем мошенничество; мы перехватываем путь пользователя.

Рабочий процесс:

  1. Пользователь получает SMS: "Обновите способ оплаты."
  2. Пользователь нажимает: Клик направляется через наш микросервис.
  3. Сканирование в реальном времени: URL и тело сообщения оцениваются моделью BERT.
  4. Точка принятия решения:
  • Безопасно: Пользователь перенаправляется на фактический платежный шлюз.
  • Мошенничество: Появляется предупреждение "Жесткая остановка".

Примечание: В отличие от стандартных фильтров электронной почты, которые перемещают элементы в папку "Спам", эта система находится между кликом и пунктом назначения, предотвращая загрузку пользователем вредоносной нагрузки.

Ключевые метрики

При развертывании в производство "Точность" — это показатель тщеславия. Вам нужно следить за Прецизионностью и Полнотой.

  • Ложные срабатывания (падение прецизионности): Вы блокируете законного пользователя от покупки кофе. Они злятся и перестают использовать ваше приложение.
  • Ложные пропуски (падение полноты): Вы позволяете хакеру опустошить счет. Вы теряете деньги и репутацию.

В нашем исследовании XGBoost обеспечил наилучший баланс:

  • Точность: 98,2%
  • Полнота: 95,3% (Он поймал 95% всех случаев мошенничества).
  • Задержка: Быстрый вывод, подходящий для блокировки в реальном времени.

Заключение

Эра ручного обзора мошенничества закончилась. С взрывным ростом объемов транзакций единственная масштабируемая защита — это ИИ.

Объединяя XGBoost для структурированных данных транзакций и BERT для неструктурированных коммуникационных данных, мы создаем надежный щит, который защищает пользователей не только от финансовых потерь, но и от социальной инженерии, которая им предшествует.

Следующие шаги для разработчиков:

  1. Контейнеризация: Оберните приведенные выше скрипты Python в Docker.
  2. Предоставление API: Используйте FastAPI для создания конечной точки /predict.
  3. Развертывание: Отправьте в Kubernetes (EKS/GKE) для возможностей автоматического масштабирования.

\ \

Возможности рынка
Логотип RealLink
RealLink Курс (REAL)
$0.05787
$0.05787$0.05787
+1.54%
USD
График цены RealLink (REAL) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Аналитик предсказывает ралли "Uptober" для BTC независимо от решения FOMC

Аналитик предсказывает ралли "Uptober" для BTC независимо от решения FOMC

Пост «Аналитик прогнозирует ралли «Uptober» для BTC независимо от решения FOMC» появился на BitcoinEthereumNews.com. Биктоин торговался по цене 116 236 $ по состоянию на 14:04 UTC 17 сентября, увеличившись примерно на 1% за последние 24 часа, удерживаясь выше ключевого уровня, пока рынки ожидают объявления политики Федеральной резервной системы. Комментарии аналитиков Dean Crypto Trades отметил на X, что биткоин находится всего примерно на 7% выше своего локального пика после выборов, в то время как S&P 500 вырос на 9%, а золото подскочило на 36% за тот же период. Он сказал, что биткоин сжался больше, чем эти активы, что делает его вероятным лидером следующего более крупного движения, хотя он может сформировать «более низкий максимум» перед дальнейшим расширением. Он добавил, что эфир может присоединиться, как только преодолеет отметку в 5 000 $ и войдет в фазу поиска цены. Lark Davis указал на историю биткоина вокруг сентябрьских заседаний FOMC, отметив, что каждое сентябрьское решение с 2020 года — за исключением медвежьего рынка 2022 года — предшествовало сильному ралли. Он подчеркнул, что паттерн меньше связан с самим выбором ставки ФРС и больше с сезонной динамикой, утверждая, что биткоин имеет тенденцию процветать в этот период, направляясь в «Uptober». Технический анализ CoinDesk Research Согласно модели данных технического анализа CoinDesk Research, биткоин вырос примерно на 0,9% в течение аналитического окна 16-17 сентября, поднявшись с 115 461 $ до 116 520 $. BTC достиг максимума сессии в 117 317 $ в 07:00 UTC 17 сентября перед консолидацией. После этого пика биткоин несколько раз тестировал диапазон 116 400 $–116 600 $, подтверждая его как зону краткосрочной поддержки. В последний час сессии, между 11:39 и 12:38 UTC, BTC попытался совершить прорыв: цены двигались в узком диапазоне между 116 351 $ и 116 376 $ перед скачком до 116 551 $ в 12:34 при более высоком объеме. Это подтвердило паттерн консолидации-прорыва, хотя прибыль была скромной. В целом, биткоин остается устойчивым выше 116 000 $, с поддержкой около 116 400 $ и сопротивлением около 117 300 $. Последний 24-часовой и месячный анализ графика Последний 24-часовой график данных CoinDesk, заканчивающийся в 14:04 UTC...
Поделиться
BitcoinEthereumNews2025/09/18 12:42
Бум ИИ лишил криптоиндустрию больше половины активных разработчиков

Бум ИИ лишил криптоиндустрию больше половины активных разработчиков

С начала 2025 года количество публикаций кода в криптопроектах обвалилось на 75% — с 850 000 до 210 000. Число активных разработчиков снизилось на 56%, до 4600
Поделиться
Forklog2026/03/12 18:11
7 дней на AI-продукт: как мы автоматизировали подготовку к международным экзаменам

7 дней на AI-продукт: как мы автоматизировали подготовку к международным экзаменам

Представьте, что у вас всего неделя, чтобы сделать AI-продукт, который превращает рутинные учебные планы для международных экзаменов в персональные траектории д
Поделиться
ProBlockChain2026/03/12 14:00