Пока индустрия спорит о «пузыре», обсуждая, почему оценка очередного стартапа с одной оберткой над GPT-5 на высоте, реальный сектор строит AI-инфраструктуру. МыПока индустрия спорит о «пузыре», обсуждая, почему оценка очередного стартапа с одной оберткой над GPT-5 на высоте, реальный сектор строит AI-инфраструктуру. Мы

ML-дайджест: автономные агенты, новый стандарт безопасности и инференс-гонка

2026/02/27 16:00
9м. чтение
e38f4be866635b965179a3dfaef54f24.jpeg

Пока индустрия спорит о «пузыре», обсуждая, почему оценка очередного стартапа с одной оберткой над GPT-5 на высоте, реальный сектор строит AI-инфраструктуру. Мы движемся к сервисам, где по кнопкам в интерфейсах будут кликать не люди, а автономные агенты.

В этом дайджесте разберем подробности самых нашумевших новинок, почему CEO Databricks предрекает закат классического SaaS, как AMD догоняет NVIDIA в тестах инференса и почему безопасность агентов — это новый тoп-10 OWASP. Подробности под катом!

Databricks: эпоха невидимого софта, SaaS под вопросом

Источник.
Источник.

Али Годси, CEO и сооснователь Databricks, не так давно сделал громкое заявление, что ИИ вскоре обесценит саму концепцию традиционного SaaS. Примерно такие заголовки пишут популярные СМИ, и логика в этом есть. Десятилетиями компании строили «рвы» вокруг своих продуктов, обучая миллионы специалистов нажимать кнопки именно в их интерфейсах, будь то Salesforce или SAP. Но если работу делает ИИ-агент, интерфейс становится «прозрачным». Нам больше не нужны специалисты под конкретные программы — нам нужны инструменты контроля и качественные данные.

Но пока Databricks показывает лишь агрессивный рост:

  • выручка — достигла $5,4 млрд (run-rate), показав рост на 65% год к году;

  • AI-сектор — принес более $1,4 млрд, а retention (удержание клиентов) держится выше 140%;

  • новые рекорды — Их база данных Lakebase, созданная специально для агентов, за первые восемь месяцев заработала вдвое больше, чем классический Data Warehouse за тот же период в свое время.

Али Годси специально подчеркивает эти цифры, чтобы развеять миф об уничтожении SaaS: для Databricks ИИ не убивает бизнес, а лишь ускоряет потребление ресурсов платформы.

Если есть «кнопки для контроля», то продукты, которые не смогут спрятать свой UI за качественным API для агентов, могут скоро оказаться историей или взглядом в прошлое. На фоне такого взлета Databricks не спешит на IPO. Вместо этого компания привлекла $5 млрд инвестиций при оценке в $134 млрд и открыла кредитную линию еще на $2 млрд. Это огромная «подушка безопасности», которая позволяет им спокойно строить инфраструктуру, не оглядываясь на биржевой рынок и его перепады.

ML Impact — про ML и AI без хайпа

Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.

Подробнее →

InferenceX v2: NVIDIA Blackwell лидирует над AMD в SOTA-режимах

Показали свежую порцию сравнительных тестов GPU. Главное: AMD догнала NVIDIA в простых сценариях и составляет здоровую конкуренцию, но в сложных продакшн-системах все не так однозначно, давайте смотреть нюансы.

Rack-scale NVL72 против multi-node AMD

Бенчмарк InferenceX v2 от SemiAnalysis оценивает работу чипов в реальных архитектурах, на которых сегодня крутятся все модели. Исследование фокусируется на самых свежих методах оптимизации, таких как формат FP4 и MoE, которые важны для инференса на уровне целых дата-центров.

Системы NVIDIA GB200/GB300 NVL72 показали большой отрыв от предыдущего поколения (H100 baseline). В сценариях с использованием MoE-моделей и формата FP4 производительность выросла почти в 100 раз при сохранении высокой скорости генерации (116 токенов в секунду на пользователя). С точки зрения экономики новая архитектура Blackwell также эффективнее Hopper: преимущество по показателю tokens-per-dollar составляет от 10 до 65 раз.

Опубликованы первые сторонние бенчмарки AMD MI355X. В single-node или частично оптимизированных настройках MI355X выдает сопоставимую или даже лучшую производительность по соотношению производительности к стоимости владения (TCO) против аналогичных NVIDIA-систем на FP8 — особенно с SGLang и без всех трех передовых оптимизаций сразу.​

Но как только активируется полный современный набор методов оптимизации (disaggregated prefill + wide expert parallelism + FP4), NVIDIA B200/B300 и GB200/GB300 NVL72 резко отрываются вперед. Софт AMD пока не тянет их одновременную работу.

Источник.
Источник.

Программное обеспечение и его компановка


За короткий срок AMD пошла вперед: производительность DeepSeek R1 в режиме FP4 на базе SGLang практически удвоилась всего за месяц (с декабря 2025 по январь 2026 года). Сейчас оптимизированный форк SGLang активно переносится в основную ветку разработки.

Источник.
Источник.

Однако слабым местом остается «композиция» технологий: софт AMD пока не справляется с одновременным включением всех ключевых оптимизаций. При попытке объединить FP4, раздельный инференс и wide-EP — а именно так работают ведущие провайдеры — производительность резко падает. В таких сложных связках реальные показатели MI355X оказываются значительно ниже тех цифр, которые обещали в теории.

Если смотреть на общую картину — баланс между скоростью отклика и пропускной способностью, — NVIDIA Blackwell выше AMD по энергоэффективности и стоимости генерации токенов.

Мини-итог

InferenceX v2 показывает, что AMD быстро прогрессирует и уже борется за средний сегмент. Однако когда системы Blackwell NVL72 работают со всеми включенными SOTA-оптимизациями, AMD пока не конкурент.

AMD нужно срочно дорабатывать совместимость софта (FP4 + distributed + wide-EP). Пока потенциал железа заблокирован программными ограничениями, NVIDIA сохраняет значительный отрыв в производительности и стоимости для передовых внедрений.

ИИ-агенты в действии: экономика, риски и эволюция организационных моделей

В конце прошлого года Axenix представили масштабный доклад. Он был полностью посвящен аспектам использования ИИ-агентов в российском бизнесе. Сейчас многие компании переходят от простых чат-ботов к внедрению ИИ-систем, поэтому глубокая аналитика по окупаемости пришлась как нельзя кстати.

Затраты на внедрение за три года сильно зависят от масштаба. Если малый бизнес может уложиться в 5–15 млн ₽, то для крупных корпораций чек стартует от 950 млн ₽. Крупный бизнес в среднем тратит 200–300 млн ₽.

Внедрение агентов в бизнес-процессы может высвободить до 30–40% рабочего времени сотрудников в таких функциях, как закупки, логистика и клиентская поддержка.

Основной профит достигается не за счет экономии на ФОТ, а через сокращение операционного цикла (time-to-market) и минимизацию ошибок в цепочках поставок, где агент может самостоятельно пересчитывать маршруты или объемы заказов.

Доли рынка (фактический объем продаж) ИИ-агентов по регионам и странам. Источник.
Доли рынка (фактический объем продаж) ИИ-агентов по регионам и странам. Источник.

Но здесь есть свой контекст и барьеры. Российский рынок ИИ-агентов сейчас составляет около 1,5% от мирового (для сравнения: доля США — почти 30%, Китая — 8%). Основной драйвер роста — Data-driven компании, которые уже сейчас увеличивают инвестиции в это направление на 15–30%. Однако 60% компаний пока тормозят внедрение из-за нехватки качественных данных и высоких затрат на инференс.

Тепловая карта зрелости ИИ-агентов. Источник.
Тепловая карта зрелости ИИ-агентов. Источник.

Лидерами по внедрению становятся ритейл и финтех, где агенты уже начинают выполнять роль «умных прослоек» между разрозненными ИТ-системами, автоматизируя бизнес-процессы.

OWASP Top 10: гайд Arize по комплаенсу

Команда Arize адаптировала новый стандарт безопасности OWASP Agentic Security Initiative (ASI) под конкретные фичи observability: tracing, оценки и мониторинг.

Речь идет о защите не просто LLM, а автономных систем, которые сами вызывают инструменты и принимают решения. Главная задача здесь — закрыть риски на всех этапах работы агента, от фильтрации входящих промтов до контроля за генерацией кода и доступом к API.

ASI01–ASI03: Контроль целей, инструментов и доступов

Центральные угрозы — захват целей через инъекции (ASI01— Agent Goal Hijack) и злоупотребление правами инструментов (ASI02 — Tool Misuse). Чтобы агент не превратился в инструмент атаки, Arize предлагает трейсинг каждого шага в связке с тестами на джейлбрейки и валидацией контекста.

Ситуация усложняется в мультиагентных средах (ASI03 — Identity & Privilege Abuse), где возникают риски кражи личности и передачи учетных данных. Здесь важно логировать параметры вызовов и отслеживать траекторию агента, чтобы вовремя заметить аномальные циклы или несанкционированные действия.

ASI04–ASI07: Цепочки поставок, код и коммуникации

Отдельное внимание уделено безопасности динамически загружаемых компонентов: плагинов, серверов MCP, моделей (ASI04 — Agentic Supply Chain Vulnerabilities) — и рискам удаленного выполнения кода (ASI05 — Unexpected Code Execution / RCE). Требуется верификация манифестов в рантайме и блокировка выполнения команд вне защищенной «песочницы».

Чтобы избежать «отравления» памяти в RAG-системах (ASI06 — Memory & Context Poisoning) или подмены сообщений между агентами (ASI07 — Insecure Inter-Agent Communication), необходим постоянный контроль релевантности контекста и визуализация графов коммуникации. Кроме того, Arize подчеркивает важность семантического анализа PII в межагентских диалогах, чтобы предотвратить случайную передачу чувствительных данных.

ASI08–ASI10: Сбои, манипуляции и «агенты-изгои»

Для предотвращения каскадных сбоев всей цепочки (ASI08 — Cascading Failures) анализируются графы исполнения на предмет выявления закономерностей, связывающих сбои на вышестоящих этапах с проблемами на нижестоящих. Защита от манипуляций доверием (ASI09 — Agent Trust Exploitation) и появления «агентов-изгоев» (ASI10 — Rogue Agents) строится на мониторинге поведенческого дрейфа (behavioral drift) и попыток агента самовольно расширить область своих полномочий.

Для вывода систем в продакшен предлагается чек-лист: обязательный трейсинг всех вызовов API, настройка базовых мониторов аномалий и внедрение кастомных метрик по всем десяти категориям рисков ASI.

Kthena: LLM-инференс для Cloud Native

Проект Volcano под эгидой CNCF представил Kthena — оркестратор инференса LLM, разработанный специально для Kubernetes. Система не пытается заменить популярные движки вроде vLLM, SGLang или Triton, а выступает в роли прослойки и в качестве управления над ними.

Основная цель Kthena — решить четыре критические боли продакшена:

  • низкую утилизацию GPU из-за неэффективного управления KV-кэшем;

  • проблему баланса между стадиями Prefill и Decode;

  • хаос в управлении множеством моделей;

  • отсутствие нативной интеграции с примитивами Kubernetes.

Технологический стек Kthena опирается на несколько инноваций. Механизм ModelBooster позволяет разворачивать популярные модели в один клик, а интеллектуальная маршрутизация учитывает состояние префиксного кэша и специфику LoRA-адаптеров. При этом для разработчика ничего не меняется — интерфейс остается привычным и совместимым с OpenAI API.

Для оптимизации затрат реализован Cost-Driven Autoscaling. Он анализирует реальные бизнес-показатели и стоимость ресурсов, масштабируя систему так, чтобы вы не платили за простаивающее «железо». Данные внутри кластера путешествуют по кратчайшему пути за счет Topology Awareness (минимизация задержек через affinity) и Flow Control, который не дает забить весь канал и замедлить работу остальных — ресурсы распределяются честно, вплоть до каждого токена.

Результаты бенчмарков при работе с длинными промптами (4 096 токенов) показали, что пропускная способность систем под управлением Kthena возрастает в 2,73 раза по сравнению со стандартным планировщиком. А время до генерации первого токена (TTFT) сокращается на 73,5%. Общая задержка (E2E latency) падает более чем на 60%.

Проект уже получил поддержку со стороны крупных игроков, включая Huawei Cloud, China Telecom и Xiaohongshu, что подтверждает его готовность к эксплуатации в масштабных облачных инфраструктурах.

ИИ — враг образования?

После детального разбора GPU-бенчмарков, тонкостей ИИ и масштабирования инференса — самое время сделать шаг назад и поговорить о человеческом факторе.

Задумывались ли вы, как все эти технологии меняют наши когнитивные способности? Существует популярное опасение: не станут ли LLM «интеллектуальным костылем», из-за которого мы (и особенно подрастающее поколение) разучимся думать самостоятельно.

Эту тему в свежем выпуске «Сегодня на ретро» препарировали люди, которые видят проблему с разных сторон: профессор СПбГУ, преподаватель ИТМО (руководитель DS) и MLOps-инженер, работающий напрямую с ИИ.

Главный инсайт дискуссии: нынешняя тревога вокруг нейросетей — это классическое дежавю. Когда-то такие же приговоры грозили телевидению, калькуляторам и поисковикам. Если человек не хочет думать, то его ничего не спасет, а если хочет, то LLM ему только помогут. Дело в мотивации или нет, а что думаете вы? Пишите в комментариях.

Источник

Возможности рынка
Логотип Mintlayer
Mintlayer Курс (ML)
$0.00796
$0.00796$0.00796
-2.09%
USD
График цены Mintlayer (ML) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.