Заказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы леЗаказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы ле

Как мы оцениваем качество ИИ с помощью ИИ

2026/02/17 11:59
6м. чтение

Заказчиками для ИИ инструментов часто выступают профильные специалисты (от науки или из мира бизнеса), которые не настолько погружены в работу моделей, чтобы легко оперировать метриками ROC-AUC (способность модели различать классы) или Precision (насколько точными являются положительные предсказания модели). Мы подумали, если большие языковые модели способны разъяснить сложные вещи ― например, смету и планы ― то их вполне можно использовать и для оценки самих систем ИИ. почему бы им не показать, что сами системы ИИ работают хорошо или не очень?

Наша команда разработала инструмент, который позволяет осуществлять оценку и контроль качества моделей ИИ. Он может оценивать качество данных, сравнивать разные модели и потенциал их дообучения, а также подсказывать свои модели с помощью интегрированного инструмента AutoML от наших коллег из Института ИИ ИТМО, экономя время разработки.

В этой статье рассказываем о нашей разработке.

Как создаются ИИ-инструменты

В процессе создания очередного ИИ-инструмента для бизнеса исполнитель работает для заказчика. Он ожидает от заказчика постановку задачи и данные. Как правило, с этим комплектом сначала работает дата-инженер, а потом и дата-сайентист, которые строят модели. Сейчас еще появилась отдельная роль MLOps ― это специалист, отвечающий за автоматизацию процесса развертывания, мониторинга и улучшения моделей ML в производственной среде. На выходе заказчик получает некий сервис и ждет, что результаты этой работы будут для него прозрачными, объяснимыми и масштабируемыми.

Основные вопросы заказчика во время приемки этого сервиса: можно ли полученному решению доверять? Как объяснить происходящее? Что будет с точностью, если мы немного изменим начальные условия?

Как правило, решение не может быть хорошим по всем характеристикам. В зависимости от задачи и акцентов, может страдать масштабируемость, а робастность, наоборот, быть на высоте.

Не так давно вышел государственный стандарт оценки качества систем искусственного интеллекта (ГОСТ Р 59898-2021). Это хороший документ, сосредоточенный в основном вокруг оценки моделей на основе различных метрик качества. Он описывает много разных ситуаций. Но заказчику сложно его применять, потому что документ достаточно сложный для восприятия в силу своей специфики. Для неспециалиста полученный результат все равно требует дополнительной интерпретации, которая выходит за пределы ГОСТа.

Нашей задачей было придумать метод, который поможет оценивать качество предложенного решения по целому спектру характеристик ― быстро и по одним и тем же критериям (как раз опираясь на ГОСТ), а результат представлять пользователю в наглядной и понятной форме, включая описание на естественном языке.

Что мы сделали

Мы разработали максимально автоматизированный инструмент, который хорошо работает для трех сценариев.

  • Оценка датасета. Допустим, у заказчика есть только данные. Мы можем оценить, насколько построенная модель будет хороша для этих данных.

  • Оценка данных и модели. Если есть данные и кем-то разработанная модель, инструмент может оценить, как в реальности будет работать это сочетание.

  • Оценка модели. Если есть модель, условно, скачанная из интернета, и необходимо понять, можно ли применять ее для конкретных задач бизнеса.

На выходе наш инструмент выдает отчет с большим количеством метрик. Они отвечают на вопрос о том, по каким параметрам модель хороша, а по каким ― не очень. На данный момент основные метрики:

  • Устойчивость ― устойчива ли модель ИИ (или система ИИ) при различном добавлении шума к данным.

  • Достоверность ―- насколько модель ИИ предсказывает результаты, соответствующие реальным данным или ожидаемым выводам. Например, для задачи классификации анализируются вероятность предсказания.

  • Эффективность ― сравнение сторонней модели с AutoML и просто базовой моделью (которая строится автоматически).

Мы заложили в инструмент собственное понимание этих шаблонов. Инструмент позволяет представить результат в виде вычислительного графа или пайплайна. Кроме того, нашему инструменту можно задавать вопросы на естественном языке ― что, зачем и почему (какая задача решается, какие данные есть в процедуры оценки и т.п.). Он довольно хорошо ориентируется в подобных базовых вещах.

Пример вычислительного графа, решающего задачу оценки качества классификации
Пример вычислительного графа, решающего задачу оценки качества классификации

С точки зрения реализации наш инструмент ― это чат с большой языковой моделью. Достаточно загрузить туда данные и (или) модель, а также указать характеристики, по которым надо все это оценить.

Мы стараемся поддерживать все стандартные форматы (представления) моделей. Самый удобный формат для нас ― ONNX (Open Neural Network Exchange), он позволяет провести больше экспериментов с моделью. Но также поддерживается и популярный для Python формат Pickle. Это базовый набор форматов, который покрывает большой процент кейсов.

На данный момент мы можем оценивать модели классификации, сегментации и детекции объектов (компьютерного зрения). Здесь мы работаем с шумами, фильтрами и так далее. Языковые модели пока не оцениваются, так как их тесты устаревают с почти той же скоростью, что и выходят новые модели, а это случается чуть ли не каждый день.

Архитектура решения

Решение построено на нашей low-code платформе SMILE, которая разработана и используется в ИТМО (в блоге на Хабре мы уже писали об этом инструменте).

Оценка моделей происходит на базе SMILE. Также для оценки используется ИИ-ассистент, который основан на Llama 3 (современные языковые модели достаточно хорошо понимают формализованный контекст и могут работать как агенты, которые сами строят решение по запросу пользователя). Llama3 в данном случае ― дополнительный инструмент проверки качества, который вызывает набор процедур ― статистическую фильтрацию, бутстрапирование (популярный метод статистической проверки надежности модели) и т.п. Эти процедуры немного варьируют параметры загруженной модели, проверяют ее устойчивость.

На данный момент инструмент ждет от пользователя один из четырех вариантов запросов:

  • по данным;

  • по моделям машинного обучения;

  • по вычислительному графу;

  • общего типа (если пользователь, например, хочет спросить что-то по теории)

Для качественного ответа пришлось сделать отдельный классификатор, который определяет тип запроса. После этого происходит обращение к большой языковой модели с индивидуальным контекстом. Например, если вопрос по данным, то генерируется мета-информация об используемых наборах данных. Если запрос о модели или графе ― то в контекст добавляет мета-информация о графе и используемых моделях.

Также мы интегрировали в свое решение АutoML от наших коллег из NSS Lab (популярная библиотека Fedot, о которой также уже рассказывали на Хабре). Помимо оценки дата-сета в первом сценарии использования, он может сгенерировать базовую модель для классификации, регрессии, прогнозирования и т.п., сэкономив недели разработки и дать заказчику гарантию, что разработчик сделал решение как минимум не хуже, чем стандартные алгоритмы. При этом классы решаемых задач все время расширяются. В настоящий момент поддерживаются следующие классы задач: классификация объектов, классификация временных рядов, регрессия, прогнозирование временных рядов, классификация/сегментация/детекция объектов на изображениях.

Инструмент уже тестировали совместно с заказчиками из индустрии. После тестирования выделили два направления развития. С одной стороны, планируется развивать ИИ-агента, чтобы он взял на себя больше действий пользователя (тестирование показало, что пока логика у инструмента сложная и большинству пользователей надо помогать). С другой стороны, команда будет пополнять инструмент новыми проверками и типами задач. Например, планируется научить выполнять аудит моделей для моделей компьютерного зрения, а не только для табличных данных.

Познакомиться с решением можно по ссылке.

Источник

Возможности рынка
Логотип Advanced
Advanced Курс (AUC)
$0.0001495
$0.0001495$0.0001495
-0.06%
USD
График цены Advanced (AUC) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Гарвард продал часть биткоинов и купил Ethereum

Гарвард продал часть биткоинов и купил Ethereum

Управляющая структура Harvard Management Company в четвертом квартале сократила долю в биткоин-ETF более чем на 20%, одновременно впервые вложившись в биржевой
Поделиться
ProBlockChain2026/02/17 12:30
Народный банк Китая устанавливает справочный курс USD/CNY на уровне 7,0865 против предыдущего 7,0901

Народный банк Китая устанавливает справочный курс USD/CNY на уровне 7,0865 против предыдущего 7,0901

Пост PBOC устанавливает справочный курс USD/CNY на уровне 7,0865 против предыдущего 7,0901 появился на BitcoinEthereumNews.com. В четверг Народный банк Китая (PBOC) установил центральный курс USD/CNY для предстоящей торговой сессии на уровне 7,0865 по сравнению с фиксацией предыдущего дня 7,0901 и оценкой Reuters 7,1222. Часто задаваемые вопросы о PBOC Основными целями денежно-кредитной политики Народного банка Китая (PBoC) являются обеспечение стабильности цен, включая стабильность обменного курса, и содействие экономическому росту. Центральный банк Китая также стремится реализовать финансовые реформы, такие как открытие и развитие финансового рынка. PBoC принадлежит государству Китайской Народной Республики (КНР), поэтому он не считается автономным учреждением. Секретарь комитета Коммунистической партии Китая (КПК), назначаемый Председателем Государственного совета, имеет ключевое влияние на управление и направление деятельности PBoC, а не губернатор. Однако в настоящее время г-н Пан Гуншэн занимает обе эти должности. В отличие от западных экономик, PBoC использует более широкий набор инструментов денежно-кредитной политики для достижения своих целей. Основные инструменты включают семидневную ставку обратного РЕПО (RRR), среднесрочный кредитный механизм (MLF), валютные интервенции и коэффициент обязательных резервов (RRR). Однако основной процентной ставкой Китая является Основная ставка по кредитам (LPR). Изменения LPR напрямую влияют на ставки, которые необходимо платить на рынке по кредитам и ипотеке, а также на проценты, выплачиваемые по сбережениям. Изменяя LPR, центральный банк Китая также может влиять на обменные курсы китайского юаня. Да, в Китае есть 19 частных банков – небольшая часть финансовой системы. Крупнейшими частными банками являются цифровые кредиторы WeBank и MYbank, которые поддерживаются технологическими гигантами Tencent и Ant Group, согласно The Straits Times. В 2014 году Китай разрешил отечественным кредиторам, полностью капитализированным частными фондами, работать в финансовом секторе, где доминирует государство. Источник: https://www.fxstreet.com/news/pboc-sets-usd-cny-reference-rate-at-70865-vs-70901-previous-202511060115
Поделиться
BitcoinEthereumNews2025/11/06 10:13
Комбо дня в игре Bee harvest на 17 февраля

Комбо дня в игре Bee harvest на 17 февраля

Специальное предложение деили комбо Bee harvest доступно для использования! Сегодня, на 17 февраля, состоялось обновление бонусной комбинации карточек для закры
Поделиться
Coinspot2026/02/17 16:36