Привет! Я Антон, инженер по информационной безопасности в Selectel. Сегодня продолжаем обозревать модели китайской экосистемы Qwen от Alibaba. По частоте релизоПривет! Я Антон, инженер по информационной безопасности в Selectel. Сегодня продолжаем обозревать модели китайской экосистемы Qwen от Alibaba. По частоте релизо

Разбираем три новых Qwen: нейросеть в роли диктора, художника и писателя

92db15e6bd8d2abd6366a9153022c549.png

Привет! Я Антон, инженер по информационной безопасности в Selectel. Сегодня продолжаем обозревать модели китайской экосистемы Qwen от Alibaba. По частоте релизов она уже сопоставима с ChatGPT, а вот насколько модели конкурентоспособны по качеству — разберемся на практике.

В тексте рассмотрим три решения.

  • TTS-Flash — модель генерации речи, позиционируемая как инструмент для ультрареалистичного озвучивания. Заявлена поддержка русского языка и набор из нескольких голосов с разным тембром, темпом и интонацией.

  • Image-Edit-2509 — модель генерации и редактирования изображений, которая ориентирована на точное понимание контекста и сохранение структуры объектов, в том числе с использованием ControlNet.

  • Qwen Omni — универсальная мультимодальная модель для работы с текстом, аудио, изображениями и видео, а также для редактирования сгенерированного контента. Модель заявлена как хорошо понимающая русский язык, без промежуточных переводов.

Используйте навигацию, если не хотите читать текст полностью:
  • Нейросеть в роли диктора

  • Нейросеть в роли художника

  • Нейросеть-универсал

  • Какой можно сделать вывод

Нейросеть в роли диктора

Сравнение начнем с модели генерации речи — Qwen TTS-Flash. Тестировать будем на русском языке: проверим дикцию, наличие артефактов, устойчивость к длинным текстам и корректность интонаций. Требования — почти как к профессиональному диктору. 🙂 Приступим.

45f53f889f024242ed2bbee2610692f0.png

Интерфейс модели на Hugging Face.

При вводе текста выбираем один из 49 голосов (звучаний) — каждый отличается темпом речи, акцентом и интонацией. Также модель поддерживает 10 языков и автоопределение: например, при вводе текста на английском язык выбирается автоматически.

ML Impact — про ML и AI без хайпа

Все кругом говорят про ML, но многие ли понимают его настоящую пользу для бизнеса? Мы запустили ресурс, который поможет во всем разобраться.

Подробнее →

Первый тест: выносливость модели

Первая генерация была тестовой — важно было понять, насколько «человечно» звучит речь, как модель ведет себя при повторении одних и тех же слов, а также какой объем для модели максимальный.

Обработка текста заняла около 160 секунд. При этом модель сгенерировала более длинный аудиофайл, чем исходный текст на скриншоте. Хотя попытки напрямую подать большой текст приводили к ошибке генерации.

Введение промта, выбор голоса и языка.
Введение промта, выбор голоса и языка.

В итоге получилось почти восемь минут аудиодорожки.

Первые две минуты модель справляется без «заиканий» и артефактов, однако на третьей минуте речь становится прерывистой. На четвертой — появляется фоновый шум, а качество заметно падает и речь превращается в «кашу». Ближе к пятой минуте звук полностью искажается и начинает напоминать сирену. На тайминге в 5:13 создается эффект радиосигнала с очень сильными помехами, который сохраняется до конца записи.

Второй тест: чтение стихотворения

Все читали стишки Деду Морозу в детстве? Следующий тест будет как раз про это — нейросеть будет преобразовывать стих в аудио. Проверяем расстановку ударений, паузы и интонации.

В качестве промта используем отрывок из стихотворения Николая Некрасова «Крестьянские дети» («Однажды, в студеную зимнюю пору…»).

Модель не смогла обработать стихотворение целиком — генерация завершалась ошибкой без пояснений. В результате удалось получить около 49 секунд аудио.

Чтение в целом корректное, но с проблемами в интонации, дикции и ударениях. В некоторых местах звучит неестественно, местами — даже комично. Тем не менее, для текущего состояния модели результат впечатляет: при доработке интонационного блока ее уже можно рассматривать для чернового озвучивания.

Сравнение с коммерческими версиями

Сравнивать Qwen TTS будем с Resemble AI — ИИ-сервисом для озвучивания текста, который можно использовать для подкастов, озвучивания игр и фильмов, дубляжа. Также сервис позволяет редактировать и транскрибировать аудиофайлы. Есть возможность обучать модель на собственном голосе, но передавать такие данные сторонним сервисам я не рекомендую. Бесплатный лимит — до 2 000 слов, после чего сайт потребует оплату.

Цель сравнения — понять, сможет ли бесплатная модель конкурировать с платным сервисом без существенных ограничений, включая доступ пользователей из России.

Скриншот интерфейса Resemble AI.
Скриншот интерфейса Resemble AI.

Попробуем испытать нейросеть на дикцию. Промт тот же, что в первом тесте, но короче (лимит в 2 000 слов).

После прослушивания аудиофайла сложилось впечатление, что нейросеть начинает со стандартной скорости чтения, а затем постепенно ускоряется, искажая изначальный текст. Уже через десять секунд речь начинает «слипаться». Вдовесок получаем ограничение на время записи голоса, после чего сервис предлагает приобрести токены (как и на всех сайтах с платными нейросетями).

Возможно, платный «собрат» поразит нас своим чтением стиха, растопив сердца дикцией, интонацией, и выразительностью? Промт используем тот же, что раньше — отрывок стихотворения.

Но чуда не случилось: в файле получили неудовлетворительное по сравнению с Qwen чтение текста и те же ошибки в ударении: здорОво парнишЕ, чтение знака препинания «.». Да и в целом чтение не отличается выразительностью, звучит «не по-человечески» монотонно.

Также протестировали популярный сервис Crreo, но и его результат оставлял желать лучшего.

Выводы по TTS

При сравнении бесплатной модели Qwen TTS-Flash без ограничений по длительности с платными сервисами из коммерческого сегмента можно сделать простой вывод: решение от Qwen выглядит предпочтительнее.

Да, у модели есть проблемы с устойчивостью на длинных отрезках и с интонацией, но эти минусы компенсируются доступностью, возможностью локального развертывания и общей «живостью» звучания. В текущем виде TTS-Flash уже подходит для экспериментов, прототипов и некоммерческого использования.

Нейросеть в роли художника

Вторая модель на сегодня — для генерации изображений. Она доступна прямо в Qwen Chat. Цель теста — отследить прогресс модели: в начале года я уже тестировал Qwen на генерацию изображений и тогда результат выглядел сыроватым. Повторим те же промты и посмотрим, что изменилось.

Генерация Qwen новой версии.
Генерация Qwen.

Результат неожиданно порадовал. Сцена в целом соответствует запросу: композиция сохранена, ключевые элементы на местах, явных логических ошибок в расположении людей, кораблей и построек не заметил.

Без артефактов, конечно, не обошлось — встречаются «мультяшные» элементы, небоскребы на заднем фоне, странные детали вроде факела на сундуке или неестественные позы наблюдателей, которые стоят спиной к основной сцене. Но на фоне предыдущих результатов прогресс заметен. Несколько уточняющих промптов — и изображение уже можно довести до приличного состояния.

Генерация Qwen старой версии.
Для сравнения — генерация почти годичной давности выглядела заметно проще.

Первая сцена получилась немного мультяшной, поэтому следующий шаг — проверить, как модель справляется с требованием «строгой историчности» и высокой детализации.

Генерация детализированного изображения от Qwen.
Генерация Qwen.

К сожалению, добиться исторической точности не удалось. Образ корабля получился эффектным, но скорее «собирательным»: пропорции, детали оснастки и общее устройство не соответствуют реальному «Сантисима-Тринидад».

При этом у Qwen есть полезные инструменты постобработки: изображение можно отредактировать, скрестить с другим или анимировать. Я попробовал создать видео на основе сгенерированного изображения, но результат оказался посредственным: анимация грубая, движения неестественные, целостность сцены быстро теряется. На текущем этапе Qwen явно не рассчитан на такой уровень задач.

Генерация видео от Qwen.
Ускоренная версия в формате gif. Видео в исходном качестве можно посмотреть в S3-хранилище.

Для сравнения, ChatGPT справился с аналогичным запросом заметно лучше — вплоть до корректного написания названия корабля и более аккуратной визуальной логики. Это тот уровень, до которого Qwen пока не дотягивает.

Генерация ChatGPT.
Генерация ChatGPT.

Нейросеть-универсал

Последняя модель в обзоре — Qwen3-Omni, также доступная через стандартный Qwen Chat. Это основная многомодальная языковая модель экосистемы. В ней можно включить «режим мышления» с бюджетом до 24 576 токенов.

Модель заявлена как универсальная: она работает с текстом, изображениями, аудио и видео, без деградации качества в отдельных модальностях. В рамках тестирования проверим скорость обработки запросов в режиме рассуждений, логические способности и качество генерации.

Первый тест — на логику

Для проверки логического мышления модель будет проходить тест Войнаровского (задачи про шмурдиков, мухропендий и тиалей). Условие — отвечать строго по существу, с явной цепочкой рассуждений.

При просмотре скрытых размышлений модель демонстрировала связную и последовательную логику рассуждений.

Скриншот части рассуждений Qwen.
Рассуждения Qwen.

По итогам теста Qwen3-Omni набрала 27 правильных ответов из 30, что можно считать хорошим результатом.

Результаты теста Qwen: 27 верных ответов из 30.
Результаты теста Qwen.

На обдумывание всех вопросов модель потратила около двух минут — показатель вполне приемлемый для режима с расширенным бюджетом рассуждений. Однако при тестировании обнаружил особенность интерфейса: если в режиме мышления задать новый вопрос в том же чате, не сбрасывая контекст, модель воспринимает его как продолжение предыдущей задачи и строит рассуждения, опираясь на прошлый контекст. Для корректной работы требуется либо новый чат, либо явный сброс рассуждений.

Скриншот части рассуждений Qwen.

Сравнение с ChatGPT

GPT-5 прошел тот же логический тест за 1 минуту 20 секунд, набрав 29 правильных ответов из 30. Как и Qwen, модель допустила ошибку в вопросе про бурдыльку.

Результаты теста ChatGPT: 29 верных ответов из 30.
Результаты теста ChatGPT.

Результат у ChatGPT-5 немного лучше как по скорости, так и по числу верных ответов, однако разрыв нельзя назвать критичным.

Второй тест — анализ и генерация

Второй тест был направлен на способность модели анализировать крупное произведение и создавать структурированный текст.

Qwen3-Omni сгенерировала 1 000 формально корректных предложений, однако значительная часть из них повторялась по смыслу и структуре. В результате текст не воспринимается как связная краткая выжимка, несмотря на соблюдение формальных требований.

Скриншот предложений от Qwen.
Часть предложений от Qwen.

Поведение ChatGPT

ChatGPT-5 из-за ограничений на длину генерации предложил сформировать результат в виде файла.

Скриншот ответа ChatGPT.
Скриншот ответа ChatGPT.

Но при проверке выяснилось, что и в этом случае текст содержит заметные смысловые повторы.

Часть предложений от ChatGPT.
Часть предложений от ChatGPT.
Иллюстрация юмористического характера.
Источник.

После уточнения требования об уникальности предложений модель извинилась и выдала новый вариант. Повторы в нем встречались реже, предложения действительно были уникальными, но по уровню оригинальности формулировок и разнообразию идей результат все равно оказался ограниченным.

Часть исправленных предложений от ChatGPT.
Часть исправленных предложений от ChatGPT.
bee481029b4e3aa60c0fef43e87fee4d.png

Заберите максимум новогодних подарков с 15 по 23 декабря 🎁

Один день — один сюрприз: адвент-календарь со скидками до 100% на IT-инфраструктуру.

Подробнее →

Какой можно сделать вывод

В целом даже модели высокого уровня пока слабо справляются с задачей генерации действительно качественного и уникального текста при жестких формальных требованиях. Однако прогресс очевиден, и развитие в этом направлении идет быстро.

TTS-Flash приятно удивила качеством генерации речи. Модель действительно создает реалистичное, «живое» звучание и в большинстве случаев корректно работает с русским языком. Это хороший инструмент для задач озвучивания, особенно с учетом бесплатного доступа и возможности локального развертывания. При этом иногда возникают сбои в генерации, которые на практике решаются повторным запуском или перезагрузкой страницы.

Image-Edit-2509 демонстрирует заметный прогресс по сравнению с предыдущими версиями, однако до фотореалистичной или исторически точной генерации ей пока далеко. Модель уверенно справляется с простыми сценами, но в сложных запросах по-прежнему склонна к мультяшному стилю и игнорирует требования к исторической достоверности.

Qwen3-Omni оставила смешанное впечатление. В логических задачах и повседневных запросах модель работает быстро и уверенно, однако в сценариях сложной аналитической генерации она часто воспроизводит шаблонные и уже встречавшиеся формулировки, не создавая принципиально нового текста. Для таких задач я бы скорее отдал предпочтение флагманской модели — QwenMAX.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.