Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеСегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, акте

Как заставить англоязычную нейросеть читать по-русски (и стоит ли оно того)

2026/03/12 13:00
5м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com
8e5a8fef49882c34d5b49054e366a4a1.jpeg

Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеров и тех, чей голос мы привыкли слышать в любимых фильмах.

Рассмотрим бесплатные модели, не требующие кредитов, подписок или трех цифр на обороте карты. Заранее обозначу, что не все модели поддерживают русский язык, а у некоторых присутствует своеобразный акцент, как у Шварценеггера из фильма «Красная жара».

Я буду генерировать озвучку не только на английском, но и на русском языке, чтобы понять, насколько отличается качество звучания и произношения, и можно ли вообще использовать эти модели, закрыв глаза на ограничение языков.

VibeVoice

Первая модель на очереди — VibeVoice-Realtime-0.5B. Модель от Microsoft с длиной контекста в 8 000 токенов и возможностью озвучить до десяти минут текста. Модель заявлена как моноязычная, но это мы еще посмотрим.

Интерфейс простой:

  • поле для ввода текста, который нужно озвучить;

  • кнопка Speaker Voice для выбора голоса, которым будет озвучен ваш текст;

  • ползунок CFG SCALE (Calssifier-Free Guidance Scale) — задает степень следования модели входному тексту (чем ниже значение, тем менее четко модель будет следовать тексту, будут появляться аномалии, но интонация будет на более высоком уровне; при высоком значении CFG, все будет наоборот — четкое следование тексту, избегание аномалий, но без выразительности).

5e991a459286cc7306b0bc9402e15966.png

Итак, первый текст у нас будет на русском языке. Хочется посмотреть, сможет ли модель хоть как-то справиться с великим и могучим:

Для моноязычной модели получилось удовлетворительно. Чтение было выразительным, но почти в каждом слове был акцент, а некоторые слова не слышались корректно — к этому я не придираюсь, но сообщить должен.

А теперь попробуем играть по правилам — пусть попробует прочитать стих на английском языке, и посмотрим, не будет ли аномалий:

Качество произношения мне понравилось, я не услышал каких-то запинок и галлюцинаций, но на заднем фоне в начале и самом конце звучания я обнаружил лишние шумы, которых не было в первой генерации на русском языке.

Решил проверить максимальную длительность генерации и загрузил две страницы из романа «Война и мир» Л. Н. Толстого. Модель выдала ошибку без всяких уведомлений. Видимо, до классики еще не дошли.

80b78bec93a2089d85372ee1c4d05c14.png

Vibe-Voice-Realtime-0.5B показалась мне перспективной моделью, способной выразительно читать текст с учетом знаков препинания. За понимание русского языка отдельный плюсик, т.к. не все модели могут распознавать его.


Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее

Kokoro

Вторая модель на очереди — Kokoro-TTS. Она имеет 82 млн параметров, поддерживает два языка (вернее сказать, два диалекта английского: en-us, en-gb) и дает возможность прописывать произношение слов транскрипцией. Также модель чувствительна к пунктуации и ей можно указать, куда в тексте ставить ударения.

Хоть в Kokoro и заявлена поддержка только двух языков, в описании сказано, что можно использовать эту модель и с другими языками.

cb52a37e426494ba40ae8ce2b2510dcb.png

Сама панель управления проста: слева можно ввести текст, выбрать, каким голосом он будет озвучен и с какой скоростью. Справа получаем генерацию либо запись в реальном времени, нажав кнопку Stream.

Первый тест — уже знакомый нам стих про майскую грозу — модель толком не озвучила — получилось озвучивание рандомных английских слов длительностью четыре секунды.

Что насчет английского стихотворения? Сейчас узнаем.

Модель прочитала текст без какого-то энтузиазма, без выражения. На мой слух, VibeVoice даже с русским текстом и акцентом озвучила стих выразительнее.

Chatterbox

Chatterbox TTS — модель Text-to-Speech с открытым исходным кодом для генерации естественного голосового аудио из текста. Появилась как открытый аналог проприетарных сервисов наподобие ElevenLabs.

08b3bdf9124e53e33516031348534fb1.png

Интерфейс обычный, но тут можно загрузить часть своего голоса (что не рекомендуется) либо какой-то другой записанный голос. По данному референсу модель попробует сгенерировать аудиодорожку. Также в этой модели можно задать степень просодической экспрессии — это амплитуда интонационных колебаний, акценты, растяжение гласных, четкость и выразительность речи, паузы и «вдохи воздуха» — все как у реальных людей.

Модель построена на архитектуре с использованием LLaMA-подобных компонентов (~ 0,5 B параметров). Возможности у Chatterbox заявлены амбициозные, осталось проверить их на практике.

Когда я попытался создать запись с прочтением русского стиха и включил проигрывание аудио, задумался, не ошибся ли я и не включил ли запись с WAIC на китайском.

Да, это такая особенность некоторых моделей, не обученных на русском языке — пытаться бегло прочитать текст, не понимая его смысла и не зная букв.

Источник.
Источник.

Но если записать стихотворение транслитом, все становится более-менее понятно, но еще не дотягивает до качественного произношения. Если и озвучивать русский текст на таких моделях, то только забавы ради или при необходимости озвучить иностранца, который в первый раз прикоснулся к русским стихам.

При озвучке родного английского языка результат оказался приемлемым. Аномалий выявлено не было, каких-то шумов не замечено. Модель рекомендуется к использованию, но только если нужно озвучивать что-то на английском языке.

Обычно модель обучается на английском и китайском языках, и для себя я решил проверить, возможно ли озвучить китайский текст с помощью рассмотренных ранее моделей?

Спойлерить не буду, послушайте:

Аудио-фрагменты

VibeVoice

Kokoro

Chatterbox

Результат вы слышали сами. Немного позабавила Kokoro, которой конкретно поставили задачу озвучить, и она озвучила.

Вывод

Мой фаворит с Hugging Face — VibeVoice. Это сбалансированная модель, способная озвучивать текст на русском и английском языках, имеющая небольшую интонацию при чтении и отсутствие аномалий в произношениях и на заднем фоне.

А как вам озвучка от Microsoft? Или вы знаете модель, которая прочитала бы Тютчева лучше? Пишите названия в комментарии.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.