Qwen 3.5 Omni : le modèle d'IA d'Alibaba peut désormais entendre, regarder et cloner votre voix

En bref

Le Qwen 3.5 Omni d'Alibaba apporte une véritable IA omnimodale en temps réel à la course de pointe.
Le traitement audio-visuel natif surpasse les pipelines multimodaux assemblés en termes de rapidité et de cohérence.
Le clonage vocal, l'interruption sémantique et le codage d'ambiance signalent une évolution vers des agents d'IA entièrement interactifs.

Alibaba vient de dévoiler sa mise à niveau d'IA la plus ambitieuse à ce jour.

L'équipe Qwen de l'entreprise a publié Qwen 3.5 Omni dimanche, une nouvelle version de son IA « omnimodale » qui traite simultanément le texte, les images, l'audio et la vidéo, et répond en temps réel dans 36 langues, plaçant son modèle sur le même champ de bataille que les derniers modèles fondamentaux d'IA de pointe actuellement disponibles.

« Omni » n'est pas qu'un simple mot à la mode marketing ici. La plupart des modèles d'IA avec lesquels vous interagissez sont principalement des systèmes texte entrant, texte sortant. Certains traitent les images, d'autres la voix. Qwen 3.5 Omni gère tout cela nativement, en même temps, sans avoir besoin de tout convertir en texte via des outils tiers.

Le nouveau modèle est disponible en trois tailles—Plus, Flash et Light—toutes prenant en charge une fenêtre de contexte de 256 000 tokens (petite selon les normes actuelles). Il a été entraîné sur plus de 100 millions d'heures de données audio-visuelles—une échelle qui le place dans une catégorie de poids différente de la plupart des concurrents.

Qwen 3.5 Omni est une évolution de Qwen 3 Omni Flash, le précédent modèle omnimodal d'Alibaba publié en décembre 2025. Cette version impressionnait déjà par sa capacité à traiter simultanément la vidéo et l'audio—elle pouvait gérer des instructions d'édition d'images combinant plusieurs entrées visuelles d'une manière que les concurrents ne pouvaient pas—et diffusait des réponses vocales avec une latence aussi faible que 234 millisecondes.

C'était également le premier modèle à essayer une alternative au NotebookLM de Google. Il a réalisé quelque chose, mais la qualité n'était pas au niveau de l'offre de Google.

Qwen 3.5 Omni reprend tout cela et ajoute une fenêtre de contexte plus longue, un meilleur raisonnement, une bibliothèque linguistique beaucoup plus large et un ensemble de fonctionnalités d'interaction en temps réel que la génération précédente n'avait pas.

La principale mise à niveau concerne ce qui se passe lorsque vous lui parlez réellement. Qwen3.5-Omni prend désormais en charge l'interruption sémantique : il peut faire la différence entre vous disant « uh-huh » au milieu d'une phrase et voulant réellement intervenir, de sorte qu'il ne s'arrêtera pas au milieu d'une pensée chaque fois que quelqu'un tousse en arrière-plan, rendant l'interaction vocale plus fluide.

Une nouvelle technique appelée ARIA, abréviation d'Adaptive Rate Interleave Alignment, corrige également un désagrément subtil mais persistant : les systèmes d'IA qui déforment les chiffres ou les mots inhabituels lors de la lecture à voix haute. ARIA synchronise dynamiquement le texte et la parole pour maintenir une sortie naturelle et précise.

Ensuite, il y a le clonage vocal. Les utilisateurs peuvent télécharger un échantillon vocal et faire adopter cette voix par le modèle dans ses réponses, une fonctionnalité qui met Qwen en concurrence directe avec ElevenLabs et d'autres outils vocaux dédiés. Nous n'avons cependant pas pu accéder à cette fonctionnalité, car il s'agit d'une fonctionnalité qui, du moins pour l'instant, n'est disponible que via API.

Sur les benchmarks de stabilité vocale multilingue, Qwen3.5 Omni-Plus a battu ElevenLabs, GPT-Audio et Minimax dans 20 langues. Le modèle prend désormais également en charge la recherche web en temps réel, ce qui signifie qu'il peut répondre à des questions sur l'actualité ou les données de marché en direct sans prétendre qu'il le sait déjà.

L'équipe met également en avant ce qu'ils appellent le « Audio-Visual Vibe Coding », le modèle peut regarder un enregistrement d'écran ou une vidéo d'une tâche de codage et écrire du code fonctionnel basé uniquement sur ce qu'il voit et entend, aucune invite textuelle requise. C'est un petit aperçu de la façon dont les assistants d'IA pourraient éventuellement opérer dans votre flux de travail plutôt qu'à côté de celui-ci.

Pour comprendre ce que signifie réellement « omnimodal » en pratique, nous avons effectué un test rapide : nous avons donné à la fois à Qwen3.5-Omni et à ChatGPT 5.4 en mode « réflexion » le même YouTube Short—un clip du président de Dastan (Dastan est la société mère de Decrypt) et du commentateur Farokh discutant de l'actualité. Qwen 3.5 Omni a traité la vidéo nativement et a retourné une analyse complète en environ une minute : qui parlait, de quoi ils discutaient, et un commentaire substantiel sur le sujet basé sur sa propre connaissance du domaine.

ChatGPT 5.4, qui n'est pas omnimodal, a dû gérer avec ce qu'il avait. Il a extrait des images de la vidéo, les a passées à travers un modèle de vision, a utilisé Whisper pour transcrire l'audio, et a appliqué un outil OCR pour lire les sous-titres intégrés—trois processus distincts assemblés pour approximer ce que Qwen3.5-Omni fait en un seul passage. Le résultat a pris neuf minutes, et c'est dans des conditions idéales : une vidéo bien éclairée avec un audio propre et des sous-titres incrustés. Le contenu du monde réel offre rarement les trois.

Dans nos tests rapides sur plusieurs entrées, le modèle a également géré les invites en espagnol, portugais et anglais sans problème—changeant de langue au milieu de la conversation sans perdre le contexte.

Sur les benchmarks standards, Qwen 3.5 Omni Plus a surpassé Gemini 3.1 Pro sur la compréhension audio générale, le raisonnement et les tâches de traduction, et l'a égalé sur la compréhension audio-visuelle. La reconnaissance vocale couvre désormais 113 langues et dialectes—contre 19 dans la génération précédente.

Il s'agit de la deuxième version majeure d'IA d'Alibaba en six semaines. En février, elle a lancé Qwen 3.5, un modèle texte et vision qui a égalé ou battu les modèles de pointe sur les benchmarks de raisonnement et de codage—faisant partie d'une série qui a également inclus Qwen Deep Research et une gamme d'outils rivalisant avec OpenAI et Google. Qwen 3.5 Omni étend cet élan au territoire multimodal complet, à un moment où chaque grand laboratoire d'IA se précipite pour construire des systèmes qui gèrent l'ensemble du spectre de la communication humaine—pas seulement des mots sur un écran.

Le modèle est disponible dès maintenant via l'API d'Alibaba Cloud et peut être testé directement sur Qwen Chat ou via la démo en ligne de Hugging Face.

Newsletter Daily Debrief

Commencez chaque journée avec les principales actualités du moment, ainsi que des fonctionnalités originales, un podcast, des vidéos et plus encore.

Source : https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni : le modèle d'IA d'Alibaba peut désormais entendre, regarder et cloner votre voix

En bref

Newsletter Daily Debrief

Actualités tendance

Dernière minute : CME va lancer des options sur contrats à terme XRP

L'USD/JPY glisse sous les 160,00 alors que la BoJ signale l'urgence de hausses de taux

Les sénateurs américains dévoilent un nouveau projet de loi favorisant l'expansion du minage de Bitcoin et consolidant la Réserve stratégique de Bitcoin – Régulation Bitcoin News

Ran Neuner remet en question l'identité du Bitcoin, les récits crypto évoluent

PhilWeb obtient l'accréditation pour les services de jeu

Prix des cryptomonnaies