Qwen 3.5 Omni: Alibabas KI-Modell kann jetzt hören, sehen und Ihre Stimme klonen

Kurz gesagt

Alibabas Qwen 3.5 Omni bringt echte Echtzeit-Omnimodale KI ins Rennen der Spitzenmodelle.
Native audiovisuelle Verarbeitung übertrifft zusammengesetzte multimodale Pipelines in Geschwindigkeit und Kohärenz.
Sprachklonen, semantische Unterbrechung und Vibe-Coding signalisieren einen Wandel hin zu vollständig interaktiven KI-Agenten.

Alibaba hat gerade sein bisher ehrgeizigstes KI-Upgrade veröffentlicht.

Das Qwen-Team des Unternehmens veröffentlichte am Sonntag Qwen 3.5 Omni, eine neue Version seiner „omnimodalen" KI, die gleichzeitig Text, Bilder, Audio und Video verarbeitet und in Echtzeit in 36 Sprachen antwortet, womit das Modell auf dem gleichen Schlachtfeld wie die neuesten hochmodernen KI-Grundlagenmodelle positioniert wird.

„Omni" ist hier nicht nur ein Marketing-Schlagwort. Die meisten KI-Modelle, mit denen Sie interagieren, sind hauptsächlich Text-rein, Text-raus-Systeme. Einige verarbeiten Bilder, andere Sprache. Qwen 3.5 Omni verarbeitet alle nativ, gleichzeitig, ohne dass alles über Drittanbieter-Tools in Text umgewandelt werden muss.

Das neue Modell gibt es in drei Größen – Plus, Flash und Light – alle unterstützen ein (nach heutigen Standards) kleines Kontextfenster von 256.000 Token. Es wurde mit über 100 Millionen Stunden audiovisueller Daten trainiert – ein Umfang, der es in eine andere Gewichtsklasse als die meisten Konkurrenten versetzt.

Qwen 3.5 Omni ist eine Weiterentwicklung von Qwen 3 Omni Flash, Alibabas früherem omnimodalem Modell, das im Dezember 2025 veröffentlicht wurde. Diese Version beeindruckte bereits mit ihrer Fähigkeit, Video und Audio gleichzeitig zu verarbeiten – sie konnte Bildbearbeitungsanweisungen mit mehreren visuellen Eingaben auf eine Weise verarbeiten, die Konkurrenten nicht konnten – und streamte Sprachantworten mit einer Latenz von nur 234 Millisekunden.

Es war auch das erste Modell, das eine Alternative zu Googles NotebookLM versuchte. Es erreichte etwas, aber die Qualität war nicht auf Augenhöhe mit Googles Angebot.

Qwen 3.5 Omni nimmt all das und fügt ein längeres Kontextfenster, besseres Reasoning, eine viel breitere Sprachbibliothek und eine Reihe von Echtzeit-Interaktionsfunktionen hinzu, die die vorherige Generation nicht hatte.

Das Haupt-Upgrade ist das, was passiert, wenn Sie tatsächlich mit ihm sprechen. Qwen3.5-Omni unterstützt jetzt semantische Unterbrechung: Es kann den Unterschied erkennen zwischen einem „uh-huh" mitten im Satz und dem tatsächlichen Wunsch zu unterbrechen, sodass es nicht bei jedem Husten im Hintergrund mitten im Gedanken stoppt, was die gesprochene Interaktion nahtloser macht.

Eine neue Technik namens ARIA, kurz für Adaptive Rate Interleave Alignment, behebt auch ein subtiles, aber hartnäckiges Ärgernis: KI-Systeme, die Zahlen oder ungewöhnliche Wörter beim Vorlesen verzerren. ARIA synchronisiert dynamisch Text und Sprache, um die Ausgabe natürlich und genau zu halten.

Dann gibt es noch das Sprachklonen. Benutzer können eine Sprachprobe hochladen und das Modell diese Stimme in seinen Antworten übernehmen lassen, eine Funktion, die Qwen in direkte Konkurrenz zu ElevenLabs und anderen spezialisierten Sprach-Tools bringt. Wir konnten allerdings nicht auf diese Funktion zugreifen, da dies eine Funktion ist, die zumindest vorerst nur über API verfügbar ist.

Bei mehrsprachigen Sprachstabilitäts-Benchmarks übertraf Qwen3.5 Omni-Plus ElevenLabs, GPT-Audio und Minimax über 20 Sprachen hinweg. Das Modell unterstützt jetzt auch Echtzeit-Websuche, was bedeutet, dass es Fragen zu aktuellen Nachrichten oder Live-Marktdaten beantworten kann, ohne vorzugeben, es bereits zu wissen.

Das Team hebt auch hervor, was sie „Audio-Visual Vibe Coding" nennen: Das Modell kann eine Bildschirmaufzeichnung oder ein Video einer Programmieraufgabe ansehen und funktionalen Code schreiben, der rein auf dem basiert, was es sieht und hört, ohne dass ein Text-Prompt erforderlich ist. Es ist eine kleine Vorschau darauf, wie KI-Assistenten möglicherweise irgendwann in Ihrem Arbeitsablauf statt neben ihm arbeiten könnten.

Um zu verstehen, was „omnimodal" in der Praxis tatsächlich bedeutet, führten wir einen schnellen Test durch: Wir fütterten sowohl Qwen3.5-Omni als auch ChatGPT 5.4 im „Denk"-Modus mit demselben YouTube Short – einem Clip des Dastan-Präsidenten (Dastan ist Decrypts Muttergesellschaft) und Kommentator Farokh, die aktuelle Nachrichten diskutieren. Qwen 3.5 Omni verarbeitete das Video nativ und lieferte in etwa einer Minute eine vollständige Analyse: wer sprach, was sie diskutierten und einen substanziellen Kommentar zum Thema basierend auf seinem eigenen Wissen über das Themengebiet.

ChatGPT 5.4, das nicht omnimodal ist, musste mit dem auskommen, was es bekam. Es extrahierte Frames aus dem Video, führte sie durch ein Vision-Modell, nutzte Whisper zur Transkription des Audios und wendete ein OCR-Tool zum Lesen eingebetteter Untertitel an – drei separate Prozesse, die zusammengefügt wurden, um zu approximieren, was Qwen3.5-Omni in einem einzigen Durchgang macht. Das Ergebnis dauerte neun Minuten, und das unter idealen Bedingungen: ein gut beleuchtetes Video mit sauberem Audio und eingebrannten Untertiteln. Reale Inhalte bieten selten alle drei.

Bei unseren schnellen Tests über mehrere Eingaben hinweg verarbeitete das Modell auch Prompts auf Spanisch, Portugiesisch und Englisch problemlos – es wechselte mitten im Gespräch die Sprachen, ohne den Kontext zu verlieren.

Bei Standard-Benchmarks übertraf Qwen 3.5 Omni Plus Gemini 3.1 Pro beim allgemeinen Audioverständnis, Reasoning und Übersetzungsaufgaben und entsprach ihm beim audiovisuellen Verständnis. Die Spracherkennung deckt jetzt 113 Sprachen und Dialekte ab – gegenüber 19 in der vorherigen Generation.

Dies ist Alibabas zweite große KI-Veröffentlichung in sechs Wochen. Im Februar startete es Qwen 3.5, ein Text-und-Vision-Modell, das Spitzenmodelle bei Reasoning- und Coding-Benchmarks erreichte oder übertraf – Teil einer Serie, die auch Qwen Deep Research und eine Reihe von Tools umfasste, die mit OpenAI und Google konkurrieren. Qwen 3.5 Omni erweitert diesen Schwung in das volle multimodale Gebiet, zu einer Zeit, in der jedes große KI-Labor darum wetteifert, Systeme zu bauen, die das gesamte Spektrum menschlicher Kommunikation handhaben – nicht nur Wörter auf einem Bildschirm.

Das Modell ist jetzt über Alibaba Clouds API verfügbar und kann direkt bei Qwen Chat oder über Hugging Faces Online-Demo getestet werden.

Daily Debrief Newsletter

Starten Sie jeden Tag mit den wichtigsten Nachrichten von jetzt, plus Originalfeatures, einem Podcast, Videos und mehr.

Quelle: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: Alibabas KI-Modell kann jetzt hören, sehen und Ihre Stimme klonen

Kurz gesagt

Daily Debrief Newsletter

Das könnte Ihnen auch gefallen

Wie man Krypto mit 150-fachem Potenzial kauft, während Pepeto in jeder Phase schneller gefüllt wird

Von Babyboom zur Krise: Geburtenrate der Philippinen fällt 2025 auf Rekordtief

Kinesis Gold stürzt um 16,5 % ab, da goldgedeckter Token von physischen Märkten abweicht

Trendnachrichten

Mitsubishi setzt JPMorgan-Blockchain für Unternehmenszahlungen ein

Divergierende Risiken und Safe-Haven-Ströme – DBS

Gold, Bitcoin oder Öl? KI prognostiziert den größten Gewinner für Ende 2026

Ran Neuner stellt Bitcoins Identität infrage, Krypto-Narrativ verändert sich

PhilWeb erhält Akkreditierung für Gaming-Dienste

Kryptopreise