Qwen 3.5 Omni：阿里巴巴的 AI 模型現在可以聽、看並複製你的聲音

簡要說明

阿里巴巴的 Qwen 3.5 Omni 為前沿競賽帶來真正的即時全模態 AI。
原生音視訊處理在速度和連貫性上擊敗拼接式多模態管道。
語音克隆、語義中斷和氛圍編碼標誌著向完全互動式 AI 代理的轉變。

阿里巴巴剛剛發布了其迄今為止最具野心的 AI 升級。

該公司的 Qwen 團隊於週日發布了 Qwen 3.5 Omni，這是其「全模態」AI 的新版本,能同時處理文字、圖像、音訊和視訊,並可即時以 36 種語言回應,將其模型置於與目前可用的最新最先進 AI 基礎模型相同的戰場上。

「Omni」在這裡不僅僅是行銷術語。您互動的大多數 AI 模型主要是文字輸入、文字輸出系統。有些處理圖像,有些處理語音。Qwen 3.5 Omni 原生處理所有這些,同時進行,無需透過第三方工具將所有內容轉換為文字。

新模型有三種規格—— Plus、Flash 和 Light——全部支援一個小型（以今天的標準來看）256,000 token 的上下文視窗。它在超過 1 億小時的音視訊資料上進行訓練——這種規模使其與大多數競爭對手處於不同的重量級。

Qwen 3.5 Omni 是 Qwen 3 Omni Flash 的進化版,後者是阿里巴巴於 2025 年 12 月發布的先前全模態模型。該版本已經以其同時處理視訊和音訊的能力令人印象深刻——它能夠處理結合多個視覺輸入的圖像編輯指令,其方式是競爭對手無法做到的——並以低至 234 毫秒的延遲串流語音回應。

它也是第一個嘗試 Google NotebookLM 替代方案的模型。它取得了一些成果,但品質未能與 Google 的產品相提並論。

Qwen 3.5 Omni 採用所有這些功能,並新增了更長的上下文視窗、更好的推理能力、更廣泛的語言庫,以及上一代沒有的一組即時互動功能。

最重要的升級是當您實際與它對話時會發生什麼。Qwen3.5-Omni 現在支援語義中斷:它能區分您在句中說「嗯哼」和真正想要插話的區別,因此它不會在每次有人在背景咳嗽時就中途停止,使語音互動更加流暢。

一種名為 ARIA 的新技術,即自適應速率交錯對齊(Adaptive Rate Interleave Alignment)的縮寫,也修復了一個微妙但持續存在的困擾: AI 系統在朗讀時會弄亂數字或不尋常的單詞。ARIA 動態同步文字和語音,以保持輸出自然且準確。

然後是語音克隆。使用者可以上傳語音樣本,讓模型在其回應中採用該語音,這一功能使 Qwen 直接與 ElevenLabs 和其他專用語音工具競爭。不過,我們無法存取此功能,因為這是一個至少目前只能透過 API 使用的功能。

在多語言語音穩定性基準測試中,Qwen3.5 Omni- Plus 在 20 種語言上擊敗了 ElevenLabs、GPT-Audio 和 Minimax。該模型現在還支援即時網路搜尋,這意味著它可以回答有關突發新聞或即時市場資料的問題,而無需假裝它已經知道。

該團隊還強調了他們所謂的「音視訊氛圍編碼」,模型可以觀看程式設計任務的螢幕錄影或視訊,並純粹根據其所見所聞編寫功能性程式碼,無需文字提示。這是 AI 助理最終可能如何在您的工作流程內部而非旁邊運作的小型預覽。

為了瞭解「全模態」在實踐中的實際含義,我們進行了一個快速測試:我們向處於「思考」模式的 Qwen3.5-Omni 和 ChatGPT 5.4 都提供了相同的 YouTube Short——Dastan 總裁(Dastan 是 Decrypt 的母公司)和評論員 Farokh 討論突發新聞的片段。Qwen 3.5 Omni 原生處理視訊,並在大約一分鐘內返回完整分析:誰在說話、他們在討論什麼,以及根據其對主題領域的知識對該話題進行實質性評論。

ChatGPT 5.4 不是全模態的,必須管理它所獲得的內容。它從視訊中提取畫面,透過視覺模型運行它們,使用 Whisper 轉錄音訊,並應用 OCR 工具讀取嵌入的字幕——三個獨立的過程拼接在一起,以近似 Qwen3.5-Omni 在單次處理中完成的工作。結果花費了九分鐘,這還是在理想條件下:光線充足的視訊、清晰的音訊和燒錄的字幕。現實世界的內容很少同時提供這三者。

在我們對多個輸入的快速測試中,該模型還順利處理了西班牙語、葡萄牙語和英語的提示——在對話中途切換語言而不會失去上下文。

在標準基準測試中,Qwen 3.5 Omni Plus 在一般音訊理解、推理和翻譯任務上優於 Gemini 3.1 Pro,並在音視訊理解上與其匹配。語音識別現在涵蓋 113 種語言和方言——從上一代的 19 種增加到 113 種。

這是阿里巴巴六週內的第二次重大 AI 發布。2 月,它推出了 Qwen 3.5,一個在推理和編碼基準測試上匹配或擊敗前沿模型的文字和視覺模型——這是一系列成就的一部分,還包括 Qwen Deep Research 和一系列可與 OpenAI 和 Google 相媲美的工具。Qwen 3.5 Omni 將這一勢頭延伸到完整的多模態領域,正值每個主要 AI 實驗室都在競相建構能處理人類溝通全方位的系統——不僅僅是螢幕上的文字。

該模型現在可透過阿里雲的 API 使用,並可在 Qwen Chat 或透過 Hugging Face 的線上示範直接測試。