Tóm tắt
- Qwen 3.5 Omni của Alibaba mang AI đa phương thức thời gian thực thực sự vào cuộc đua tiên tiến.
- Xử lý âm thanh-hình ảnh gốc vượt trội hơn các quy trình đa phương thức ghép nối về tốc độ và tính mạch lạc.
- Nhân bản giọng nói, ngắt lời ngữ nghĩa và lập trình vibe báo hiệu sự chuyển dịch hướng tới các AI Agent tương tác hoàn toàn.
Alibaba vừa tung ra bản nâng cấp AI đầy tham vọng nhất từ trước đến nay.
Nhóm Qwen của công ty đã phát hành Qwen 3.5 Omni vào Chủ nhật, một phiên bản mới của AI "đa phương thức" có khả năng xử lý đồng thời văn bản, hình ảnh, âm thanh và video, đồng thời phản hồi theo thời gian thực trên 36 ngôn ngữ, đặt mô hình của mình vào cùng chiến trường với các mô hình nền tảng AI tiên tiến nhất hiện có.
"Omni" không chỉ là từ thương mại ở đây. Hầu hết các mô hình AI bạn tương tác chủ yếu là hệ thống nhập-xuất văn bản. Một số xử lý hình ảnh, một số xử lý giọng nói. Qwen 3.5 Omni xử lý tất cả chúng một cách tự nhiên, cùng một lúc, không cần chuyển đổi mọi thứ sang văn bản thông qua các công cụ bên thứ ba.
Mô hình mới có ba kích cỡ—Plus, Flash và Light—tất cả đều hỗ trợ cửa sổ ngữ cảnh 256,000 token nhỏ (theo tiêu chuẩn hiện nay). Nó được huấn luyện trên hơn 100 triệu giờ dữ liệu âm thanh-hình ảnh—quy mô đặt nó vào hạng cân khác so với hầu hết các đối thủ.
Qwen 3.5 Omni là sự tiến hóa của Qwen 3 Omni Flash, mô hình đa phương thức trước đó của Alibaba được phát hành vào tháng 12 năm 2025. Phiên bản đó đã gây ấn tượng với khả năng xử lý video và âm thanh đồng thời—có thể xử lý hướng dẫn chỉnh sửa hình ảnh kết hợp nhiều đầu vào trực quan theo cách mà các đối thủ không thể—và truyền phản hồi giọng nói với độ trễ chỉ 234 mili giây.
Nó cũng là mô hình đầu tiên thử một giải pháp thay thế cho NotebookLM của Google. Nó đã đạt được một số thành tựu, nhưng chất lượng không ngang bằng với sản phẩm của Google.
Qwen 3.5 Omni lấy tất cả những điều đó và thêm cửa sổ ngữ cảnh dài hơn, lý luận tốt hơn, thư viện ngôn ngữ rộng hơn nhiều và một tập hợp các tính năng tương tác thời gian thực mà thế hệ trước không có.
Nâng cấp chính là những gì xảy ra khi bạn thực sự nói chuyện với nó. Qwen3.5-Omni hiện hỗ trợ ngắt lời ngữ nghĩa: Nó có thể phân biệt giữa việc bạn nói "uh-huh" giữa câu và thực sự muốn xen vào, vì vậy nó sẽ không dừng giữa chừng mỗi khi ai đó ho ở phía sau, làm cho tương tác bằng lời nói mượt mà hơn.
Một kỹ thuật mới có tên ARIA, viết tắt của Adaptive Rate Interleave Alignment, cũng khắc phục một sự khó chịu tinh tế nhưng dai dẳng: các hệ thống AI làm rối tung số hoặc từ bất thường khi đọc to. ARIA đồng bộ động văn bản và giọng nói để giữ đầu ra tự nhiên và chính xác.
Sau đó là nhân bản giọng nói. Người dùng có thể tải lên mẫu giọng nói và để mô hình áp dụng giọng đó trong các phản hồi của nó, một tính năng đặt Qwen vào cạnh tranh trực tiếp với ElevenLabs và các công cụ giọng nói chuyên dụng khác. Tuy nhiên, chúng tôi không thể truy cập tính năng này, vì đây là tính năng, ít nhất là hiện tại, chỉ khả dụng qua API.
Trên các tiêu chuẩn ổn định giọng nói đa ngôn ngữ, Qwen3.5 Omni-Plus đã vượt qua ElevenLabs, GPT-Audio và Minimax trên 20 ngôn ngữ. Mô hình hiện cũng hỗ trợ tìm kiếm web thời gian thực, nghĩa là nó có thể trả lời các câu hỏi về tin tức nóng hổi hoặc dữ liệu thị trường trực tiếp mà không giả vờ đã biết sẵn.
Nhóm cũng đang nhấn mạnh những gì họ gọi là "Audio-Visual Vibe Coding," mô hình có thể xem bản ghi màn hình hoặc video của tác vụ lập trình và viết mã chức năng chỉ dựa trên những gì nó thấy và nghe, không cần lời nhắc văn bản. Đó là một bản xem trước nhỏ về cách các trợ lý AI cuối cùng có thể hoạt động bên trong quy trình làm việc của bạn thay vì bên cạnh nó.
Để hiểu "đa phương thức" thực sự có nghĩa gì trong thực tế, chúng tôi đã chạy một bài kiểm tra nhanh: Chúng tôi cung cấp cho cả Qwen3.5-Omni và ChatGPT 5.4 ở chế độ "suy nghĩ" cùng một YouTube Short—một đoạn clip của Chủ tịch Dastan (Dastan là công ty mẹ của Decrypt) và bình luận viên Farokh thảo luận về tin tức nóng hổi. Qwen 3.5 Omni xử lý video tự nhiên và trả về phân tích đầy đủ trong khoảng một phút: ai đang nói, họ đang thảo luận về gì và một nhận xét có chất lượng về chủ đề dựa trên kiến thức riêng của nó về lĩnh vực chủ đề.
ChatGPT 5.4, không phải đa phương thức, phải quản lý với những gì nó có. Nó trích xuất các khung hình từ video, chạy chúng qua mô hình thị giác, sử dụng Whisper để phiên âm âm thanh và áp dụng công cụ OCR để đọc phụ đề nhúng—ba quy trình riêng biệt được ghép lại với nhau để xấp xỉ những gì Qwen3.5-Omni làm trong một lần. Kết quả mất chín phút, và đó là trong điều kiện lý tưởng: một video được chiếu sáng tốt với âm thanh rõ ràng và phụ đề được ghi sẵn. Nội dung thế giới thực hiếm khi cung cấp cả ba.
Trong các bài kiểm tra nhanh của chúng tôi trên nhiều đầu vào, mô hình cũng xử lý các lời nhắc bằng tiếng Tây Ban Nha, Bồ Đào Nha và tiếng Anh mà không gặp vấn đề—chuyển đổi ngôn ngữ giữa cuộc trò chuyện mà không mất ngữ cảnh.
Trên các tiêu chuẩn chuẩn, Qwen 3.5 Omni Plus vượt trội hơn Gemini 3.1 Pro về hiểu âm thanh chung, lý luận và các tác vụ dịch thuật, và ngang bằng về khả năng hiểu âm thanh-hình ảnh. Nhận dạng giọng nói hiện bao gồm 113 ngôn ngữ và phương ngữ—tăng từ 19 trong thế hệ trước.
Đây là bản phát hành AI lớn thứ hai của Alibaba trong sáu tuần. Vào tháng 2, công ty đã ra mắt Qwen 3.5, một mô hình văn bản-và-thị giác ngang bằng hoặc đánh bại các mô hình tiên tiến về các tiêu chuẩn lý luận và lập trình—là một phần của chuỗi thành tích cũng bao gồm Qwen Deep Research và một loạt các công cụ cạnh tranh với OpenAI và Google. Qwen 3.5 Omni mở rộng đà đó vào lãnh thổ đa phương thức đầy đủ, vào thời điểm mà mọi phòng thí nghiệm AI lớn đang chạy đua để xây dựng các hệ thống xử lý toàn bộ phổ giao tiếp của con người—không chỉ các từ trên màn hình.
Mô hình hiện có sẵn qua API của Alibaba Cloud và có thể được kiểm tra trực tiếp tại Qwen Chat hoặc thông qua bản demo trực tuyến của Hugging Face.
Bản tin Daily Debrief
Bắt đầu mỗi ngày với các tin tức hàng đầu ngay bây giờ, cộng với các tính năng gốc, podcast, video và nhiều hơn nữa.
Nguồn: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

