SkyRL bổ sung hỗ trợ RL thị giác-ngôn ngữ cho các mô hình đa phương thức

Joerg Hiller 23:33 24/04/2026 (Giờ VN)

SkyRL giới thiệu học tăng cường thị giác-ngôn ngữ, cho phép huấn luyện có khả năng mở rộng cho các tác vụ đa phương thức. Tìm hiểu tác động của điều này đối với sự phát triển AI.

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL, một thư viện học tăng cường (RL) được phát triển bởi Sky Computing Lab của UC Berkeley và Anyscale, đã công bố hỗ trợ huấn luyện sau cho mô hình thị giác-ngôn ngữ (VLM). Bản cập nhật này cho phép các nhóm huấn luyện mô hình đa phương thức bằng cách sử dụng quy trình tinh chỉnh có giám sát (SFT) và RL, đáp ứng nhu cầu ngày càng tăng về các mô hình có khả năng xử lý đồng thời dữ liệu hình ảnh và văn bản.

Các tác vụ đa phương thức như thị giác máy tính, robot và lý luận tác nhân yêu cầu các mô hình xử lý đầu vào hình ảnh, thực hiện hành động và thích ứng dựa trên phản hồi. Chức năng mới của SkyRL đưa VLM trở thành thành phần cốt lõi trong ngăn xếp huấn luyện, cung cấp các công cụ để mở rộng việc huấn luyện trên GPU cục bộ hoặc cụm đa nút. Điều này được xây dựng dựa trên cơ sở hạ tầng hiện có của SkyRL, vốn đã hỗ trợ các tác vụ tác nhân phức tạp như điểm chuẩn kỹ thuật phần mềm và tạo Text-to-SQL.

Các tính năng chính của bản cập nhật

Một trong những thách thức cốt lõi trong RL cho các tác vụ thị giác-ngôn ngữ là duy trì tính nhất quán giữa huấn luyện và suy luận. SkyRL giải quyết vấn đề trôi dạt xác suất log—phổ biến khi xử lý đầu vào hình ảnh—bằng cách giới thiệu một pipeline phi tập trung. Sử dụng ngăn xếp suy luận vLLM làm nguồn thông tin chuẩn, nền tảng đảm bảo quá trình mã hóa token và chuẩn bị đầu vào luôn nhất quán trong các quy trình làm việc.

Cách tiếp cận này không chỉ ổn định quá trình huấn luyện mà còn cho phép mở rộng độc lập các CPU worker cho quá trình xử lý đầu vào, đảm bảo thông lượng GPU không bị tắc nghẽn. Bản cập nhật cũng hỗ trợ các công thức sẵn có cho các tác vụ như điều hướng Maze2D và Geometry-3k, một tập dữ liệu yêu cầu lý luận hình học trực quan. Kết quả ban đầu cho thấy độ ổn định huấn luyện được cải thiện ngay cả ở các kích thước mô hình lớn hơn, chẳng hạn như Qwen3-VL 8B Instruct.

Tác động đối với sự phát triển AI

SkyRL đang định vị mình là nền tảng hàng đầu cho RL và SFT có khả năng mở rộng trong huấn luyện mô hình đa phương thức. Bằng cách tích hợp với các công cụ như Tinker API, người dùng có thể triển khai quy trình RL trên cơ sở hạ tầng của riêng họ, giảm sự phụ thuộc vào các nhà cung cấp bên ngoài. Điều này đặc biệt phù hợp trong bối cảnh nhu cầu tính toán ngày càng tăng khi huấn luyện các mô hình lớn.

Những tiến bộ này xuất hiện vào thời điểm các hệ thống AI đa phương thức đang được nhu cầu cao cho các ứng dụng thực tế. Các tác vụ yêu cầu ra quyết định tuần tự, lý luận hình ảnh và khả năng thích ứng—chẳng hạn như điều hướng tự động và tương tác động với các công cụ—sẽ được hưởng lợi đáng kể. Thiết kế mô-đun của SkyRL cũng hỗ trợ tạo mẫu nhanh, cho phép các nhà nghiên cứu và nhà phát triển thử nghiệm các thuật toán và mô hình huấn luyện mới.

Nhìn về phía trước

Lộ trình của SkyRL bao gồm các tính năng như đóng gói chuỗi, hỗ trợ backend Megatron và huấn luyện ngữ cảnh dài với tính song song ngữ cảnh. Những nâng cấp này dự kiến sẽ nâng cao hơn nữa khả năng xử lý các tác vụ tác nhân phức tạp. Đối với các nhà phát triển muốn tìm hiểu về huấn luyện VLM, SkyRL cung cấp hướng dẫn và tài liệu để giúp họ bắt đầu.

Khi ngành AI ngày càng tích hợp các hệ thống đa phương thức vào các trường hợp sử dụng thực tế, khả năng huấn luyện và tinh chỉnh hiệu quả các mô hình như vậy sẽ là yếu tố khác biệt quan trọng. Bản cập nhật mới nhất của SkyRL phản ánh cam kết của nó trong việc dẫn đầu sự phát triển này, cung cấp một framework có khả năng mở rộng và mô-đun cho nghiên cứu và triển khai RL tiên tiến.

Nguồn ảnh: Shutterstock

skyrl
reinforcement learning
vision-language models
ai training

SkyRL Bổ Sung Hỗ Trợ RL Ngôn Ngữ-Hình Ảnh Cho Các Mô Hình Đa Phương Thức

SkyRL bổ sung hỗ trợ RL thị giác-ngôn ngữ cho các mô hình đa phương thức

Các tính năng chính của bản cập nhật

Tác động đối với sự phát triển AI

Nhìn về phía trước

Có thể bạn cũng thích

Mỹ đề nghị thưởng 10 triệu USD khi DOJ thu giữ hơn 700 triệu USD tiền mã hoá từ các trung tâm lừa đảo nhắm vào người Mỹ

Mỹ ném bom các cơ sở hạt nhân Iran, số phận kho uranium bất ổn

Brazil Ban lệnh cấm các hợp đồng thị trường dự đoán phi tài chính

Tin tức xu hướng

Bitcoin, Ethereum ETFs ghi nhận dòng tiền vào 37,8M USD trong bối cảnh căng thẳng Mỹ-Iran

Các lãnh đạo Pi Network tham gia Consensus Miami để thảo luận về Blockchain và AI

'Phòng ngừa'- Wrapped Bitcoin (wBTC) tăng cường bảo mật sau vụ khai thác $293M của KelpDAO

Tàu khu trục Mỹ chặn tàu Iran, tác động đến thị trường eo biển Hormuz

Chuyển ra XRP tăng vọt khi mô hình nền nhiều năm báo hiệu khả năng thiết lập Breakout

Tin tức trực tiếp 24/7

Đọc nhanh

Dự đoán giá BEEG 2026: Cá voi đã đi biển - Hay làn sóng lớn nhất vẫn đang đến?

Phân tích chuyên sâu BEEG 2026: Liệu con cá voi khổng lồ có đang lặng lẽ xây nhà kho?

XRP ETF lập kỷ lục về chuỗi dài nhất năm 2026, các quỹ tổ chức trở lại mẽ

DOGE Bulls Eye là một đột phá quan trọng - $0,126 có phải là điểm dừng tiếp theo?

Peace Frog (PEACE) là gì? Giới thiệu về Tiền điện tử

Giá tiền mã hoá