SkyRL giới thiệu học tăng cường ngôn ngữ-thị giác, cho phép đào tạo có khả năng mở rộng cho các tác vụ đa phương thức. Tìm hiểu cách điều này tác động đến sự phát triển AI. (Đọc thêm)SkyRL giới thiệu học tăng cường ngôn ngữ-thị giác, cho phép đào tạo có khả năng mở rộng cho các tác vụ đa phương thức. Tìm hiểu cách điều này tác động đến sự phát triển AI. (Đọc thêm)

SkyRL Bổ Sung Hỗ Trợ RL Ngôn Ngữ-Hình Ảnh Cho Các Mô Hình Đa Phương Thức

2026/04/25 00:33
Đọc trong 5 phút
Đối với phản hồi hoặc thắc mắc liên quan đến nội dung này, vui lòng liên hệ với chúng tôi qua crypto.news@mexc.com

SkyRL bổ sung hỗ trợ RL thị giác-ngôn ngữ cho các mô hình đa phương thức

Joerg Hiller 23:33 24/04/2026 (Giờ VN)

SkyRL giới thiệu học tăng cường thị giác-ngôn ngữ, cho phép huấn luyện có khả năng mở rộng cho các tác vụ đa phương thức. Tìm hiểu tác động của điều này đối với sự phát triển AI.

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL, một thư viện học tăng cường (RL) được phát triển bởi Sky Computing Lab của UC Berkeley và Anyscale, đã công bố hỗ trợ huấn luyện sau cho mô hình thị giác-ngôn ngữ (VLM). Bản cập nhật này cho phép các nhóm huấn luyện mô hình đa phương thức bằng cách sử dụng quy trình tinh chỉnh có giám sát (SFT) và RL, đáp ứng nhu cầu ngày càng tăng về các mô hình có khả năng xử lý đồng thời dữ liệu hình ảnh và văn bản.

Các tác vụ đa phương thức như thị giác máy tính, robot và lý luận tác nhân yêu cầu các mô hình xử lý đầu vào hình ảnh, thực hiện hành động và thích ứng dựa trên phản hồi. Chức năng mới của SkyRL đưa VLM trở thành thành phần cốt lõi trong ngăn xếp huấn luyện, cung cấp các công cụ để mở rộng việc huấn luyện trên GPU cục bộ hoặc cụm đa nút. Điều này được xây dựng dựa trên cơ sở hạ tầng hiện có của SkyRL, vốn đã hỗ trợ các tác vụ tác nhân phức tạp như điểm chuẩn kỹ thuật phần mềm và tạo Text-to-SQL.

Các tính năng chính của bản cập nhật

Một trong những thách thức cốt lõi trong RL cho các tác vụ thị giác-ngôn ngữ là duy trì tính nhất quán giữa huấn luyện và suy luận. SkyRL giải quyết vấn đề trôi dạt xác suất log—phổ biến khi xử lý đầu vào hình ảnh—bằng cách giới thiệu một pipeline phi tập trung. Sử dụng ngăn xếp suy luận vLLM làm nguồn thông tin chuẩn, nền tảng đảm bảo quá trình mã hóa token và chuẩn bị đầu vào luôn nhất quán trong các quy trình làm việc.

Cách tiếp cận này không chỉ ổn định quá trình huấn luyện mà còn cho phép mở rộng độc lập các CPU worker cho quá trình xử lý đầu vào, đảm bảo thông lượng GPU không bị tắc nghẽn. Bản cập nhật cũng hỗ trợ các công thức sẵn có cho các tác vụ như điều hướng Maze2D và Geometry-3k, một tập dữ liệu yêu cầu lý luận hình học trực quan. Kết quả ban đầu cho thấy độ ổn định huấn luyện được cải thiện ngay cả ở các kích thước mô hình lớn hơn, chẳng hạn như Qwen3-VL 8B Instruct.

Tác động đối với sự phát triển AI

SkyRL đang định vị mình là nền tảng hàng đầu cho RL và SFT có khả năng mở rộng trong huấn luyện mô hình đa phương thức. Bằng cách tích hợp với các công cụ như Tinker API, người dùng có thể triển khai quy trình RL trên cơ sở hạ tầng của riêng họ, giảm sự phụ thuộc vào các nhà cung cấp bên ngoài. Điều này đặc biệt phù hợp trong bối cảnh nhu cầu tính toán ngày càng tăng khi huấn luyện các mô hình lớn.

Những tiến bộ này xuất hiện vào thời điểm các hệ thống AI đa phương thức đang được nhu cầu cao cho các ứng dụng thực tế. Các tác vụ yêu cầu ra quyết định tuần tự, lý luận hình ảnh và khả năng thích ứng—chẳng hạn như điều hướng tự động và tương tác động với các công cụ—sẽ được hưởng lợi đáng kể. Thiết kế mô-đun của SkyRL cũng hỗ trợ tạo mẫu nhanh, cho phép các nhà nghiên cứu và nhà phát triển thử nghiệm các thuật toán và mô hình huấn luyện mới.

Nhìn về phía trước

Lộ trình của SkyRL bao gồm các tính năng như đóng gói chuỗi, hỗ trợ backend Megatron và huấn luyện ngữ cảnh dài với tính song song ngữ cảnh. Những nâng cấp này dự kiến sẽ nâng cao hơn nữa khả năng xử lý các tác vụ tác nhân phức tạp. Đối với các nhà phát triển muốn tìm hiểu về huấn luyện VLM, SkyRL cung cấp hướng dẫn và tài liệu để giúp họ bắt đầu.

Khi ngành AI ngày càng tích hợp các hệ thống đa phương thức vào các trường hợp sử dụng thực tế, khả năng huấn luyện và tinh chỉnh hiệu quả các mô hình như vậy sẽ là yếu tố khác biệt quan trọng. Bản cập nhật mới nhất của SkyRL phản ánh cam kết của nó trong việc dẫn đầu sự phát triển này, cung cấp một framework có khả năng mở rộng và mô-đun cho nghiên cứu và triển khai RL tiên tiến.

Nguồn ảnh: Shutterstock
  • skyrl
  • reinforcement learning
  • vision-language models
  • ai training
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ crypto.news@mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.

Tung xúc xắc & nhận đến 1 BTC

Tung xúc xắc & nhận đến 1 BTCTung xúc xắc & nhận đến 1 BTC

Giới thiệu bạn bè & chia sẻ 500,000 USDT!