AI21 Labs es algo así como la respuesta israelí a OpenAI, con sede en EE. UU. Es a la vez un laboratorio de investigación que realiza trabajo de vanguardia en procesamiento del lenguaje natural (NLP), y también un negocio comercial que espera llevar rápidamente esos desarrollos de última generación a productos que las empresas reales puedan usar —y pagar.
AI21 Labs fue fundada por Yoav Shoham, profesor emérito de inteligencia artificial en la Universidad de Stanford; Amnon Shashua, cofundador de la empresa de software de conducción autónoma Mobileye, adquirida por Intel; y Ori Goshen, fundador de la plataforma de crowdfunding CrowdX. El ambicioso objetivo de la empresa es "reimaginar la forma en que las personas leen y escriben, para mejor."
El laboratorio ha construido un nuevo sistema al que llama con cierta audacia "Miracle", una versión más amigable de MRKL, acrónimo de Modular Reasoning, Knowledge and Language system (Sistema Modular de Razonamiento, Conocimiento y Lenguaje). MRKL es importante por lo que revela sobre cuatro tendencias clave en cómo las empresas utilizarán la IA en el futuro.
En primer lugar, MRKL está diseñado para manejar todo tipo de tareas de lenguaje natural, no solo un trabajo específico como la mayoría de estos sistemas hasta hace poco. Por ejemplo, si querías un chatbot de atención al cliente, la misma IA no podía ayudar a analizar el sentimiento de las llamadas de resultados de los CEO. Pero ahora un único motor de NLP puede ayudar a gestionar ambas tareas. Es otro ejemplo de la auténtica revolución en NLP y el impacto que está empezando a tener en los negocios.
La segunda tendencia, estrechamente relacionada, es que estos sistemas NLP de propósito general se construirán cada vez más sobre "modelos de lenguaje ultra-grandes", algoritmos únicos que aprenden miles de millones de relaciones estadísticas entre palabras. Se entrenan con enormes cantidades de texto extraído de internet, incluidos libros escritos en inglés y otros idiomas, así como fuentes públicas como Wikipedia y hilos de Reddit. La mayoría de estos sistemas se entrenan para predecir una palabra que falta en una oración o la siguiente palabra en una oración. Pero resulta que, cuando construyes un sistema de IA tan grande y lo entrenas para hacer una cosa, también es capaz de hacer muchas otras cosas con poco o ningún entrenamiento adicional: traducción, respuesta a preguntas y redacción de pasajes de texto originales.
Además, con solo un poco más de entrenamiento en un número relativamente pequeño de ejemplos, estos modelos de lenguaje grandes pueden superar con frecuencia a sistemas de IA más pequeños que fueron entrenados con grandes conjuntos de datos —a menudo curados a gran costo— para realizar una sola tarea específica. Es esta capacidad de funcionar con "pocos datos" lo que hace que los modelos de lenguaje ultra-grandes sean tan potencialmente atractivos para las empresas, ya que usarlos podría ser más rápido y económico.
Quizás el ejemplo más conocido de un modelo de lenguaje ultra-grande disponible para uso comercial es GPT-3 de OpenAI. OpenAI tiene una estrecha relación con Microsoft, que invirtió más de 1.000 millones de dólares en la empresa y, como era de esperar, Microsoft ha incorporado GPT-3 en un producto que escribe código informático automáticamente. También pone la tecnología a disposición de sus clientes de la nube Azure.
AI21 Labs tiene su propio modelo de lenguaje ultra-grande llamado Jurassic-1, que lanzó comercialmente el año pasado y que afirma ser superior a GPT-3, en parte porque tiene un mayor "vocabulario de tokens". Eso se refiere al número de palabras y partes de palabras que conoce. Jurassic tiene un vocabulario de tokens de más de 250.000, cinco veces el de GPT-3.
Existen algunos problemas bien documentados con estos modelos de lenguaje ultra-grandes, incluido que pueden ser inducidos a generar lenguaje tóxico. Pero otro gran defecto es que tienen tendencia a producir información inexacta en respuesta a preguntas de hechos.
Por ejemplo, pídele a GPT-3 que sume dos más dos y te dirá con confianza cuatro, pero pídele que sume varios números de cuatro y cinco dígitos, y lo más probable es que te dé con la misma confianza una respuesta incorrecta. Pregúntale cómo está el tiempo en Nueva York actualmente y te lo dirá, pero probablemente será la temperatura en Nueva York en el momento en que los datos de AccuWeather fueron extraídos para su conjunto de entrenamiento, no el tiempo de hoy. El mismo problema se aplica a preguntas sobre eventos actuales o incluso ciencia. Y debido a que estos modelos de lenguaje grandes son tan grandes, son extremadamente costosos de entrenar —en millones de dólares—, por lo que no es práctico actualizarlos constantemente para garantizar que sus datos estén al día.
Este es el problema que AI21 Labs se propuso resolver con MRKL (escribí sobre una de las innovaciones anteriores del laboratorio aquí). Lo que nos lleva a la tercera gran tendencia que representa MRKL: MRKL es un sistema híbrido. No solo utiliza el aprendizaje profundo, el método de IA responsable de la mayoría de los grandes avances en la tecnología durante la última década. En cambio, combina diferentes módulos, algunos de los cuales usan aprendizaje profundo y otros usan una forma más antigua de IA, el razonamiento simbólico, para proporcionar respuestas precisas y actualizadas a preguntas de hechos.
Lo inteligente de MRKL es un módulo llamado enrutador que toma una pregunta de un usuario y determina qué tipo de información está buscando. Si la pregunta involucra matemáticas, envía esa pregunta a una calculadora científica convencional. Si involucra tipos de cambio, la dirige a un conversor de divisas. Si es sobre el tiempo, la envía a un sitio web de pronósticos. Hay 55 de estos módulos específicos de tareas que MRKL admite actualmente, según Shoham. Si el enrutador no está seguro de qué módulo es el mejor, recurre a Jurassic-1. Jurassic también ayuda a componer el lenguaje contextual en torno a la respuesta de MRKL.
Otra innovación inteligente aquí es cómo AI21 Labs es capaz de obtener el tipo correcto de respuesta de Jurassic. Lo hace con un método llamado "ajuste de prompts", en el que la forma en que una pregunta inicial o fragmento de texto se introduce en el modelo de lenguaje ultra-grande ayuda a determinar la naturaleza del resultado. Es una forma de ajustar la IA para un tipo particular de tarea sin tener que ajustarla con datos de entrenamiento adicionales. El problema con el entrenamiento adicional es que a medida que el sistema mejora en una tarea específica, en realidad empeora en otras. Los investigadores llaman a este problema "olvido catastrófico."
Algunos investigadores de IA superan el olvido catastrófico entrenando el modelo para una variedad de tareas dispares al mismo tiempo, pero eso requiere mucha potencia informática, tiempo y dinero. El ajuste de prompts evita esto. La innovación de AI21 Labs con MRKL es crear pequeños módulos de aprendizaje profundo que pueden ajustar automáticamente los prompts de Jurassic sobre la marcha, tomando la consulta de un usuario y componiendo el mejor conjunto de prompts para impulsar a Jurassic a generar respuestas en el estilo y formato correctos.
Y con eso, aquí está el resto de las noticias de esta semana en IA.
Jeremy Kahn
@jeremyakahn
jeremy.kahn@fortune.com
Esta historia fue publicada originalmente en Fortune.com

