El día 25 de julio, Luciana Benotti participará como moderadora en distintas disertaciones dentro del bloque: “Agentes y modelado del mundo” a realizarse en la Conferencia Internacional sobre Aprendizaje Automático (ICML).
ICML es reconocida a nivel mundial por presentar y publicar investigaciones de vanguardia sobre todos los aspectos del aprendizaje automático utilizados en áreas estrechamente relacionadas como la inteligencia artificial, la estadística y la ciencia de datos, así como áreas de aplicación importantes como la visión artificial, la biología computacional, el reconocimiento de voz y la robótica.
“La apertura es esencial para la inteligencia artificial sobrehumana” de 16:30 a 16:46 hs.
En los últimos años, ha habido un aumento tremendo en las capacidades generales de los sistemas de IA, impulsado principalmente por el entrenamiento de modelos base con datos a escala de Internet. Sin embargo, la creación de una IA abierta y en constante auto-mejora sigue siendo esquiva. En este artículo de posición, argumentamos que ahora están en su lugar los ingredientes para lograr la apertura en los sistemas de IA con respecto a un observador humano. Además, afirmamos que dicha apertura es una propiedad esencial de cualquier inteligencia artificial sobrehumana (ASI). Comenzamos proporcionando una definición formal concreta de apertura a través del lente de la novedad y la capacidad de aprendizaje. Luego, ilustramos un camino hacia la ASI a través de sistemas abiertos construidos sobre modelos base, capaces de hacer descubrimientos novedosos y relevantes para los humanos. Concluimos examinando las implicaciones de seguridad de la IA abierta y generalmente capaz. Esperamos que los modelos base abiertos demuestren ser un área de investigación cada vez más fértil y crítica para la seguridad en un futuro cercano.
En el conversatorio participarán: Edward Hughes · Michael Dennis · Jack Parker-Holder · Feryal Behbahani · Aditi Mavalankar · Yuge Shi · Tom Schaul · Tim Rocktäschel
“Aprendiendo a Modelar el Mundo con Lenguaje” de 16:45 – 17:00 hs
Para interactuar con los humanos y actuar en el mundo, los agentes necesitan entender la gama de lenguajes que la gente usa y relacionarla con el mundo visual. Aunque los agentes actuales pueden aprender a ejecutar instrucciones de lenguaje simples, nuestro objetivo es construir agentes que aprovechen un lenguaje diverso—lenguaje como “este botón enciende el televisor” o “guardé los tazones”—que transmite conocimiento general, describe el estado del mundo, proporciona retroalimentación interactiva, y más. Nuestra idea clave es que los agentes deben interpretar dicho lenguaje diverso como una señal que les ayuda a predecir el futuro: lo que observarán, cómo se comportará el mundo y qué situaciones serán recompensadas. Esta perspectiva unifica la comprensión del lenguaje con la predicción futura como un objetivo poderoso de aprendizaje auto-supervisado. Lo implementamos en Dynalang, un agente que aprende un modelo del mundo multimodal para predecir representaciones futuras de texto e imagen, y aprende a actuar a partir de simulaciones imaginadas del modelo. Mientras que los métodos actuales que aprenden políticas condicionadas por el lenguaje disminuyen en rendimiento con tipos de lenguaje más diversos, mostramos que Dynalang aprende a aprovechar descripciones del entorno, reglas del juego e instrucciones para sobresalir en tareas que van desde jugar hasta navegar por escaneos de hogares fotorrealistas. Finalmente, mostramos que nuestro método permite capacidades adicionales debido a aprender un modelo generativo: Dynalang puede ser preentrenado con datos solo de texto, permitiendo el aprendizaje a partir de conjuntos de datos offline, y generar lenguaje basado en un entorno.
En el conversatorio participarán: Jessy Lin · Yuqing Du · Olivia Watkins · Danijar Hafner · Pieter Abbeel · Dan Klein · Anca Dragan
“CompeteAI: Entendiendo la Dinámica de Competencia de los Agentes Basados en Modelos de Lenguaje Grande” de 17:00 – 17:15 hs.
Los modelos de lenguaje grande (LLMs) se han utilizado ampliamente como agentes para completar diferentes tareas, como asistencia personal o planificación de eventos. Aunque la mayor parte del trabajo se ha centrado en la cooperación y colaboración entre agentes, se ha explorado poco la competencia, otro mecanismo importante que promueve el desarrollo de la sociedad y la economía. En este artículo, buscamos examinar la dinámica de competencia en los agentes basados en LLM. Primero proponemos un marco general para estudiar la competencia entre agentes. Luego, implementamos un entorno competitivo práctico utilizando GPT-4 para simular una ciudad virtual con dos tipos de agentes, incluidos agentes de restaurantes y agentes clientes. Específicamente, los agentes de restaurantes compiten entre sí para atraer más clientes, donde la competencia los anima a transformarse, como cultivar nuevas estrategias operativas. Los experimentos de simulación revelan varios hallazgos interesantes a nivel micro y macro, que se alinean bien con las teorías de mercado y sociológicas existentes. Esperamos que el marco y el entorno puedan ser un banco de pruebas prometedor para estudiar la competencia que fomente la comprensión de la sociedad. El código está disponible en: https://github.com/microsoft/competeai.
En el conversatorio participarán: Qinlin Zhao · Jindong Wang · Yixuan Zhang · Yiqiao Jin · Kaijie Zhu · Hao Chen · Xing Xie
“GPTSwarm: Agentes de Lenguaje como Grafos Optimizables” de 17:15 – 17:30 hs
Se han propuesto varias técnicas de ingeniería de prompts diseñadas por humanos para mejorar los solucionadores de problemas basados en modelos de lenguaje grande (LLM), lo que ha dado lugar a muchas bases de código dispares. Unificamos estos enfoques describiendo a los agentes basados en LLM como grafos computacionales. Los nodos implementan funciones para procesar datos multimodales o consultar LLMs, y los bordes describen el flujo de información entre operaciones. Los grafos pueden combinarse recursivamente en grafos compuestos más grandes que representan jerarquías de colaboración entre agentes (donde los bordes conectan operaciones de diferentes agentes). Nuestros nuevos optimizadores automáticos de grafos (1) refinan los prompts de LLM a nivel de nodo (optimización de nodos) y (2) mejoran la orquestación de agentes cambiando la conectividad del grafo (optimización de bordes). Los experimentos demuestran que nuestro marco puede usarse para desarrollar, integrar y mejorar automáticamente de manera eficiente varios agentes LLM. Nuestro código es público.
En el conversatorio participarán: Mingchen Zhuge · Wenyi Wang · Louis Kirsch · Francesco Faccio · Dmitrii Khizbullin · Jürgen Schmidhuber
Podés encontrar más información en el sitio web de la conferencia.