Recientemente, las redes sociales se inundaron de imágenes que parecen sacadas de una película de Studio Ghibli. Selfies, fotos familiares e incluso memes fueron reimaginados con la suave paleta de pasteles característica de la compañía de animación japonesa fundada por Hayao Miyazaki.
Esto siguió a la última actualización de ChatGPT de OpenAI. La actualización mejoró significativamente las capacidades de generación de imágenes de ChatGPT, permitiendo a los usuarios crear imágenes convincentes al estilo de Studio Ghibli en segundos. Y fue extremadamente popular, tanto que el sistema colapsó debido a la abrumadora demanda de los usuarios.
Los sistemas de inteligencia artificial (IA) generativa como ChatGPT se entienden mejor como “motores de estilo”. Y lo que estamos viendo ahora es que estos sistemas brindan a los usuarios más precisión y control que nunca.
Pero también plantea preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.
Cómo crea imágenes el nuevo ChatGPT
Los programas de IA generativa funcionan produciendo resultados en respuesta a las solicitudes del usuario, incluida la creación de una imagen.
Las generaciones anteriores de generadores de imágenes de IA utilizaban modelos de difusión. Estos modelos refinan gradualmente los datos aleatorios y el ruido hasta convertirlos en una imagen coherente. Pero la última actualización de ChatGPT utiliza lo que se conoce como un “algoritmo autorregresivo”.
Este algoritmo trata las imágenes de forma más similar al lenguaje, dividiéndolas en “tokens”. Así como ChatGPT predice las palabras más probables en una oración, ahora puede predecir diferentes elementos visuales en una imagen por separado.
Esta tokenización permite que el algoritmo separe mejor ciertas características de una imagen y su relación con las palabras de un mensaje. Como resultado, ChatGPT puede crear imágenes a partir de indicaciones precisas del usuario con mayor precisión que las generaciones anteriores de generadores de imágenes. Puede reemplazar o cambiar características específicas mientras conserva el resto de la imagen y mejora el antiguo problema de generar texto correcto a partir de imágenes.
Una ventaja particularmente poderosa de generar imágenes dentro de un modelo de lenguaje grande es la capacidad de aprovechar todo el conocimiento ya codificado en el sistema. Esto significa que los usuarios no tienen que describir cada aspecto de una imagen con gran detalle. Simplemente pueden referirse a conceptos como Studio Ghibli y la IA entiende la referencia.
La reciente tendencia de generación de imágenes con IA al estilo Studio Ghibli empezó con el propio OpenAI, antes de extenderse entre los ingenieros de software de Silicon Valley y luego incluso entre los gobiernos y políticos, incluyendo usos aparentemente improbables como la Casa Blanca creando una imagen ghibliificada de una mujer llorando siendo deportada, o el gobierno indio promoviendo la narrativa del Primer Ministro Narendra Modi de una “Nueva India”.
Entendiendo la IA como “motores de estilo”
Los sistemas de IA generativa no almacenan información en ningún sentido tradicional. En lugar de ello, codifican fragmentos de texto, hechos o imágenes como patrones –o “estilos”– en sus redes neuronales.
Entrenados con grandes cantidades de datos, los modelos de IA aprenden a reconocer patrones en múltiples niveles. Las capas inferiores de la red pueden capturar características básicas como relaciones entre palabras o texturas visuales. Las capas superiores codifican conceptos o elementos visuales más complejos.
Esto significa que todo (objetos, propiedades, géneros de escritura, voces profesionales) se puede transformar en estilos. Cuando la IA aprende sobre el trabajo de Miyazaki, no almacena imágenes reales de Studio Ghibli (aunque los generadores de imágenes a veces pueden producir imitaciones cercanas de las imágenes de entrada). En cambio, está codificando “Ghiblicity” como un patrón matemático, un estilo que se puede aplicar a nuevas imágenes.
Lo mismo ocurre con los plátanos, los gatos o los correos electrónicos corporativos. La IA aprende qué es “bananidad”, “felinidad” o “jerga corporativa”: patrones que definen lo que hace que algo sea reconociblemente un plátano, un gato o una comunicación profesional.
La codificación y transferencia de estilo ha sido durante mucho tiempo un objetivo expreso en la IA visual. Ahora contamos con un generador de imágenes que logra esto con una escala y un control sin precedentes.
Este enfoque abre extraordinarias posibilidades creativas tanto en texto como en imágenes. Si todo es de un mismo estilo, entonces estos estilos se pueden combinar y transferir libremente. Es por esto que nos referimos a estos sistemas como “motores de estilo”. Prueba a crear un sillón con estilo de gato, o bien, con estilo elfo.
Controversia sobre derechos de autor
Si bien la capacidad de trabajar con estilos es lo que hace que la IA generativa sea tan poderosa, también está en el centro de una creciente controversia. Para muchos artistas, resulta profundamente inquietante ver sus distintos enfoques artísticos reducidos a simplemente otro “estilo” que cualquiera puede aplicar con una simple orden de texto.
Hayao Miyazaki no ha comentado públicamente sobre la reciente tendencia de personas que utilizan ChatGPT para generar imágenes en su estilo de animación mundialmente famoso. Pero ya había criticado la IA anteriormente.
Todo esto también plantea preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.
Tradicionalmente, la legislación sobre derechos de autor no protege los estilos, sino sólo expresiones específicas. No es posible registrar los derechos de autor de un género musical como el “ska” o de un movimiento artístico como el “impresionismo”.
Esta limitación existe por una buena razón. Si alguien pudiese monopolizar un estilo entero, sofocaría la expresión creativa de todos los demás.
Pero hay una diferencia entre estilos generales y estilos muy característicos que se vuelven casi sinónimos de la identidad de alguien. Cuando una IA puede generar un trabajo “al estilo de Greg Rutkowski” (un artista polaco cuyo nombre, según se informa, se utilizó en más de 93.000 indicaciones en el generador de imágenes de IA Stable Diffusion), podría amenazar tanto su sustento como su legado artístico.
Algunos artistas ya han emprendido acciones legales
En un caso presentado a fines de 2022, tres artistas formaron un grupo para demandar a varias empresas de inteligencia artificial, argumentando que sus generadores de imágenes fueron entrenados usando sus obras originales sin permiso y ahora permiten a los usuarios generar obras derivadas que imitan sus estilos característicos.
A medida que la tecnología evoluciona más rápido que la ley, se está preparando una nueva legislación para intentar equilibrar la innovación tecnológica con la protección de las identidades creativas de los artistas.
Cualquiera que sea el resultado, estos debates resaltan la naturaleza transformadora de los motores de estilo de IA y la necesidad de considerar tanto el potencial creativo sin explotar como la protección de los estilos artísticos distintivos.
* Profesor de Tecnología de la Información y Organización, Universidad de Sidney; Directora de Sydney Executive Plus, Universidad de Sidney. The Conversation.