Un grupo de desarrolladores, liderados por un estudiante de instituto, ha aprovechado la popularidad del videojuego Minecraft para crear un sistema de evaluación de las capacidades de los modelos de inteligencia artificial (IA) generativa, que admite la votación de los usuarios para determinar cuál ofrece el mejor resultado.
Minecraft Benchmark (MC-Bench) es un sistema que evalúa distintos modelos de IA generativa en la creación de construcciones para Minecraft a partir de unas indicaciones determinadas, como si fuese un reto.
En este sistema evalúa sus capacidades en el seguimiento de instrucciones, la completación de código y la creatividad, como explican en la web. Ponen a prueba modelos de OpenAI, Anthropic, Google y Alibaba, aunque estas empresas no están afiliadas.
Se trata de un proyecto del que forman parte ocho desarrolladores, uno de ellos Adi Singh, estudiante de estudiante de 12º grado (equivalente a 2º de Bachillerato) y fundador de MC-Bench. Como explica a TechCrunch, la elección de Minecraft no fue casual. La gente conoce este juego, “está acostumbrada a Minecraft, a su diseño y a su ambiente”, y ello permite “ver el progreso [del desarrollo de la IA] con mucha más facilidad”.
Las creaciones se someten a la votación de los usuarios, que no saben la IA que está detrás de cada una de ellas. Esto se desvela una vez se ha elegido la que mejor lo ha hecho.