Probé el sofisticado generador de imágenes de Google y rápidamente encontré sus limitaciones

Google IO 2024 Imagen 3

Google IO 2024 Imagen 3

Imagen 3 es el generador de imágenes con IA de Google, que ha sido anunciado en mayo pasado en la Conferencia de desarrolladores de E/S de la compañía. Se lanzó con capacidad limitada en los Estados Unidos en agosto, pero estuvo disponible para los usuarios gratuitos de Gemini el mes pasado. Lo he usado para crear todo tipo de imágenes desde entonces y, si bien en general es una herramienta impresionante, tiene varias limitaciones. que obstaculizan la experiencia general.

Aquí es donde Imagen 3 lucha

La primera limitación a considerar es que no puedes generar imágenes de personas, al menos con una cuenta gratuita de Gemini. Esto no sólo se aplica a la creación de imágenes de personajes famosos, algo que pocas herramientas de generación de imágenes permiten, sino también a la gente en general. Por lo tanto, un mensaje como «crea una imagen de dos personas al azar bailando» no arrojará ningún resultado. Como referencia, ChatGPT también ha implementado este límite para su nivel gratuito.

Puedes crear imágenes de personas si actualizas a Gemini Advanced.

Sin embargo, puedes crear imágenes de personas (excepto personajes famosos) si optas por una suscripción Gemini Advanced. Lo probé y fue un éxito. Aunque puede generar imágenes tan realistas que es difícil saber si son generadas por IA o no, los resultados que produce a veces son pobres. Vea ambos ejemplos a continuación. El de la izquierda parece muy realista y parece haber sido tomado por un fotógrafo profesional, mientras que el otro simplemente tiene un aspecto caricaturesco. Incluso cuando solicitó a la herramienta que hiciera la foto más realista varias veces, los cambios que realizó fueron mínimos.

Hablando de fotógrafos profesionales, pasemos a la segunda limitación o problema que veo con Imagen 3. Incluso cuando se produce una imagen realista, ya sea de una persona, animal u objeto, el resultado parece más profesional que casual. Cada imagen es perfecta y con frecuencia se agrega un efecto bokeh para hacerla más atractiva. Cada imagen creada por Imagine 3 parece haber sido muy retocada, lo cual está bien si ese es el estilo que buscas, pero tener la capacidad de hacer que las imágenes sean más informales sería genial.

Creo que a veces las mejores fotos son las crudas. Las fotos nunca antes vistas que tomaste sin pensarlo mucho cuando la iluminación no era perfecta y las personas que capturaste ni siquiera sabían que tomaste una foto. Aquí es donde Imagine 3 tiene problemas, aunque vale la pena mencionar que esto es cierto para casi todos los generadores de imágenes de IA.

Esto me lleva al tercer problema importante con Imagen, que es la edición de las imágenes creadas. Si creo una imagen divertida de un gato con sombrero y comiendo helado y luego quiero editarla con un mensaje adicional, Imagen 3 creará una imagen completamente nueva en Gemini. Entonces, por ejemplo, si me gusta la imagen creada pero solo quiero cambiar el color del sombrero de negro a azul, la herramienta generará completamente una nueva imagen y cambiará el color del sombrero en lugar de simplemente cambiar el color del sombrero y deja todo lo demás como está. Claro, la nueva imagen se ve relativamente similar a la anterior cuando se usa el mensaje correcto, pero aún no es la misma, lo cual no es ideal. Esto hace que sea imposible editar una imagen a la perfección, especialmente con múltiples mensajes que generarán una nueva imagen cada vez. Consulte el ejemplo a continuación y compruébelo usted mismo.

Otro problema es que no puedo cambiar la relación de aspecto. Las imágenes se crean en una relación de aspecto 1:1 de forma predeterminada y no se pueden editar. Si le pido a la herramienta que lo cambie a 16:9, Gemini simplemente dice que lo hará, pero luego genera una nueva imagen con la misma relación de aspecto. Sin embargo, parece que esto cambiará pronto, ya que la capacidad de cambiar la relación de aspecto ya está en proceso.

Dejando a un lado las limitaciones, Imagen 3 es increíble.

Permítanme aclarar que no estoy tratando de menospreciar el sofisticado generador de imágenes de IA de Google. Sólo quiero señalar las limitaciones que encontré al probarlo para que sepas qué esperar. Dejando a un lado las limitaciones, Imagen 3 es en realidad una herramienta muy impresionante. También probé algunos de sus competidores y, si bien cada generador de imágenes con IA tiene sus ventajas y desventajas, yo diría que Imagen 3 se encuentra entre los mejores del mercado. Mi colega Calvin está de acuerdo. Comparó la herramienta con sus competidores y descubrió que era la mejor del mercado en términos de calidad.

Todavía estamos en las primeras etapas del contenido generado por IA.

Cuando Imagen 3 tiene éxito, los resultados son excepcionales. Las imágenes de animales, ciudades, personas y todo lo demás se ven geniales, si puedes vivir con una apariencia retocada con Photoshop. No confíes en mi palabra. Echa un vistazo a la galería a continuación para comprobarlo tú mismo. Y tenga en cuenta que todavía estamos en las primeras etapas del contenido generado por IA, así que imagine lo que el software podrá hacer en unos años.

Otros límites a tener en cuenta

Estas son las limitaciones que encontré al probar la herramienta y que no esperaba, aparte de la imposibilidad de generar imágenes de personas como usuario gratuito, aunque existen otras limitaciones que Google establece claramente en su sitio web. Vale la pena enumerarlos para saber qué esperar.

Imagen 3 no creará una imagen que considere inapropiada, incluso con un plan pago. Esto incluye imágenes relacionadas con violencia, acoso, sexo, discriminación, etc. Esto también se aplica a las imágenes que fomentan actividades peligrosas y aquellas que contienen inexactitudes objetivas dañinas que representarían un riesgo para la seguridad de otros.

Todos estos son límites apropiados, y la mayoría de las principales herramientas de generación de imágenes de IA los tienen implementados, sin incluir FLUX.1 utilizado por Grok.