La IA de Google no es solo Gemini. Además del modelo de lenguaje grande que nos proporciona un chatbot y renovado asistente para Android, la firma de Mountain View cuenta con otros modelos especializados en la reproducción de contenido multimedia. Sora de OpenAI se lanzó hace muy poco, y ahora Google quiere hacerle frente con un nuevo anuncio.
Imagen 3 y Veo 2. Dos modelos de lenguaje que generan imágenes y vídeos desde un simple prompt. El primero se actualiza con mejoras para imágenes más precisas mientras que Veo 2 presume de crear vídeos en 4K de hasta dos minutos de duración. La división DeepMind de Google va a por todas: te contamos las novedades.
¿Qué ves?. Veo Veo 2, que genera vídeo en 4K
Según leemos en el blog oficial de Google, Veo 2 mejora a la primera versión sobremanera. Será capaz de generar vídeos en 4K de hasta dos minutos, unos números que dejan a la competencia en una situación de desventaja: recordemos que la solución de OpenAI genera en 720p.
Eso sí, el acceso es por ahora muy limitado. Tendremos que armarnos de paciencia en la lista de espera de VideoFX. Además, por el momento no está disponible en nuestro país, lo que nos deja fuera de las pruebas. DeepMind promete ampliar la disponibilidad del servicio pronto, sin que tengamos una fecha definitiva.
Google ha mostrado las bondades de Veo 2, comenzando con un prompt muy detallado:
"Una toma cinematográfica de alta acción sigue a un perro salchicha increíblemente lindo con gafas de natación mientras salta a una piscina cristalina. La cámara se sumerge bajo el agua con el perro, capturando el momento alegre de la inmersión y el consiguiente remolino de remo con adorables patas. La luz del sol se filtra a través del agua, iluminando el pelaje brillante y húmedo del perro salchicha y resaltando la expresión decidida de su rostro. La toma está llena de los vibrantes azules y verdes del agua de la piscina, creando una secuencia dinámica y visualmente impresionante que captura la pura alegría y energía de la natación del perro salchicha"
Puedes ver el resultado en el vídeo que adjuntamos justo encima de estas líneas. Por supuesto, a pesar de los avances, el modelo Veo 2 es susceptible de mejora: DeepMind admite que la generación de escenas y movimientos complejos sigue siendo un reto.
Por otro lado, Imagen 3, ya disponible para usar a través de Gemini, ha mejorado y es capaz de generar "imágenes más brillantes y mejor compuestas", según Google. Representa estilos artísticos con mayor precisión, "desde el fotorrealismo hasta el impresionismo". De igual manera, el gigante del buscador promete que su modelo sigue ahora nuestras indicaciones de manera más fiel, otorgando más detalle. Esta versión mejorada se lanzará en ImageFX, la herramienta de generación de imágenes en Google Labs.
Y una sorpresa, Whisk. Es el experimento más reciente de Google Labs, y permite "introducir o crear imágenes que transmitan el sujeto, la escena y el estilo", para posteriormente unirlos y remezclarlos, originando algo totalmente nuevo y personal.
Whisk combina tanto las características del modelo Imagen 3 como las capacidades de comprensión visual y descripción de Gemini. Como la propia Google explica, Gemini escribe una leyenda detallada de sus imágenes y luego alimenta esas descripciones en Imagen 3. Eso sí, nos olvidamos de probar esta IA por ahora: no está disponible en nuestro país, según reza la web.
Más información | Google
En Xataka Android | Elon Musk ahora también va a por Gmail: 'X' creará su propio correo electrónico, X Mail
Ver 0 comentarios