Google explica cómo desenfoca y cambia el fondo de las videollamadas en Google Meet

Google explica cómo desenfoca y cambia el fondo de las videollamadas en Google Meet
3 comentarios Facebook Twitter Flipboard E-mail
ricardo-aguilar

Ricardo Aguilar

Google Meet obtuvo en septiembre la función de desenfocar el fondo en tiempo real, una característica que, aparte de tener implicaciones a nivel de privacidad, es bastante llamativa. Google ha querido explicar cómo funciona este desenfoque, que utiliza aprendizaje automático para segmentar la imagen, de una forma bastante similar a la que vimos con los Google Pixel.

Vamos a contarte de forma sencilla y sin demasiados tecnicismos cómo es posible desenfocar el fondo de la imagen en tiempo real, así como la función de cambiar el fondo de la llamada, algo que se hizo muy popular en alternativas a Google Meet, como Zoom.

Así logra Google Meet separar el fondo del sujeto

Como en prácticamente todo lo referente a procesamiento de la imagen, Google utiliza aprendizaje automático. Sin entrar en la complejidad de procesamiento de los distintos modelos que se utilizan, la clave aquí es que el proceso es muy similar al realizado con los teléfonos de Google.

Google Meet utiliza las herramientas de aprendizaje automático de Google para segmentar la imagen: primero la procesa, luego crea una máscara y después combina fondo y figura aplicando efectos

Google Meet se vale de la tecnología de MediaPipe en la web, por lo que no es necesario tener la aplicación instalada para que funcione el efecto de desenfoque. Google procesa cada fotograma del vídeo en tiempo real, utilizando los datos que ofrece la misma para crear una máscara. La máscara renderiza una salida de vídeo con el fondo borroso o reemplazado, es decir: el mecanismo para desenfocar la imagen o cambiar el fondo es el mismo.

Uno de los grandes retos es hacer que el modelo de segmentación de imagen sea poco demandante a nivel de recursos. Para lograr esto, Google reduce la resolución de las imágenes obtenidas antes de enviarla al modelo, para así ofrecer una máscara de segmentación creada a partir de una imagen de baja resolución.

Una vez que se completa dicha segmentación (creación de la máscara para separar fondo y figura), se utilizan distintos procesos mediante OpenGL para procesar el vídeo y renderizar los efectos.

Google no solo separa el fondo del sujeto: aplica varios efectos para que la unión entre ambas capas sea lo más natural posible

Se crea un efecto bokeh gradual en base a la máscara de segmentación, es decir: no se "corta y pega" el fondo detrás del sujeto, sino que se ajusta el bokeh según la posición de la persona y se aplican distintos efectos, como el sombreado, para que sea lo más natural posible.

El desenfoque, creado como te hemos dicho a partir de una imagen de baja resolución, se combina con la entrada original de nuestra cámara interna, por lo que no hay pérdida de calidad al usar estos efectos. Lo mismo sucede cuando se separa para añadir un fondo.

Meet no es la única aplicación que realiza esta función, pero resulta curioso ver cómo Google aplica este método mediante sus funciones de aprendizaje automático. Es una propuesta similar, aunque bastante más básico, respecto a lo que hace la app de Cámara de Google.

Más información | Google

Comentarios cerrados
Inicio