Il nuovo progetto di Google, VLOGGER, porta la comunicazione digitale al livello successivo, generando video con parlato realistico a partire solo da immagini e audio. Sebbene ancora in fase di perfezionamento per raggiungere la naturalezza realistica di alcuni concorrenti, VLOGGER si distingue per il suo approccio innovativo.

Cosa è VLOGGER? VLOGGER trasforma testi e audio in video dinamici di speaker utilizzando uno snapshot di una persona. Sfruttando il potere dei modelli diffusionali generativi all’avanguardia, introduce una combinazione di tecnologie innovativa per animare le immagini statiche.

Caratteristiche principali di VLOGGER:

  • Creazione di movimenti dinamici: Attraverso un sofisticato modello di diffusione tridimensionale dello scheletro umano, VLOGGER cattura e anima le sfumature umane.
  • Evoluzione del testo in immagini: Espande il campo dei modelli di traduzione da testo a immagine con un’architettura basata sulla diffusione, che consente una dettagliata manipolazione temporale e spaziale.

La tecnologia alla base di VLOGGER consente la creazione di video di alta qualità di varia durata. Questi video mantengono un elevato controllo sulle rappresentazioni facciali e corporee, offrendo agli utenti uno strumento non solo avanzato ma anche flessibile.

Perché VLOGGER si distingue:

  • Applicazione universale: A differenza dei modelli precedenti che richiedevano un addestramento specifico per persona, VLOGGER è universalmente adattabile.
  • Generazione completa dell’immagine: Va oltre la semplice rilevazione del volto, generando video di personaggi a figura intera senza necessità di ritaglio.
  • Versatilità: VLOGGER si adatta a una vasta gamma di scenari, inclusa la visibilità completa del busto e varie identità, garantendo una sintesi virtuale umana completa.

Attraverso questi progressi, VLOGGER sta aprendo la strada a interazioni virtuali umane più autentiche e accessibili su diverse piattaforme digitali.
Official Website

demonstration

Official Website