Los deepfake de vídeo hace ya tiempo que son causa de preocupación para empresas, autoridades y académicos, por su enorme potencial para difundir noticias falsas, al hacer creíble afirmar que alguien ha dicho algo que nunca dijo: pensemos por un momento en las consecuencias de una difusión viral de vídeos falsos de líderes políticos lanzando todo tipo proclamas controvertidas durante una jornada de votación.

Sin embargo, hay otra clase de deepfakes que está pasando bastante más desapercibida, pese a contar con su misma capacidad para destruir reputación y erosionar el espacio público: los deepfakes de audio.

Según Siwey Lyu, responsable de machine learning del laboratorio de la Univ. de Albany, "en un par de año tendremos voces [sintéticas] capaces de imitar a individuos concretos, pronunciando cualquier palabra que queramos que diga". Sin ir más lejos, la semana pasada Facebook AI Research presentó un método para 'traducir' la voz de un cantante a la de otro sin alterar la canción.

Lo que puede falsificarse puede detectarse

Pero, para Lyu, estamos ante "una oportunidad única" para lograr que la tecnología de generación de los deepfakes se desarrolle al mismo ritmo que la tecnología forense (esto es, la que permitirá detectarlos), de manera que sea posible detectar todo nuevo método de falsificación de voces que se vaya creando.

El pasado mes de enero Google ya puso a disposición de los investigadores un enorme dataset cuyos datos de entrenamiento confían que puedan ayudar a los sistemas de IA a detectar las características de las voces falsas, igual que es posible detectar ciertos patrones en los deepfakes de vídeo.

Un ejemplo de ello lo aporta Vijay Balasubramaniyan, CEO de Pindrop, una de las compañías que está desarrollando tecnología forense para proteger a sus clientes (grandes bancos y compañías de seguros) de posibles estafas a través del uso de deepfakes: "Si le dices a alguien 'Hola, Paul', tu boca sólo puede pasar de la 'o' a 'Paul' a una cierta velocidad", por lo que pronunciar esa parte demasiado rápido probaría que el sonido no es humano.

Pero Pindrop también está avanzando en el campo de la falsificación de sonidos para poder entrenar a sus propios sistemas de detección. El sistema usado para ello no difiere demasiado de las redes generativas antagónicas que se usan para producir imágenes.

Sin embargo, como el mismo Balasubramaniyan reconoce, "nuestros sistemas llevan a cabo un buen trabajo en la síntesis de voz, pero aún no afina cosas como la cadencia o la [transmisión de] emociones".

Los métodos que permitirán falsificar el audio se clasifica en dos categorías principales:

Modulación: Cambia aspectos de una voz ya grabada para hacer que suene como la de otra persona, permitiendo así cambiar el género o el acento de la persona que nosotros oímos. Los investigadores de Baidu o la startup estadounidense Modulate.ai han logrado avances notables en este campo.

Síntesis: Permite aplicar una voz predefinida a cualquier texto que proporcionemos a la computadora, o bien 'editar' las declaraciones de una persona real. El software VoCo de Adobe, aún no disponible en el mercado, se centra en esta clase de tecnología.

La ventaja es que, por ahora, la creación de deepfakes de audio creíbles sólo está al alcance de grandes empresas (al contrario de lo que ocurre con los de vídeo, que ya han generado una oleada de vídeos porno creados por usuarios particulares que encuentran fácilmente en Internet todo el material necesario).

Vía | Axios