VALL-E, cette IA qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes

La rédaction Publié par La rédaction
3 Min de lecture

VALL-E est un système d’IA de synthèse de la parole qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes. Il utilise des techniques d’apprentissage automatique pour analyser les caractéristiques de la voix d’un individu et les reproduire pour générer des phrases supplémentaires. Il a été développé par OpenAI et est considéré comme une avancée majeure dans la synthèse de la parole.

Après les créations de OpenAI tels que DALL-E, capable de générer des images, et ChatGPT, qui peut rédiger tous types de textes, Microsoft ajoute un nouveau membre à cette famille d’IA en développant VALL-E, un modèle de synthèse vocale particulièrement efficace. VALL-E permet d’imiter une voix grâce à un échantillon de 3 secondes seulement. Il conserve le ton, le timbre et reproduit même l’environnement acoustique de l’audio d’origine.

VALL-E s’est entraîné sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox. Les chercheurs s’attèlent actuellement à améliorer les performances du modèle en matière de prosodie et de style d’expression.

Pour les plus curieux, la démo de VALL-E, publiée sur GitHub, permet d’observer le fonctionnement de l’IA avec divers exemples. Et il faut avouer que c’est assez impressionnant, même si l’IA aurait du mal avec certains accents, tous n’étant pas répertoriés dans la bibliothèque LibriLight.

Comme ChatGPT, VALL-E a suscité une vague d’inquiétude, car son énorme potentiel pourrait être très utile aux personnes ayant perdu la capacité de parler, mais il peut aussi facilement être utilisé pour des usurpations d’identité. Les développeurs de Microsoft assurent qu’ils incluront un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix.

Il est important de rappeler que VALL-E est plus itératif que révolutionnaire et ses capacités ne sont pas aussi nouvelles qu’on pourrait le croire. L’imitation de la voix faisant l’objet de recherches intensives depuis plusieurs années, et certaines étant suffisamment abouties pour alimenter de nombreuses start-ups.

Partagez cet article