VALL-E, cette IA qui peut imiter une voix humaine à partir d'un
Connect with us

VALL-E, cette IA qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes

Publié

le

VALL-E, cette IA qui peut imiter une voix humaine à partir d'un enregistrement de seulement 3 secondes
×

VALL-E est un système d’IA de synthèse de la parole qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes. Il utilise des techniques d’apprentissage automatique pour analyser les caractéristiques de la voix d’un individu et les reproduire pour générer des phrases supplémentaires. Il a été développé par OpenAI et est considéré comme une avancée majeure dans la synthèse de la parole.

Après les créations de OpenAI tels que DALL-E, capable de générer des images, et ChatGPT, qui peut rédiger tous types de textes, Microsoft ajoute un nouveau membre à cette famille d’IA en développant VALL-E, un modèle de synthèse vocale particulièrement efficace. VALL-E permet d’imiter une voix grâce à un échantillon de 3 secondes seulement. Il conserve le ton, le timbre et reproduit même l’environnement acoustique de l’audio d’origine.

VALL-E s’est entraîné sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox. Les chercheurs s’attèlent actuellement à améliorer les performances du modèle en matière de prosodie et de style d’expression.

Publicité

Pour les plus curieux, la démo de VALL-E, publiée sur GitHub, permet d’observer le fonctionnement de l’IA avec divers exemples. Et il faut avouer que c’est assez impressionnant, même si l’IA aurait du mal avec certains accents, tous n’étant pas répertoriés dans la bibliothèque LibriLight.

Comme ChatGPT, VALL-E a suscité une vague d’inquiétude, car son énorme potentiel pourrait être très utile aux personnes ayant perdu la capacité de parler, mais il peut aussi facilement être utilisé pour des usurpations d’identité. Les développeurs de Microsoft assurent qu’ils incluront un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix.

Publicité

Il est important de rappeler que VALL-E est plus itératif que révolutionnaire et ses capacités ne sont pas aussi nouvelles qu’on pourrait le croire. L’imitation de la voix faisant l’objet de recherches intensives depuis plusieurs années, et certaines étant suffisamment abouties pour alimenter de nombreuses start-ups.

Stéphane Larue
Nos réseaux :
Suivez-nous sur Twitter
Suivez-nous sur Instagram
Suivez-nous sur Facebook
Suivez-nous sur Google News

Partagez cet article :
Publicité

Suivez-nous sur les réseaux sociaux

Publicité

Mais aussi

Send this to a friend