Home VALL-E, cette IA qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes

VALL-E, cette IA qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes

Partagez
Alaska : l’arrivée du ministre Lavrov avec un pull “URSS” secoue le sommet Trump-Poutine sur fond de guerre en Ukraine (Vidéo)
Partagez

VALL-E est un système d’IA de synthèse de la parole qui peut imiter une voix humaine à partir d’un enregistrement de seulement 3 secondes. Il utilise des techniques d’apprentissage automatique pour analyser les caractéristiques de la voix d’un individu et les reproduire pour générer des phrases supplémentaires. Il a été développé par OpenAI et est considéré comme une avancée majeure dans la synthèse de la parole.

Après les créations de OpenAI tels que DALL-E, capable de générer des images, et ChatGPT, qui peut rédiger tous types de textes, Microsoft ajoute un nouveau membre à cette famille d’IA en développant VALL-E, un modèle de synthèse vocale particulièrement efficace. VALL-E permet d’imiter une voix grâce à un échantillon de 3 secondes seulement. Il conserve le ton, le timbre et reproduit même l’environnement acoustique de l’audio d’origine.

VALL-E s’est entraîné sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox. Les chercheurs s’attèlent actuellement à améliorer les performances du modèle en matière de prosodie et de style d’expression.

Pour les plus curieux, la démo de VALL-E, publiée sur GitHub, permet d’observer le fonctionnement de l’IA avec divers exemples. Et il faut avouer que c’est assez impressionnant, même si l’IA aurait du mal avec certains accents, tous n’étant pas répertoriés dans la bibliothèque LibriLight.

Comme ChatGPT, VALL-E a suscité une vague d’inquiétude, car son énorme potentiel pourrait être très utile aux personnes ayant perdu la capacité de parler, mais il peut aussi facilement être utilisé pour des usurpations d’identité. Les développeurs de Microsoft assurent qu’ils incluront un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix.

Il est important de rappeler que VALL-E est plus itératif que révolutionnaire et ses capacités ne sont pas aussi nouvelles qu’on pourrait le croire. L’imitation de la voix faisant l’objet de recherches intensives depuis plusieurs années, et certaines étant suffisamment abouties pour alimenter de nombreuses start-ups.

Partagez
Ecrit par
Stéphane Larue

Stéphane Larue est journaliste et éditeur indépendant spécialisé dans l actualité des médias, du divertissement et de la culture numérique. Fondateur du site stephanelarue.com, il assure une veille quotidienne sur les sujets d information générale, en s appuyant sur les sources officielles et les communiqués de presse. Il publie également des analyses, des interviews et des sélections éditoriales à destination d un large public.

Mais aussi

Le rappeur Lil Nas X arrêté et hospitalisé après un incident dans les rues de Los Angeles

Le célèbre interprète d’“Old Town Road” a été interpellé jeudi matin dans...

Californie : la commission pénitentiaire repousse la sortie d’Erik Menendez de trois années supplémentaires

La commission californienne des libérations conditionnelles a rejeté jeudi 22 août la...

Villeneuve-la-Garenne : un enfant de trois ans a perdu la vie lors d’un incendie

Un sinistre tragique s’est produit jeudi 21 août dans l’après-midi rue Pierre...

Meta révolutionne les réseaux sociaux avec sa technologie de doublage automatique

Meta lance Meta AI Translations, une innovation qui transforme automatiquement les vidéos...