VALL-E : l’outil IA de Microsoft qui peut imiter la voix d’une personne

20 janvier 2023 Intelligence Artificielle

Qu’est-ce que VALL-E ?

VALL-E est un nouveau modèle d’intelligence artificielle développé par Microsoft qui permet de simuler la voix d’une personne à partir d’un échantillon audio de seulement 3 secondes. Il s’agit plus précisément d’un modèle de langage pour la synthèse vocale (Text-To-Speech). VALL-E a été entraîné sur « 60 000 heures de parole anglaise, soit des centaines de fois plus que les systèmes existants. »

Le plus de ce nouvel outil : il est en capacité de préserver le ton et l’émotion du speaker, ce qui permet une imitation encore plus humaine, et donc réelle.

VALL-E présente des capacités d’apprentissage en contexte et peut être utilisé pour synthétiser une parole personnalisée de haute qualité avec seulement un enregistrement de 3 secondes d’un locuteur inconnu comme guide acoustique, explique Microsoft.

Des exemples audio de VALL-E

VALL-E n’est pas encore disponible au grand public pour l’instant. En revanche, vous pouvez écouter des exemples audio sur cette page dédiée sur GitHub. Cette page a été réalisée seulement à des fins de démonstration de recherche.

e VALL-E peut donner concrètement à l’oral. Certains extraits audio fonctionnent bien, mais d’autres ont encore une voix de synthèse détectable. Tout n’est pas encore parfait du côté de VALL-E, mais le travail de Microsoft à ce sujet n’en est qu’aux prémices.