vall e
VALL-E est un nouveau modèle d’intelligence artificielle développé par Microsoft qui permet de simuler la voix d’une personne à partir d’un échantillon audio de seulement 3 secondes. Il s’agit plus précisément d’un modèle de langage pour la synthèse vocale (Text-To-Speech). VALL-E a été entraîné sur « 60 000 heures de parole anglaise, soit des centaines de fois plus que les systèmes existants. »
Le plus de ce nouvel outil : il est en capacité de préserver le ton et l’émotion du speaker, ce qui permet une imitation encore plus humaine, et donc réelle.
VALL-E présente des capacités d’apprentissage en contexte et peut être utilisé pour synthétiser une parole personnalisée de haute qualité avec seulement un enregistrement de 3 secondes d’un locuteur inconnu comme guide acoustique, explique Microsoft.
VALL-E n’est pas encore disponible au grand public pour l’instant. En revanche, vous pouvez écouter des exemples audio sur cette page dédiée sur GitHub. Cette page a été réalisée seulement à des fins de démonstration de recherche.
e VALL-E peut donner concrètement à l’oral. Certains extraits audio fonctionnent bien, mais d’autres ont encore une voix de synthèse détectable. Tout n’est pas encore parfait du côté de VALL-E, mais le travail de Microsoft à ce sujet n’en est qu’aux prémices.
Introduction La cybersécurité est devenue une priorité stratégique pour toutes les entreprises, grandes ou petites.…
Cybersécurité : les établissements de santé renforcent leur défense grâce aux exercices de crise Face…
La transformation numérique du secteur financier n'a pas que du bon : elle augmente aussi…
L'IA : opportunité ou menace ? Les DSI de la finance s'interrogent Alors que l'intelligence…
Telegram envisage de quitter la France : le chiffrement de bout en bout au cœur…
Sécurité des identités : un pilier essentiel pour la conformité au règlement DORA dans le…
This website uses cookies.