vall e
VALL-E est un nouveau modèle d’intelligence artificielle développé par Microsoft qui permet de simuler la voix d’une personne à partir d’un échantillon audio de seulement 3 secondes. Il s’agit plus précisément d’un modèle de langage pour la synthèse vocale (Text-To-Speech). VALL-E a été entraîné sur « 60 000 heures de parole anglaise, soit des centaines de fois plus que les systèmes existants. »
Le plus de ce nouvel outil : il est en capacité de préserver le ton et l’émotion du speaker, ce qui permet une imitation encore plus humaine, et donc réelle.
VALL-E présente des capacités d’apprentissage en contexte et peut être utilisé pour synthétiser une parole personnalisée de haute qualité avec seulement un enregistrement de 3 secondes d’un locuteur inconnu comme guide acoustique, explique Microsoft.
VALL-E n’est pas encore disponible au grand public pour l’instant. En revanche, vous pouvez écouter des exemples audio sur cette page dédiée sur GitHub. Cette page a été réalisée seulement à des fins de démonstration de recherche.
e VALL-E peut donner concrètement à l’oral. Certains extraits audio fonctionnent bien, mais d’autres ont encore une voix de synthèse détectable. Tout n’est pas encore parfait du côté de VALL-E, mais le travail de Microsoft à ce sujet n’en est qu’aux prémices.
Le règlement DORA : un tournant majeur pour la cybersécurité des institutions financières Le 17…
L’Agence nationale de la sécurité des systèmes d'information (ANSSI) a publié un rapport sur les…
Directive NIS 2 : Comprendre les nouvelles obligations en cybersécurité pour les entreprises européennes La…
Alors que la directive européenne NIS 2 s’apprête à transformer en profondeur la gouvernance de…
L'intelligence artificielle (IA) révolutionne le paysage de la cybersécurité, mais pas toujours dans le bon…
Des chercheurs en cybersécurité ont détecté une intensification des activités du groupe APT36, affilié au…
This website uses cookies.