La technique est appelée « super-résolution » d’image. Il s’agit d’obtenir une image proche de la réalité à partir d’une image hyper pixelisée — typiquement, c’est un processus que l’on peut apercevoir dans de nombreux films ou séries policiers, lorsque les protagonistes zooment sur une photo afin de révéler, par exemple, la plaque d’immatriculation d’une voiture ou le visage de son conducteur, qui de base, sont non résolus. Les nouveaux outils d’intelligence artificielle développés par Google sont tout à fait capables de réaliser cela.
À noter que la technique est relativement complexe ; en effet, il s’agit ici d’ajouter à une image des détails que l’appareil photo n’a pas capturés au moment de la prise de vue. Les outils dont il est question ici parviennent à combler ces lacunes à partir d’autres images relativement similaires. Notez que le résultat n’est pas une copie conforme de la réalité, mais en est suffisamment proche pour que l’œil humain le considère comme tel.
Pour accomplir cette prouesse, Google a développé deux nouveaux outils : Super-Resolution via Repeated Refinement (SR3) et Cascaded Diffusion Models (CDM). Ce duo fournit des résultats époustouflants : lors d’un test d’observation impliquant une cinquantaine de volontaires, les images générées par ces nouveaux outils ont été confondues avec de véritables photos dans environ 50% des cas. « Avec SR3 et CDM, nous avons poussé les performances des modèles de diffusion à l’état de l’art », expliquent Jonathan Ho, chercheur scientifique et Chitwan Saharia, ingénieur logiciel, de la Brain Team de Google Research.
Une IA qui repose sur les modèles de diffusion
La super-résolution — soit la transformation d’une image basse résolution en une image haute résolution détaillée — a de nombreuses applications, qui peuvent aller de la restauration d’anciens portraits de famille à l’amélioration des systèmes d’imagerie médicale.
Les méthodes traditionnelles de synthèse d’images naturelles, notamment les images créées par les réseaux antagonistes génératifs (GAN), présentent quelques faiblesses lorsqu’il s’agit d’entraîner un modèle à synthétiser des échantillons de haute qualité à partir de données complexes et à haute résolution. C’est pourquoi les experts de Google Research se sont tournés vers ce que l’on appelle les modèles de diffusion, qui affichent une meilleure stabilité lors de la phase d’apprentissage et permettent de générer des échantillons d’images (et d’audio) de qualité.
Les modèles de diffusion fonctionnent en corrompant les données d’apprentissage : ils ajoutent du bruit gaussien progressivement, puis effacent lentement les détails des données jusqu’à ce qu’elles deviennent du bruit pur ; enfin, ils forment un réseau de neurones pour inverser ce processus de corruption. L’exécution de ce processus de corruption inversé synthétise les données à partir du bruit pur, en les débruitant progressivement jusqu’à ce qu’un échantillon « propre » soit produit.
Source : https://trustmyscience.com/google-nouvelle-ia-pour-ameliorer-qualite-image-et-agrandir