Neuralnetværket Blev Lært At "animere" Portrætter Baseret På Kun Et Statisk Billede - Alternativ Visning

Neuralnetværket Blev Lært At "animere" Portrætter Baseret På Kun Et Statisk Billede - Alternativ Visning
Neuralnetværket Blev Lært At "animere" Portrætter Baseret På Kun Et Statisk Billede - Alternativ Visning
Anonim

Russiske specialister fra Samsung AI Center-Moskva Center for kunstig intelligens har i samarbejde med ingeniører fra Skolkovo Institut for Videnskab og Teknologi udviklet et system, der er i stand til at skabe realistiske animerede billeder af menneskelige ansigter baseret på kun et par statiske menneskelige rammer. I dette tilfælde kræves det normalt brug af store databaser med billeder, men i det eksempel, som udviklerne præsenterede, blev systemet trænet til at skabe et animeret billede af et menneskeligt ansigt fra kun otte statiske rammer, og i nogle tilfælde var det nok. Yderligere oplysninger om udvikling finder du i en artikel, der er offentliggjort på ArXiv.org-depotet.

Image
Image

Som regel er det temmelig vanskeligt at gengive et fotorealistisk personaliseret modul af et menneskeligt ansigt på grund af den høje fotometriske, geometriske og kinematiske kompleksitet ved gengivelse af det menneskelige hoved. Dette forklares ikke kun af kompleksiteten ved at modellere ansigtet som en helhed (for dette er der et stort antal tilgange til modellering), men også af kompleksiteten ved modellering af visse funktioner: mundhulen, hår og så videre. Den anden komplicerende faktor er vores tendens til at fange endda mindre mangler i den færdige model af menneskelige hoveder. Denne lave tolerance for modelleringsfejl forklarer den aktuelle forekomst af ikke-fotorealistiske avatarer brugt til telekonference.

Ifølge forfatterne er systemet, kaldet Fewshot-læring, i stand til at skabe meget realistiske modeller for talende hoveder af mennesker og endda portrætmalerier. Algoritmerne syntetiserer billedet af hovedet på den samme person med linjerne i ansigtsreference fra et andet fragment af videoen eller ved hjælp af referencepunkterne på en anden persons ansigt. Som en kilde til materiale til træning af systemet brugte udviklerne en omfattende database med berømmelsesvideobilleder. For at få et så nøjagtigt talende hoved som muligt skal systemet bruge mere end 32 billeder.

For at skabe mere realistiske animerede ansigtsbilleder brugte udviklerne tidligere udviklinger i generativ modstandsløs modellering (GAN, hvor et neuralt netværk tænker på detaljerne i et billede, faktisk bliver kunstner), samt en maskin-metalæringstilgang, hvor hvert element i systemet er trænet og designet til at løse nogle specifik opgave.

Metallæringsskema
Metallæringsskema

Metallæringsskema.

Image
Image
Image
Image

Salgsfremmende video:

Tre neurale netværk blev brugt til at behandle statiske billeder af folks hoveder og omdanne dem til animerede: Embedder (implementeringsnetværk), Generator (generationsnetværk) og Discriminator (diskrimineringsnetværk). De første partitioner hovedbillederne (med omtrentlige ansigtslandemærker) i indlejringsvektorer, som indeholder information uafhængigt af poseringen, det andet netværk bruger ansigtslandemærkerne, der er opnået af indlejringsnetværket, og genererer nye data baseret på dem gennem et sæt indviklede lag, der giver modstand mod ændringer i skala, forskydninger, drejninger, vinkelændring og andre forvrængninger af det originale ansigtsbillede. En netværksdiskriminator bruges til at vurdere kvaliteten og ægtheden af de to andre netværk. Som et resultat forvandler systemet vartegn i en persons ansigt til realistiske, personlige fotos.

Image
Image
Image
Image

Udviklerne understreger, at deres system er i stand til at initialisere parametrene for både generatornetværket og diskrimineringsnetværket individuelt for hver person på billedet, så indlæringsprocessen kan baseres på kun et par billeder, hvilket øger hastigheden på trods af behovet for at vælge titusinder af millioner parametre.

Nikolay Khizhnyak

Anbefalet: