Neuralnetværket Har Lært At Generere Videoer Baseret På Beskrivelsen Af - Alternativ Visning

Neuralnetværket Har Lært At Generere Videoer Baseret På Beskrivelsen Af - Alternativ Visning
Neuralnetværket Har Lært At Generere Videoer Baseret På Beskrivelsen Af - Alternativ Visning

Video: Neuralnetværket Har Lært At Generere Videoer Baseret På Beskrivelsen Af - Alternativ Visning

Video: Neuralnetværket Har Lært At Generere Videoer Baseret På Beskrivelsen Af - Alternativ Visning
Video: Introduction to Neural Networks | Beginner's Neural Network (BNN) | Part 1 2024, Kan
Anonim

Kunstig intelligens skaber scriptede videoer - indtil videre kort og sløret, men en dag vil det alene erstatte et helt filmstudie.

Neurale netværk er allerede ret gode (og i mange tilfælde bedre end mennesker) til at genkende mønstre i et billede og er i stand til generelt at beskrive hele scener. Generative neurale netværk udfører omvendt transformation og kan danne et billede baseret på dets beskrivelse eller forudsige den næste ramme baseret på de foregående.

De belgiske udviklere er gået endnu længere og kombineret disse muligheder i et enkelt system, der skaber videoer "ud af intet", baseret på deres egen oplevelse af maskinlæring og manuskripttekst. Tinne Tuytelaars talte om dette på et møde i Association for the Advancement of Artificial Intelligence (AAAI), der blev afholdt i De Forenede Stater.

Neuralnetværket fungerer i to faser - ifølge Tinne, som om at efterligne den kreative proces hos en person: på det første trin dannes en sløret, omtrentlig "skitse" af hver ramme, hvorefter detaljer specificeres og tilføjes. En af de vigtige dele af et sådant system er et diskriminerende neuralt netværk, der sammenligner resultatet med "rigtige" videoer, der passer til et givet scenario, og giver dig mulighed for at vurdere dets kvalitet og forbedre arbejdet i den generative del af systemet.

Neuralnetværket blev trænet i 10 scener ("spille golf i græsset", "kitesurfing i havet" osv.) Og lærte at adskille handlinger og omstændigheder fra hinanden, og kunne også kombinere dem på en given måde og oprette videoer, f.eks. "Golf i poolen":

Image
Image

eller "sejle i sneen":

Image
Image

Salgsfremmende video:

Naturligvis er kvaliteten af sådanne animationer stadig langt fra acceptabel: "videoer", der varer cirka et sekund, består af kun 32 billeder med dimensioner på 64x64 pixels.

Men med samme tillid er det muligt at garantere, at disse numre hurtigt forbedres, for ikke så længe siden kunne biografen i sig selv kun prale af et mudret, rygende og stumt billede. Hvis et sådant neuralt netværk kan gøres virkelig hurtigt og effektivt, kan Hollywood komme til en ende: Det vil være nok til at tage manuskriptet, og filmen er klar. Denne mulighed vil være nyttig til at generere store sæt til træning af andre neurale netværk og til at skabe nye algoritmer til komprimering og transmission af streamingvideo.

Sergey Vasiliev