Hvornår Vil Kunstig Intelligens Begynde At Tale Serien - Alternativ Visning

Indholdsfortegnelse:

Hvornår Vil Kunstig Intelligens Begynde At Tale Serien - Alternativ Visning
Hvornår Vil Kunstig Intelligens Begynde At Tale Serien - Alternativ Visning

Video: Hvornår Vil Kunstig Intelligens Begynde At Tale Serien - Alternativ Visning

Video: Hvornår Vil Kunstig Intelligens Begynde At Tale Serien - Alternativ Visning
Video: Potentialet i kunstig intelligens 2024, April
Anonim

Russiske udgivere eksperimenterer allerede med maskineoptagelse af lydbøger; i fremtiden kan kunstig intelligens få til opgave at oversætte serier og dube dem med stemmerne fra yndlingsskuespillere. Om funktionerne i sådanne teknologier, og hvor lang tid det vil tage at oprette dem.

Mundtlig tale bliver skrevet

På YouTube oprettes automatiske undertekster til videoer ved hjælp af stemmegenkendelse og software til oversættelse af tale til tekst. Det er baseret på selvlærende neurale netværk. Denne mulighed er mere end ti år gammel, men resultatet er stadig langt fra ideelt. Oftere end ikke kan du kun fange den generelle betydning af det, der blev sagt. Hvad er vanskeligheden?

Lad os sige, forklarer Andrey Filchenkov, leder af Machine Learning-laboratoriet ved ITMO University, at vi bygger en algoritme til talegenkendelse. Dette kræver træning af et neuralt netværk i en stor datarray.

Det vil tage hundreder, tusinder af timers taleoptagelser og deres korrekte sammenligning med tekster, herunder markering af begyndelsen og slutningen af sætninger, skiftende samtalepartnere og så videre. Dette kaldes indkapslingen. Jo større den er, jo bedre er træningen af det neurale netværk. Virkelig store virksomheder er blevet oprettet til det engelske sprog, så anerkendelsen er meget bedre. Men for russisk eller, for eksempel, spansk, er der langt mindre data, og for mange andre sprog er der overhovedet ingen data.

”Og resultatet er passende,” konkluderer forskeren.

”Derudover vurderer vi betydningen af et ord, en sætning i en film, ikke kun ved lyd, skuespillerens intonation og hans ansigtsudtryk er også vigtige. Hvordan fortolker du dette? - tilføjer Sergey Aksenov, lektor ved informationsteknologiafdelingen ved Tomsk Polytechnic University.

Salgsfremmende video:

”Hvordan håndteres funktionerne i flydende tale? Uklar artikulering, skitsethed, interjektioner, pauser? Alt afhængigt af dette ændres betydningen, som i "du kan ikke benådes". Hvordan lærer man en maskine til at bestemme, hvor højttaleren har et komma? Og i poesi? " - lister Marina Bolsunovskaya, leder af laboratoriet "Industrial streaming databehandlingssystemer" fra NTI SPbPU Center.

Ifølge eksperten er de mest succesrige projekter inden for snævre områder. For eksempel hjælper et system til anerkendelse af lægeres professionelle tale, der bruger medicinske termer, udviklet af RTC-gruppen af virksomheder, læger med at føre en medicinsk historie.

”Her kan du tydeligt skitsere emneområdet og fremhæve nøgleord i talen. Lægen understreger specifikt visse sektioner med intonation: patientklager, diagnose,”præciserer Bolsunovskaya.

Et andet problem påpeges af Mikhail Burtsev, leder af laboratoriet for neurale systemer og dyb læring ved MIPT. Faktum er, at maskinen indtil videre har succes med at genkende tekst, når en person taler end flere, som i film.

Oversættelse med kontekst

Lad os tage en engelsksproget video, for eksempel et klip fra tv-serien "Game of Thrones", og tænde for automatiske russiske undertekster. Det, vi ser, får os sandsynligvis til at grine.

Stadig fra * Game of Thrones *
Stadig fra * Game of Thrones *

Stadig fra * Game of Thrones *.

I maskinoversættelse har teknologien imidlertid opnået imponerende succes. Så Google Oversætter tekster på almindelige sprog ganske tolerabelt, ofte kræves der kun minimal redigering.

Faktum er, at den neurale netværksoversætter også er trænet i en lang række oprindelige, korrekt mærkede data - et parallelt korpus, der viser, hvordan hver sætning på originalsproget skal se ud på russisk.

”Det er meget arbejdskrævende, dyrt og tidskrævende at bygge sådanne bygninger, det tager måneder og år. For at træne et neuralt netværk har vi brug for tekster på størrelse med biblioteket i Alexandria. Modellerne er universelle, men afhænger meget af sproget. Hvis du leverer en masse data, for eksempel i Avar, og oversættelsen er af høj kvalitet, men for Avar er der simpelthen ikke en sådan mængde data,”siger Andrey Filchenkov.

”Oversættelse er et separat produkt, der er relateret til originalen, men ikke er lig med det,” siger Ilya Mirin, direktør for School of Digital Economy ved Far Eastern Federal University. - Et typisk eksempel er Dmitry Puchkovs (Goblins) oversættelser af udenlandske film i 90'erne. Først efter hans arbejde blev det klart, hvad der skete der. Vi kunne ikke finde ud af noget passende fra VHS-versionerne. Prøv alternativt at oversætte til et sprog, som du kender godt, noget fra Mesteren og Margarita. For eksempel "i en sort kappe med en blodig foring". Maskinen kan ikke gøre det."

Neurale netværk lærer godt af mange typiske eksempler, men film er fulde af komplekse betydninger og konnotationer, vittigheder, som ikke er tilgængelige for maskinen - det kan ikke skelne mellem dem.

”I hver episode af den animerede serie Futurama er der en henvisning til den klassiske amerikanske biograf - Casablanca, Roman Holiday og så videre. På sådanne øjeblikke, for at fange og pakke betydningen for dem, der ikke har set disse film, er det nødvendigt, at oversætteren kommer med en tæt analog fra den russiske kontekst. En forkert maskinoversættelse kan være meget nedslående for seeren,”fortsætter Mirin.

Efter hans mening er kvaliteten af maskinoversættelse tæt på 80 procent, resten er specificitet, der skal tilføjes manuelt, hvor eksperter involveres. "Og hvis 20-30 procent af sætninger kræver manuel korrektion, hvad er da brugen af maskinoversættelse?" - siger forskeren.

”Oversættelse er den mest problematiske fase,” er Sergey Aksenov enig. - Alt afhænger af semantik og kontekst. De tilgængelige værktøjer kan bruges til oversættelse og maskinstemme, f.eks. Børnetegneserier med simpelt ordforråd. Men med fortolkningen af fraseologiske enheder, egentlige navne, ord, der henviser seerne til nogle kulturelle realiteter, opstår der vanskeligheder."

I film og videoer er konteksten altid visuel og ledsages ofte af musik og støj. Vi spekulerer fra billedet, hvad helten taler om. Indlæg omgjort til tekst er blottet for denne information, så oversættelse er vanskelig. Dette er situationen for oversættere, der arbejder med tekstundertekster uden at se filmen. De har ofte forkert. Maskinoversættelse er den samme historie.

AI stemmer tale

For at dubbe en serie oversat til russisk har du brug for en algoritme til at generere naturlig tale fra tekst - en synthesizer. De er oprettet af mange it-virksomheder, herunder Microsoft, Amazon, Yandex, og de har det godt.

Ifølge Andrey Filchenkov tog det et par år siden et minut med dubbing af en talesynthesizer flere timer, nu er behandlingshastigheden steget markant. Opgaven med talesyntese for nogle områder, hvor der kræves neutrale dialoger, er løst ganske godt.

Mange tager allerede for givet en samtale med en robot på telefonen, udførelse af kommandoer fra en bilnavigator, en dialog med Alice i en Yandex. Drive-bil. Men til dubbing af tv-serier er disse teknologier endnu ikke tilstrækkelige.

”Problemet er følelser og handling. Vi har lært at gøre maskinen stemme menneskelig, men så det stadig lyder passende til konteksten og inspirerer tillid er langt væk. Dårlig stemmeskuespill kan let dræbe opfattelsen af en film,”sagde Filchenkov.

Ifølge Mikhail Burtsev er talesyntese ganske reel. Dette er imidlertid beregningsintensivt og kan ikke gøres i realtid til en rimelig pris.

”Der er algoritmer, der syntetiserer tale, der ligner en bestemt aktørs. Dette er timbre, måde at tale på og meget mere. Så enhver udenlandsk skuespiller vil faktisk tale russisk,”forudsiger Burtsev. Han forventer mærkbare fremskridt i de kommende år.

Sergei Aksenov giver fem til ti år på at udvikle værktøjer til oversættelse og dubbing af komplekse værker fra de mest almindelige sprog som engelsk. Forskeren citerer eksemplet på Skype, som for flere år siden demonstrerede muligheden for at organisere onlinelektioner for skolebørn, der taler forskellige sprog. Men selv da vil systemet ikke være ideelt, det skal hele tiden lære: få ordforråd, tage hensyn til den kulturelle kontekst.