Neuralnetværket Blev Lært At Kopiere Den Menneskelige Stemme Næsten Perfekt - Alternativ Visning

Indholdsfortegnelse:

Neuralnetværket Blev Lært At Kopiere Den Menneskelige Stemme Næsten Perfekt - Alternativ Visning
Neuralnetværket Blev Lært At Kopiere Den Menneskelige Stemme Næsten Perfekt - Alternativ Visning

Video: Neuralnetværket Blev Lært At Kopiere Den Menneskelige Stemme Næsten Perfekt - Alternativ Visning

Video: Neuralnetværket Blev Lært At Kopiere Den Menneskelige Stemme Næsten Perfekt - Alternativ Visning
Video: Michael Rune - Min Indre Stemme (feat. Nadia Gattas) (Official Video) 2024, April
Anonim

Sidste år delte kunstig intelligens teknologiselskab DeepMind detaljer om sit nye projekt WaveNet, et dybt lærende neuralt netværk, der bruges til at syntetisere realistisk menneskelig tale. For nylig blev der frigivet en forbedret version af denne teknologi, som vil blive brugt som basis for den digitale mobilassistent Google Assistant.

Et stemmesyntesesystem (også kendt som en tekst-til-tale-funktion, TTS) er normalt bygget omkring en af to grundlæggende metoder. Den konkatenative (eller kompilations) -metoden involverer konstruktion af sætninger ved at samle individuelle stykker optagede ord og dele, der tidligere er optaget med inddragelse af en stemmeskuespiller. Den største ulempe ved denne metode er behovet for konstant at udskifte lydbiblioteket, når der foretages opdateringer eller ændringer.

En anden metode kaldes parametrisk TTS, og dens funktion er brugen af parametersæt, som computeren genererer den ønskede sætning. Ulempen ved metoden er, at resultatet oftest manifesterer sig i form af urealistisk eller såkaldt robotlyd.

WaveNet producerer på den anden side lydbølger fra bunden ved hjælp af et indviklet neuralt netværkssystem, hvor lyd genereres i flere lag. For det første for at træne platformen til syntese af "live" tale "mates" den en enorm mængde eksempler, mens den bemærker hvilke lydsignaler der lyder realistiske og hvilke ikke. Dette giver stemmesynthesizeren evnen til at gengive naturalistisk intonation og endda detaljer såsom smagende læber. Afhængigt af hvilke eksempler på tale, der køres gennem systemet, giver dette det mulighed for at udvikle en unik "accent", som på lang sigt kan bruges til at skabe mange forskellige stemmer.

Skarp på tungen

Den største begrænsning af WaveNet-systemet var måske, at det krævede en enorm mængde computerkraft for at køre, og selv når denne betingelse blev opfyldt, var den ikke forskellig i hastighed. For eksempel tog det cirka 1 sekund tid at generere 0,02 sekunder lyd.

Efter et års arbejde fandt DeepMind-ingeniører stadig en måde at forbedre og optimere systemet, så det nu er i stand til at producere en rå lyd på et sekund på kun 50 millisekunder, hvilket er 1000 gange hurtigere end dets originale kapacitet. Derudover lykkedes det specialisterne at øge lydprøvetagningshastigheden fra 8-bit til 16-bit, hvilket havde en positiv effekt på testene, der involverede lyttere. Disse succeser har banet vejen for WaveNet til at integrere i forbrugerprodukter som Google Assistant.

Salgsfremmende video:

I øjeblikket kan WaveNet bruges til at generere engelske og japanske stemmer gennem Google Assistant og alle platforme, der bruger denne digitale assistent. Da systemet kan skabe en speciel type stemmer, afhængigt af hvilket sæt prøver der blev leveret til det til træning, vil Google i den nærmeste fremtid sandsynligvis introducere støtte til syntese af realistisk tale i WaveNet på andre sprog, herunder tage hensyn til dem. lokale dialekter.

Tale-grænseflader bliver mere og mere almindelige på en lang række platforme, men deres udpegede unaturlige karakter af lyden slukker for mange potentielle brugere. DeepMinds bestræbelser på at forbedre denne teknologi vil helt sikkert bidrage til en bredere anvendelse af sådanne stemmesystemer samt forbedre brugeroplevelsen fra deres anvendelse.

Eksempler på engelsk og japansk syntetiseret tale ved hjælp af det neurale netværk WaveNet kan findes ved at følge dette link.

Nikolay Khizhnyak

Anbefalet: