Sådan Fungerer Kunstig Intelligens: Talegenkendelse - Alternativ Visning

Indholdsfortegnelse:

Sådan Fungerer Kunstig Intelligens: Talegenkendelse - Alternativ Visning
Sådan Fungerer Kunstig Intelligens: Talegenkendelse - Alternativ Visning

Video: Sådan Fungerer Kunstig Intelligens: Talegenkendelse - Alternativ Visning

Video: Sådan Fungerer Kunstig Intelligens: Talegenkendelse - Alternativ Visning
Video: Kunstig Intelligens - Behandling af sygdomme 2024, September
Anonim

Hver af os står over for et så mystisk fænomen som kunstig intelligens i hverdagen - det er han, der giver stemmeassistenter og søgemaskiner mulighed for at genkende menneskelig tale og gætte brugernes ønsker. I dag vil vi tale om nøjagtigt, hvordan denne teknologi er arrangeret, og hvilke udsigter der venter på dette udviklingsområde i den nærmeste fremtid.

Kunstig intelligens er en meget bred betegnelse, inden for hvilken mange algoritmer allerede findes og stadig er under udvikling, designet til at udføre en lang række praktiske opgaver. Men hvad er moderne kunstige intelligensprogrammer faktisk i stand til, og hvilke principper styres de under deres arbejde? I dag vil vi tale om en af nøglefunktionerne i maskinsindet, som hver af os regelmæssigt møder i hverdagen - stemmeassistenters evne til at genkende menneskelig tale.

Stemmegenkendelse

For at måle stemmen bruger programmet et antal lydparametre: frekvensen og længden af lydbølgen på et bestemt tidspunkt. Når du for eksempel chatter med den populære stemmeassistent Alexa, opdeler softwaren din stemme i 25-millisekunders slides og konverterer derefter hvert af segmenterne til digitale signaturer. Derefter sammenlignes signaturblokke med det interne katalog over programmets lyde, indtil antallet af kampe er stort nok til, at AI kan "oversætte" numrene til en alfabetisk forespørgsel, som den forstår.

Image
Image

Se din telefonskærm, mens du bruger Siri eller Google Assistant, og du vil se, at ordforrådet ændrer sig, når du taler ordene. Dette skyldes, at softwaren med hvert næste "trin" også sammenligner det opnåede resultat med den interne database og bygger ord afhængigt af matcherne. Ifølge Rohit Prasad, chefforsker ved Amazons Alexa-afdeling, "lærer sprogmodellen mange milliarder ord i form af tekst." Ordrækkefølge spiller også en vigtig rolle: dette kan også bemærkes ved hjælp af den sædvanlige Google-søgemaskine, der undertiden giver forskellige data for identiske forespørgsler, hvor kun et par ord er blevet omarrangeret.

Salgsfremmende video:

Perspektiver på talegenkendelse

Alan Black fra Carnegie Institute for Language Technology hævder, at for alle fagfolk i store virksomheder er det mest interessante at finde grænsen for deres eget system.”Når programmet siger: 'Jeg kan ikke gøre dette', bliver situationen virkelig interessant,” spøger han. Imidlertid er dette faktisk tilfældet: at svare på uforudsigelige brugeranmodninger er endda en af de vigtigste opgaver, som studentkredse, der konkurrerer om Alexa-prisen - og det er op til 2,5 millioner dollars - undersøger. Deres opgave er at skabe en chatbot designet til at kommunikere med mennesker, der stiller konsistente og meningsfulde spørgsmål. Oplysninger i dette tilfælde opdateres hvert 20. minut. Lyder som en ret nem opgave selv for en gennemsnitlig programmør,Men i praksis er kommunikationen af programmet med virkelige mennesker altid forbundet med afvigelser fra temaet dialog, spontane sætninger og andre krænkelser. Et program, der lærer at arbejde med dem såvel som en rigtig person, vil være et enormt gennembrud for hele AI-branchen.

Vasily Makarov