Drømmer Neuroner Om Elektriske Får? Oprettelsen Af de Første Neurale Netværk Fortalte Om Deres Udvikling Og Fremtid - Alternativ Visning

2024 Forfatter: Keith Bush | [email protected]. Sidst ændret: 2023-12-16 14:08

Jeffrey Hinton er en medskaber af begrebet dyb læring, en Turing Award-vinder i 2019 og en Google-ingeniør. Sidste uge, under en I / O-udviklerkonference, interviewede Wired ham og drøftede hans fascination med hjernen og hans evne til at modellere en computer baseret på hjernens neurale struktur. I lang tid blev disse ideer betragtet som skøre. En interessant og underholdende samtale om bevidsthed, Hintons fremtidige planer og om computere kan læres at drømme.

Hvad sker der med neurale netværk?

Lad os starte med de dage, hvor du skrev dine allerførste, meget indflydelsesrige artikler. Alle sagde: "Det er en smart idé, men vi kan virkelig ikke designe computere på denne måde." Forklar, hvorfor du insisterede på din egen, og hvorfor du var så sikker på, at du fandt noget vigtigt.

Det syntes for mig, at hjernen ikke kunne arbejde på nogen anden måde. Han skal arbejde ved at studere styrken i forbindelserne. Og hvis du vil få en enhed til at gøre noget smart, har du to muligheder: Du enten programmerer den eller den lærer. Og ingen programmerede folk, så vi var nødt til at studere. Denne metode måtte være korrekt.

Forklar, hvad neurale netværk er. Forklar det originale koncept

Du tager relativt enkle behandlingselementer, der meget vagt ligner neuroner. De har indgående forbindelser, hver forbindelse har en vægt, og denne vægt kan ændres under træning. Hvad neuronet gør er at tage handlingerne på forbindelserne ganget med vægtene, opsummere dem og derefter beslutte, om dataene skal sendes. Hvis summen er indtastet stor nok, skaber den en output. Hvis beløbet er negativt, sender det ikke noget. Det er alt. Alt hvad du skal gøre er at forbinde en sky af disse neuroner til vægte og finde ud af, hvordan man ændrer disse vægte, og så vil de gøre hvad som helst. Det eneste spørgsmål er, hvordan du ændrer vægten.

Salgsfremmende video:

Hvornår blev du klar over, at dette er en grov repræsentation af, hvordan hjernen fungerer?

Åh, ja, alt var oprindeligt beregnet. Designet til at ligne hjernen på arbejdet.

Så på et tidspunkt i din karriere begyndte du at forstå, hvordan hjernen fungerer. Måske var du tolv år gammel, måske femogtyve. Hvornår besluttede du at prøve at modellere computere som hjerner?

Ja med det samme. Det var hele pointen. Hele denne idé var at skabe en læringsenhed, der lærer som hjernen, i henhold til folks ideer om, hvordan hjernen lærer, ved at ændre styrken i forbindelserne. Og det var ikke min idé, Turing havde den samme idé. Selvom Turing opfandt meget af grundlaget for standard computervidenskab, troede han, at hjernen var en uorganiseret enhed med tilfældige vægte og brugte forstærkningslæring til at ændre forbindelser, så han kunne lære noget. Og han troede, at dette er den bedste vej til intelligens.

Og du fulgte Turing's idé om, at den bedste måde at bygge en maskine er at designe den som den menneskelige hjerne. Sådan fungerer den menneskelige hjerne, så lad os oprette en lignende maskine

Ja, ikke kun Turing troede det. Mange troede det.

Hvornår kom de mørke tider? Hvornår skete det, at andre mennesker, der arbejdede på det og troede, at Turing's idé var korrekt, begyndte at slå sig ned igen, og du fortsatte med at bøje din linje?

Der har altid været en håndfuld mennesker, der troede uanset hvad, især inden for psykologi. Men blandt computerforskere antager jeg, at i 90'erne skete det, at datasættene var ret små, og computere var ikke så hurtige. Og med små datasæt presterede andre metoder såsom supportvektormaskiner lidt bedre. De var ikke så meget flov over støjen. Så det hele var trist, for i 80'erne udviklede vi en metode til tilbagespredning, som er meget vigtig for neurale netværk. Vi troede, han ville løse alt. Og de blev forundrede over, at han ikke havde besluttet noget. Spørgsmålet var virkelig på en skala, men så vidste vi det ikke.

Hvorfor troede du, at det ikke fungerede?

Vi troede, at det ikke fungerede, fordi vi ikke havde helt rigtige algoritmer og ikke helt korrekte objektive funktioner. Jeg tænkte i lang tid, at dette skyldes, at vi forsøgte at gøre undervisning under overvågning, når du mærker dataene, og vi var nødt til at foretage uovervåget læring, når indlæring foregår på umærkede data. Det viste sig, at spørgsmålet mest var i en skala.

Det er interessant. Så problemet var, at du ikke havde nok data. Du troede, du havde den rigtige mængde data, men du mærkede dem forkert. Så du har fejlagtigt diagnosticeret problemet?

Jeg troede, at fejlen var, at vi overhovedet bruger etiketter. Det meste af din træning sker uden brug af etiketter, du prøver bare at modellere en struktur i dataene. Jeg synes faktisk stadig det. Jeg tror, at da computere bliver hurtigere, hvis computeren er hurtig nok, så er det bedre for et datasæt i en given størrelse at træne uden tilsyn. Når du først har afsluttet uovervåget læring, kan du lære med færre tags.

Så i 1990'erne fortsætter du med din forskning, du er i akademia, du udgiver stadig, men du løser ikke store problemer. Har du nogensinde haft et øjeblik, da du sagde:”Ved du hvad, det er nok. Vil jeg prøve at gøre noget andet”? Eller sagde du bare dig selv, at du ville fortsætte med at foretage dyb læring [det vil sige begrebet dyb læring, dyb læring af neurale netværk

Ja. Noget som dette skal fungere. Jeg mener, forbindelserne i hjernen lærer på en eller anden måde, vi skal bare finde ud af, hvordan. Og der er sandsynligvis mange forskellige måder at styrke forbindelserne i læringsprocessen; hjernen bruger en af dem. Der kan være andre måder. Men du har bestemt brug for noget, der kan styrke disse forbindelser, mens du lærer. Jeg tvivlede aldrig på det.

Du har aldrig tvivlet på det. Hvornår virkede det som om det fungerede?

En af de største skuffelser i 80'erne var, at hvis vi lavede netværk med mange skjulte lag, kunne vi ikke træne dem. Dette er ikke helt sandt, fordi du kan træne relativt enkle processer som håndskrift. Men vi vidste ikke, hvordan vi træner de fleste dybe neurale netværk. Og omkring 2005 kom jeg på en måde at træne dybe netværk uden tilsyn. Du indtaster data, siger pixels og træner flere detektorer, som netop forklarede godt, hvorfor pixels var som de er. Derefter føder du disse deldetektorer dataene og træner et andet sæt deldetektorer, så vi kan forklare, hvorfor specifikke deldetektorer har specifikke korrelationer. Du fortsætter med at træne lag for lag. Men det mest interessante varsom kunne nedbrydes matematisk og bevises, at hver gang du træner et nyt lag, ikke nødvendigvis vil du forbedre datamodellen, men du vil beskæftige dig med en række, hvor god din model er. Og det interval blev bedre med hvert lag, der blev tilføjet.

Hvad mener du med rækkevidden af, hvor god din model er?

Når du først har fået modellen, kan du stille spørgsmålet, "Hvor usædvanlig finder denne model disse data?" Du viser hende dataene og stiller spørgsmålet: "Finder du alt dette som forventet, eller er det usædvanligt?" Og dette kunne måles. Og jeg ønskede at få en model, en god model, der ser på dataene og siger,”Ja, ja. Jeg vidste det. Dette er ikke overraskende”. Det er altid meget vanskeligt at beregne nøjagtigt, hvor usædvanlig en model finder dataene. Men du kan beregne rækkevidden for dette. Vi kan sige, at modellen finder disse data mindre usædvanlige end dette. Og det kunne vises, at når nye lag føjes til detaliedetektorerne, dannes modellen, og med hvert lag tilføjet, når det finder data, bliver forståelsesområdet for, hvor usædvanligt det finder dataene bedre.

Så omkring 2005 lavede du dette matematiske gennembrud. Hvornår begyndte du at få de rigtige svar? Hvilke data arbejdede du med? Dit første gennembrud var med taledata, ikke?

Det var bare håndskrevne numre. Meget simpelt. Og omkring den samme tid begyndte udviklingen af GPU'er (Graphics Processing Units). Og folk, der lavede neurale netværk, begyndte at bruge GPU'er i 2007. Jeg havde en meget god studerende, der begyndte at bruge GPU'er til at finde veje i luftfotos. Han skrev koden, som derefter blev vedtaget af andre studerende, der bruger GPU til at genkende fonemer i tale. De brugte denne førtræningsidé. Og når foruddannelsen var færdig, hængende de bare tags på toppen og brugte udbredelse tilbage. Det viste sig, at det er muligt at skabe et meget dybt netværk, der tidligere blev trænet på denne måde. Og så kunne bagpropagering anvendes, og det virkede faktisk. Ved talegenkendelse fungerede det godt. Først dogdet var ikke meget bedre.

Var det bedre end kommercielt tilgængelig talegenkendelse? Omgået af de bedste videnskabelige artikler om talegenkendelse?

På et relativt lille datasæt kaldet TIMIT var det lidt bedre end det bedste akademiske arbejde. IBM har også gjort en masse arbejde.

Folk indså hurtigt, at alt dette - da det omgår de standardmodeller, der havde været under udvikling i 30 år - ville fungere fint, hvis de blev udviklet lidt. Mine kandidater gik til Microsoft, IBM og Google, og Google skabte meget hurtigt en fungerende talegenkender. I 2012 var dette arbejde, der var blevet udført tilbage i 2009, ramt Android. Android er pludselig meget bedre til talegenkendelse.

Fortæl mig om et øjeblik, hvor du, der har gemt disse ideer i 40 år, har offentliggjort om dette emne i 20 år, pludselig omgå dine kolleger. Hvordan er denne følelse?

Nå, på det tidspunkt havde jeg kun gemt disse ideer i 30 år!

Højre, højre

Der var en stor følelse af, at alt dette endelig var blevet et reelt problem.

Kan du huske, da du første gang fik de data, der angiver dette?

Ikke.

Okay. Så du får ideen om, at dette fungerer med talegenkendelse. Hvornår begyndte du at anvende neurale netværk til andre problemer?

Først begyndte vi at anvende dem til alle mulige andre problemer. George Dahl, som vi oprindeligt arbejdede med talegenkendelse, brugte dem til at forudsige, om et molekyle kunne binde til noget og blive en god medicin. Og der var en konkurrence. Han anvendte simpelthen vores standardteknologi, bygget til talegenkendelse, til at forudsige lægemiddelaktivitet og vandt konkurrencen. Det var et tegn på, at vi gør noget meget alsidigt. Så dukkede en studerende op, der sagde:”Du ved, Jeff, denne ting fungerer med billedgenkendelse, og Fei-Fei Li oprettede et passende datasæt til det. Der er en offentlig konkurrence, lad os gøre noget."

Vi fik resultater, der langt overgik standard computersynet. Det var 2012.

Det vil sige, på disse tre områder har du udmærket dig: modellering af kemikalier, tale, stemme. Hvor mislykkedes du?

Forstår du, at tilbageslag er midlertidige?

Hvad skiller de områder, hvor det hele fungerer hurtigst, og de områder, hvor det tager længst? Ser ud som visuel behandling, talegenkendelse og noget som de grundlæggende menneskelige ting, vi gør med sanseopfattelse, betragtes som de første barrierer, vi skal overvinde, ikke?

Ja og nej, for der er andre ting, som vi klarer os - de samme motoriske evner. Vi er meget gode til motorstyring. Vores hjerner er bestemt udstyret til dette. Og først nu begynder neurale netværk at konkurrere med de bedste andre teknologier om dette. De vinder i sidste ende, men nu er de lige begyndt at vinde.

Jeg tror, at tænkning, abstrakt tænkning er den sidste ting, vi lærer. Jeg tror, de vil være blandt de sidste ting, som disse neurale netværk lærer at gøre.

Og så siger du fortsat, at neurale netværk i sidste ende vil sejre overalt

Vi er neurale netværk. Alt hvad vi kan, de kan.

Det er sandt, men den menneskelige hjerne er langt fra den mest effektive computermaskine, der nogensinde er bygget

Absolut ikke.

Bestemt ikke min menneskelige hjerne! Er der en måde at modellere maskiner, der er meget mere effektive end den menneskelige hjerne?

Filosofisk set har jeg ingen indvendinger mod tanken om, at der kunne være en helt anden måde at gøre alt dette på. Måske, hvis du starter med logik, forsøger at automatisere logik, komme med noget fancy teorem prover, fornuft og derefter beslutte, at det er gennem ræsonnement, at du kommer til visuel opfattelse, kan det være, at denne tilgang vil vinde. Men endnu ikke. Jeg har ingen filosofisk indsigelse mod en sådan sejr. Vi ved bare, at hjernen er i stand til det.

Men der er også ting, som vores hjerner ikke kan gøre godt. Betyder det, at neurale netværk heller ikke kan gøre dem godt?

Meget muligvis, ja.

Og der er et separat problem, som er, at vi ikke fuldt ud forstår, hvordan neurale netværk fungerer, ikke?

Ja, vi forstår ikke rigtig, hvordan de fungerer.

Vi forstår ikke, hvordan top-down neurale netværk fungerer. Dette er et grundlæggende element i, hvordan neurale netværk fungerer, som vi ikke forstår. Forklar dette, og lad mig derefter stille mig det næste spørgsmål: hvis vi ved, hvordan det hele fungerer, hvordan fungerer det så?

Når du ser på moderne computervisionssystemer, er de fleste af dem mest fremadrettede; de bruger ikke feedbackforbindelser. Og så er der noget andet i moderne computersynssystemer, der er meget tilbøjelige til adversarial fejl. Du kan lidt ændre et par pixels, og hvad der var et pandabillede og stadig ligner dig en panda, vil pludselig blive en struds i din forståelse af et neuralt netværk. Naturligvis er metoden til udskiftning af pixels gennemtænkt på en sådan måde, at det neurale netværk narres til at tænke på en struds. Men pointen er, at det stadig er en panda for dig.

Oprindeligt troede vi, at det hele fungerede godt. Men så overfor det faktum, at de kiggede på en panda og var sikre på, at det var en struds, blev vi bekymrede. Og jeg tror, en del af problemet er, at de ikke prøver at rekonstruere fra synspunkter på højt niveau. De prøver at lære isoleret, hvor kun lagene med detektorer detektorer lærer, og hele målet er at ændre vægtene for at blive bedre til at finde det rigtige svar. Vi opdagede for nylig, eller Nick Frost, i Toronto, at tilføjelse af genopbygning øger modstandskraften. Jeg tror, at i menneskets vision bruges genopbygning til læring. Og fordi vi lærer så meget, mens vi udfører genopbygning, er vi meget mere modstandsdygtige over for adversarial angreb.

Du tror, at downstream-kommunikation i et neuralt netværk giver dig mulighed for at teste, hvordan noget rekonstrueres. Du tjekker det og sørger for, at det er en panda, ikke en struds

Jeg synes, det er vigtigt, ja.

Men hjerneforskere er ikke helt enige i dette?

Hjerneforskere hævder ikke, at hvis du har to regioner i cortex i stien til opfattelse, vil der altid være omvendte forbindelser. De argumenterer med, hvad det er til. Det kan være nødvendigt for opmærksomhed, til læring eller til genopbygning. Eller for alle tre.

Og så ved vi ikke, hvad feedback er. Bygger du dine nye neurale netværk med udgangspunkt i, at … nej, ikke engang - du bygger feedback, fordi det er nødvendigt til genopbygning i dine neurale netværk, selvom du ikke engang forstår, hvordan hjernen fungerer?

Ja.

Er dette ikke en gimmick? Det vil sige, hvis du prøver at gøre noget som en hjerne, men du er ikke sikker på, om hjernen gør det?

Ikke rigtig. Jeg har ikke beregnet neurovidenskab. Jeg prøver ikke at modellere, hvordan hjernen fungerer. Jeg ser på hjernen og siger, "Det fungerer, og hvis vi ønsker at gøre noget andet, der fungerer, er vi nødt til at se og blive inspireret af det." Vi er inspireret af neuroner og bygger ikke en neuromodel. Således er hele modellen af neuroner, vi bruger, inspireret af det faktum, at neuroner har mange forbindelser, og at de ændrer vægt.

Det er interessant. Hvis jeg var en datalogi, der arbejdede på neurale netværk og ville omgå Jeff Hinton, ville en mulighed være at bygge nedadgående kommunikation og basere den på andre modeller af hjernevidenskab. Baseret på træning, ikke genopbygning

Hvis der var bedre modeller, ville du have vundet. Ja.

Det er meget, meget interessant. Lad os røre ved et mere generelt emne. Så neurale netværk kan løse alle mulige problemer. Er der gåder i den menneskelige hjerne, som neurale netværk ikke kan eller ikke vil dække? For eksempel følelser

Ikke.

Så kærlighed kan rekonstrueres med et neuralt netværk? Bevidstheden kan genskabes?

Absolut. Når du først har fundet ud af, hvad disse ting betyder. Vi er neurale netværk, ikke? Bevidsthed er et særligt interessant emne for mig. Men … folk ved ikke rigtig, hvad de mener med dette ord. Der er mange forskellige definitioner. Og jeg synes, det er et temmelig videnskabeligt udtryk. Derfor spurgte du folk for 100 år siden: hvad er livet? De svarede:”Nå, levende ting har livskraft, og når de dør, forlader livskraften dem. Dette er forskellen mellem de levende og de døde, enten har du vitalitet eller gør du ikke. Nu har vi ingen livskraft, vi tror, at dette koncept kom før videnskaben. Og når du først begynder at forstå lidt om biokemi og molekylærbiologi, behøver du ikke længere livskraft, vil du forstå, hvordan det hele virkelig fungerer. Og den samme ting, tror jeg, vil ske med bevidstheden. Jeg tror,at bevidsthed er et forsøg på at forklare mentale fænomener ved hjælp af en enhed. Og denne essens er det ikke nødvendigt. Når du først kan forklare det, kan du forklare, hvordan vi gør alt, hvad der gør mennesker bevidste væsener, forklarer de forskellige betydninger af bevidsthed uden at involvere nogen specielle enheder.

Det viser sig, at der ikke er nogen følelser, der ikke kunne skabes? Der er ingen tanke, der ikke kan skabes? Der er intet, som det menneskelige sind er i stand til, som teoretisk ikke kunne genskabes af et fuldt fungerende neuralt netværk, når vi rent faktisk forstår, hvordan hjernen fungerer?

John Lennon sang noget lignende i en af sine sange.

Er du 100% sikker på dette?

Nej, jeg er Bayesian, så jeg er 99,9% sikker.

Okay, hvad er så 0,01%?

Nå, vi kunne for eksempel alle være en del af en større simulering.

Fair nok. Så hvad lærer vi om hjernen fra vores arbejde med computere?

Nå, jeg tror, hvad vi har lært i de sidste 10 år, det er interessant, at hvis du tager et system med milliarder af parametre og en objektiv funktion - for eksempel at udfylde et hul i en række ord - fungerer det bedre end det burde. Det fungerer meget bedre, end du kunne forvente. Du kan måske tænke, og mange mennesker i traditionel AI-forskning ville tro, at du kan tage et system med en milliard parametre, køre det på tilfældige værdier, måle gradienten af objektivfunktionen og derefter justere det for at forbedre objektivfunktionen. Du skulle måske tro, at en håbløs algoritme uundgåeligt ville sidde fast. Men nej, det viser sig, at dette er en rigtig god algoritme. Og jo større skalaen er, jo bedre fungerer den. Og denne opdagelse var i det væsentlige empirisk. Der var selvfølgelig en teori bag det hele, men opdagelsen var empirisk. Og nu,da vi fandt dette, synes det mere sandsynligt, at hjernen beregner gradienten af en eller anden objektiv funktion og opdaterer vægterne og styrken af den synaptiske forbindelse for at holde trit med denne gradient. Vi skal bare finde ud af, hvad denne målfunktion er, og hvordan den bliver værre.

Men vi forstod ikke dette med hjerneeksemplet? Forstår du ikke balanceopdateringen?

Det var teori. For længe siden troede folk, at det var muligt. Men i baggrunden var der altid nogle computerforskere, der sagde: "Ja, men ideen om, at alt er tilfældigt og læring skyldes gradientafstamning, fungerer ikke med en milliard parametre, du er nødt til at forbinde en masse viden." Vi ved nu, at dette ikke er tilfældet. Du kan bare indtaste tilfældige parametre og lære alt.

Lad os dykke lidt dybere. Når vi lærer mere og mere, vil vi formodentlig fortsat lære mere og mere om, hvordan den menneskelige hjerne fungerer, når vi udfører massive test af modeller, der er baseret på vores forståelse af hjernefunktion. Når vi først har forstået alt dette bedre, vil der være et punkt, hvor vi i det væsentlige rewire vores hjerner til at blive meget mere effektive maskiner?

Hvis vi virkelig forstår, hvad der foregår, kan vi forbedre nogle ting som uddannelse. Og jeg tror, vi vil forbedre os. Det ville være meget mærkeligt at endelig forstå, hvad der sker i din hjerne, hvordan den lærer og ikke tilpasse sig for at lære bedre.

Hvordan tror du, om et par år vil vi bruge det, vi har lært om hjernen, og hvordan dyb læring fungerer for at transformere uddannelse? Hvordan ville du ændre klasserne?

Jeg er ikke sikker på, at vi lærer meget om et par år. Jeg tror, det vil tage længere tid at skifte uddannelse. Men når vi taler om det, bliver [digitale] assistenter temmelig smarte. Og når assistenter kan forstå samtaler, kan de tale med og uddanne børn.

Og i teorien, hvis vi forstår hjernen bedre, kan vi programmere hjælpere til bedre samtaler med børn, baseret på hvad de allerede har lært

Ja, men jeg tænkte ikke meget på det. Jeg laver noget andet. Men alt dette ligner ret sandheden.

Kan vi forstå, hvordan drømme fungerer?

Ja, jeg er meget interesseret i drømme. Jeg er så interesseret, at jeg har mindst fire forskellige drømsteorier.

Fortæl os om dem - om den første, anden, tredje, fjerde

For længe siden var der denne slags ting, der hedder Hopfield-netværk, og de studerede erindringer som lokale tiltrækkere. Hopfield fandt ud af, at hvis du prøver at lægge for mange minder, bliver de rodet sammen. De vil tage to lokale tiltrækkere og kombinere dem i en tiltrækker et eller andet sted midt imellem dem.

Så kom Francis Crick og Graham Mitchison og sagde, at vi kan slippe af med disse falske lav ved at lære (det vil sige at glemme, hvad vi har lært). Vi slukker datainput, sætter det neurale netværk i en tilfældig tilstand, lad det roe ned, siger, at det er dårligt, ændre forbindelserne, så det ikke falder i denne tilstand, og dermed kan vi gøre netværkslageret til flere minder.

Derefter kom Terry Seinowski og jeg ind og sagde, "Se, hvis vi ikke kun har neuronerne, der holder minder, men en masse andre neuroner, kan vi finde en algoritme, der bruger alle disse andre neuroner til at hjælpe med at huske minder?" … Som et resultat skabte vi en Boltzmann-maskinlæringsalgoritme. Og Boltzmanns maskinlæringsalgoritme havde en ekstremt interessant egenskab: Jeg viser dataene, og den går slags gennem resten af enhederne, indtil den kommer i en meget lykkelig tilstand, og derefter øges styrken for alle forbindelser, baseret på det faktum, at to enheder er aktive på samme tid.

Du skal også have en fase, hvor du slukker for input, lader algoritmen "rasle" og sætte ham i en tilstand, hvor han er glad, så han fantaserer, og så snart han har en fantasi, siger du: “Tag alle par af neuroner der er aktive og reducerer styrken på forbindelserne."

Jeg forklarer algoritmen til dig som en procedure. Men i virkeligheden er denne algoritme et produkt af matematik, og spørgsmålet: "Hvordan skal du ændre disse forbindelseskæder, så dette neurale netværk med alle disse skjulte dataenheder ikke synes at være overraskende?" Og der skulle også være en anden fase, som vi kalder den negative fase, når netværket fungerer uden dataindtastning og aflæser, uanset hvilken tilstand du lægger det i.

Vi drømmer i mange timer hver aften. Og hvis du pludselig vågner op, kan du sige, at du lige har drømt, fordi drømmen er gemt i kortvarig hukommelse. Vi ved, at vi ser drømme i mange timer, men om morgenen, efter at vi vågner op, kan vi kun huske den sidste drøm, og vi kan ikke huske de andre, hvilket er meget vellykket, fordi man kunne tage fejl af dem for virkeligheden. Så hvorfor husker vi slet ikke vores drømme? Ifølge Crick er dette meningen med drømme: at aflære disse ting. Du lærer lidt omvendt.

Terry Seinovski og jeg har vist, at dette faktisk er den maksimale sandsynlighed for indlæringsprocedure for Boltzmann-maskiner. Dette er den første teori om drømme.

Jeg vil gå videre til dine andre teorier. Men mit spørgsmål er: Har du været i stand til at træne nogen af dine dybe læringsalgoritmer til faktisk at drømme?

Nogle af de første algoritmer, der kunne lære at arbejde med skjulte enheder, var Boltzmann-maskiner. De var ekstremt ineffektive. Men senere fandt jeg en måde at arbejde med tilnærmelser på, hvilket viste sig at være effektivt. Og det fungerede faktisk som drivkraft til genoptagelse af arbejde med dyb læring. Dette var ting, der trænede et lag med funktionsdetektorer ad gangen. Og det var en effektiv form for Boltzmanns restriktive maskine. Og så gjorde hun denne slags omvendt læring. Men i stedet for at falde i søvn, kunne hun bare fantasere lidt efter hvert datamærke.

Okay, så androider drømmer faktisk om elektriske får. Lad os gå videre til teorier to, tre og fire

Teori to blev kaldt Wake Sleep Algorithm. Du skal træne en generativ model. Og du har en idé om at oprette en model, der kan generere data, har lag med funktionsdetektorer og aktiverer de højere og nedre lag, og så videre, ned til aktivering af pixels - skaber i det væsentlige et billede. Men du vil gerne lære hende noget andet. Du vil gerne have, at det genkender dataene.

Og så skal du oprette en algoritme med to faser. I opvågningsfasen kommer data ind, han prøver at genkende det, og i stedet for at studere de forbindelser, som han bruger til genkendelse, studerer han generative forbindelser. Dataene kommer ind, jeg aktiverer de skjulte enheder. Og så prøver jeg at lære disse skjulte enheder at gendanne disse data. Han lærer at rekonstruere i hvert lag. Men spørgsmålet er, hvordan man lærer direkte forbindelser? Så ideen er, at hvis du kendte direkte forbindelser, kunne du lære omvendte forbindelser, fordi du kunne lære at vende ingeniør.

Nu viser det sig også, at hvis du bruger omvendte sammenkoblinger, kan du også lære direkte sammenkoblinger, fordi du bare kan starte øverst og generere nogle data. Og da du genererer data, kender du tilstande for alle skjulte lag og kan studere direkte forbindelser for at gendanne disse tilstande. Og her er hvad der sker: hvis du starter med tilfældige forbindelser og forsøger at bruge begge faser skiftevis, vil du lykkes. For at det skal fungere godt, skal du prøve forskellige muligheder, men det fungerer.

Okay, så hvad med de to andre teorier? Vi har kun otte minutter tilbage, jeg tror, jeg ikke har tid til at spørge om alt

Giv mig endnu en time, så fortæller jeg dig om de to andre.

Lad os tale om, hvad der er næste. Hvor er din forskning på vej? Hvilke problemer forsøger du at løse nu?

I sidste ende bliver du nødt til at arbejde på noget, som værket endnu ikke er færdig med. Jeg tror, at jeg godt kan arbejde på noget, som jeg aldrig vil afslutte - kaldet kapsler, en teori om, hvordan visuel opfattelse udføres ved hjælp af genopbygning og hvordan information styres til de rigtige steder. De to vigtigste motiverende faktorer var, at information, aktivitet i et lag i standardnervale netværk simpelthen automatisk sendes et sted, og du tager ikke en beslutning om, hvor du skal sende den. Tanken bag kapslerne var at tage beslutninger om, hvor man skulle sende information.

Nu hvor jeg begyndte at arbejde på kapsler, har meget smarte mennesker hos Google opfundet transformere, der gør det samme. De beslutter, hvor de skal sende informationen, og det er en stor gevinst.

Vi vender tilbage næste år for at tale om drømteorier nummer tre og nummer fire.

Ilya Khel