Forskere Har Oprettet En Selvlærende AI, Der Er I Stand Til At Spille Alle Spil - Alternativ Visning

Video: Forskere Har Oprettet En Selvlærende AI, Der Er I Stand Til At Spille Alle Spil - Alternativ Visning

Video: SCP-4730 Jorden, korsfæstet objekt klasse keter | ekstradimensional scp 2024, September

2024 Forfatter: Keith Bush | [email protected]. Sidst ændret: 2023-12-16 14:09

Udviklerne af det revolutionerende selvlærende kunstige intelligenssystem AlphaGo Zero har annonceret oprettelsen af en ny version af denne maskine, som uafhængigt kan lære at spille ethvert brætspil og slå en person. Beskrivelsen blev præsenteret i tidsskriftet Science.

Deepths of Mind

AlphaGo AI-systemet blev udviklet af David Silver og kolleger i slutningen af 2014, og dets arbejde blev "testet" på europæisk mester Fan Hui, som tabte alle fem kampe til maskinen. I marts 2016 besejrede AlphaGo Go verdensmester Lee Sedol i en serie på fem kampe, hvoraf kun én endte med en menneskelig sejr.

Silver og hans kolleger var i stand til at opnå disse succeser ved at bygge deres AI på grundlag af ikke et, men to neurale netværk på én gang - specielle algoritmer, der efterligner arbejdet med neuronkæder i den menneskelige hjerne. En af dem er ansvarlig for at evaluere den aktuelle position på tavlen, og den anden bruger analyseresultaterne udarbejdet af det første netværk for at vælge det næste trin.

Det næste logiske trin i udviklingen af AlphaGo var fjernelsen af den største ulempe ved alle eksisterende neurale netværk og kunstig intelligenssystemer - behovet for at lære dem, hvad de skulle gøre ved hjælp af enorme dataarkiver manuelt behandlet af en person, eller med en direkte deltagelse af en person, som det skete i de første faser udvikling af AlphaGo.

Silver og hans team løste dette problem ved at skabe et fundamentalt nyt neuralt netværk baseret på de såkaldte forstærkningslæringsalgoritmer. Dette neurale netværk, i modsætning til dets stjernernes forgænger, der oprindeligt blev trænet i spil med frivillige og havde nogle indbyggede primitive spilstrategier, begyndte sit arbejde som en absolut nybegynder med nul videnbase.

Med andre ord, hun kendte kun reglerne for Go-spillet, de oprindelige betingelser og sejrforholdene, og så lærte computeren uafhængigt af at spille denne gamle kinesiske strategi, lege med sig selv og handle ved prøve og fejl. Den eneste begrænsning i hendes arbejde var den maksimale tid til at tænke over flytningen - det var omkring 0,4 sekunder.

Salgsfremmende video:

Efter hvert sådant spil analyserede AI-systemet alle dets bevægelser og huskede dem, der bragte en af dets "halvdele" tættere på sejren og indgik i en slags "sort liste" de trin, der ærligt tabte. Ved hjælp af disse data genopbyggede det neurale netværk sig selv og gradvist nåede det niveau, som den første version af AlphaGo nåede inden serien af spil med Lee Sedol.

Skiftet til selvlæringsalgoritmer gjorde det ikke kun muligt for AlphaGo Zero at overgå sin forgænger og slå den med en score på 100-0, men forbedrede også mange andre aspekter af sit arbejde. Især tog processen med sin træning kun tre dage og omkring fem millioner spil, hvilket var en størrelsesorden mindre end anmodningerne fra den første version af AI.

Vejen til ekspertise

Den vellykkede afslutning af eksperimenter med AlphaGo Zero fik Silver og hans team til at overveje, om et lignende neuralt netværk kunne bruges til at vinde mesteren i andre typer strategi og brætspil.

For at gøre dette opbyggede forskerne et nyt nyt element i AlphaGo Zero - heuristiske algoritmer til tilfældig søgning efter løsninger samt kode, der tog hensyn til eksistensen af uafgjort i nogle spil. Derudover forbedrede den nye version af alpha konstant sin struktur i stedet for at blive opdateret i faser som sin forgænger.

Disse relativt enkle ændringer, som yderligere eksperimenter viste, øgede hastigheden for selvindlæring af dette kunstige intelligenssystem betydeligt og gjorde det til en universel maskine, der var i stand til at spille alle slags brættestrategier.

Forskere har testet sit arbejde på tre typer spil - gå, almindelig skak og deres japanske sort, shogi. I alle tre tilfælde nåede Silvers nye hjernebarn niveauet af en stormester i mindre end en million spil og opnåede næsten menneskelig selektivitet i valget af mulige træk på bare 9-12 timers træning i skak og 13 dage på farten.

Tidligere slog hun de mest sofistikerede computerprogrammer, der spiller disse spil - Stockfish's algoritme opgav den fjerde time med AlphaZero-træning, mens Elmo, den nuværende mester i shogi, kun varede i to timer. Endelig begyndte den første version af AlphaGo at give efter for sin "barnebarn" med cirka 30 timers træning.

De næste "ofre" for AlphaZero, som videnskabsmænd har bemærket, kan være "rigtige" computerspil, såsom Starcraft II og Dota 2. At tage mesterskabet i sådanne esports-discipliner vil efter deres mening åbne vejen for selvlærende AI at trænge ind i mindre formaliserede områder af videnskab og kultur og teknologi.