Adversarial Angreb: Hvorfor Er Et Neuralt Netværk Let At Narre? - Alternativ Visning

Indholdsfortegnelse:

Adversarial Angreb: Hvorfor Er Et Neuralt Netværk Let At Narre? - Alternativ Visning
Adversarial Angreb: Hvorfor Er Et Neuralt Netværk Let At Narre? - Alternativ Visning

Video: Adversarial Angreb: Hvorfor Er Et Neuralt Netværk Let At Narre? - Alternativ Visning

Video: Adversarial Angreb: Hvorfor Er Et Neuralt Netværk Let At Narre? - Alternativ Visning
Video: 3000+ Portuguese Words with Pronunciation 2024, Kan
Anonim

I de senere år, efterhånden som dybe indlæringssystemer bliver mere udbredt, har forskere demonstreret, hvordan modstridende mønstre kan påvirke alt fra en simpel billedklassificering til kræftdiagnosticeringssystemer - og endda skabe en livstruende situation. På trods af al deres fare er modsatte eksempler imidlertid dårligt forståede. Og forskere var bekymrede: kan dette problem løses?

Hvad er et modstridende angreb? Dette er en måde at narre et neuralt netværk til at producere et forkert resultat. De bruges hovedsageligt i videnskabelig forskning til at teste modellernes robusthed mod ikke-standarddata. Men i det virkelige liv kan du som eksempel ændre et par pixels i billedet af en panda, så det neurale netværk vil være sikker på, at der er et gibbon i billedet. Selvom forskere kun tilføjer "støj" til billedet.

Adversarial angreb: hvordan man narrer et neuralt netværk?

Nyt arbejde fra Massachusetts Institute of Technology peger på en mulig måde at overvinde dette problem. Ved at løse det kunne vi oprette langt mere pålidelige modeller for dyb læring, som ville være meget vanskeligere at manipulere på ondsindede måder. Men lad os først se på det grundlæggende i modstridende mønstre.

Som du ved kommer kraften i dyb læring fra dens overlegne evne til at genkende mønstre (mønstre, mønstre, diagrammer, mønstre) i data. Feed det neurale netværk titusinder af mærkede dyrefotos, og det lærer, hvilke mønstre der er forbundet med en panda, og hvilke der er forbundet med en abe. Hun kan derefter bruge disse mønstre til at genkende nye billeder af dyr, som hun aldrig har set før.

Men modeller for dyb læring er også meget skrøbelige. Da billedgenkendelsessystemet kun er afhængig af pixelmønstre og ikke på en mere konceptuel forståelse af, hvad det ser, er det let at narre det til at se noget helt andet - blot ved at bryde mønstre på en bestemt måde. Klassisk eksempel: Føj noget støj til et pandabillede, og systemet klassificerer det som et gibbon med næsten 100 procent sikkerhed. Denne støj vil være det modsatte angreb.

Image
Image

Salgsfremmende video:

I flere år har forskere observeret dette fænomen, især i computersynssystemer, uden virkelig at vide, hvordan man slipper af med sådanne sårbarheder. Faktisk arbejder der blev præsenteret i sidste uge på en større konference om forskning i kunstig intelligens - ICLR - spørgsmålstegn ved uundgåeligheden af adversarial angreb. Det ser ud til, at uanset hvor mange pandabilleder du fodrer til billedklassificeren, vil der altid være en slags indignation, som du bryder systemet med.

Men nyt arbejde fra MIT viser, at vi tænkte forkert over modstanderskabsangreb. I stedet for at finde ud af måder til at indsamle flere af de kvalitetsdata, der materer systemet, er vi nødt til grundlæggende at overveje vores tilgang til at træne det.

Arbejdet demonstrerer dette ved at afsløre en temmelig interessant egenskab med modstridende eksempler, der hjælper os med at forstå, hvorfor de er effektive. Hvad er tricket: tilsyneladende tilfældig støj eller klistermærker, der forvirrer det neurale netværk, bruger faktisk meget punktuelle, subtile mønstre, som visualiseringssystemet har lært at stærkt knytte til specifikke objekter. Med andre ord går maskinen ikke ned, når vi ser et gibbon, hvor vi ser en panda. Faktisk ser hun et regelmæssigt arrangement af pixels, usynlige for mennesker, der optrådte oftere på billeder med gibbons end på billeder med pandaer under træning.

Forskere har demonstreret dette ved hjælp af eksperiment: de skabte et datasæt med billeder af hunde, som alle blev ændret på en sådan måde, at standard billedklassifikatoren fejlagtigt identificerede dem som katte. De mærkede derefter disse billeder med “katte” og brugte dem til at træne et nyt neuralt netværk fra bunden. Efter træning viste de det neurale netværk ægte billeder af katte, og hun identificerede dem korrekt som katte.

Forskerne antog, at der er to typer af sammenhænge i hvert datasæt: mønstre, der faktisk korrelerer med betydningen af dataene, såsom whiskers i kattebilleder eller pelsfarve i pandabilleder, og mønstre, der findes i træningsdata, men ikke forplantes. til andre sammenhænge. Disse sidste "vildledende" sammenhænge, lad os kalde dem det, bruges i adversarial angreb. Et genkendelsessystem, der er trænet til at genkende "vildledende" mønstre, finder dem og mener, at det ser en abe.

Dette fortæller os, at hvis vi ønsker at fjerne risikoen for et modstridende angreb, er vi nødt til at ændre den måde, vi træner vores modeller på. Vi tillader i øjeblikket det neurale netværk at vælge de korrelationer, det vil bruge til at identificere objekter på billedet. Som et resultat har vi ingen kontrol over de korrelationer, den finder, uanset om de er reelle eller vildledende. Hvis vi i stedet trænet vores modeller til kun at huske reelle mønstre - som er bundet til meningsfulde pixels - i teorien ville det være muligt at producere dybe læringssystemer, der ikke kan forveksles.

Da forskere testede denne idé og kun anvendte reelle korrelationer til at træne deres model, reducerede de faktisk dens sårbarhed: Den blev kun manipuleret 50% af tiden, mens en model, der blev trænet på reelle og falske korrelationer, blev manipuleret 95% af tiden.

Kort sagt kan du forsvare dig mod modstanderskabsangreb. Men vi har brug for mere forskning for at eliminere dem fuldstændigt.

Ilya Khel