Sådan Afsløres Voynich-manuskripthemmelighederne: En Undersøgelse - Alternativ Visning

Indholdsfortegnelse:

Sådan Afsløres Voynich-manuskripthemmelighederne: En Undersøgelse - Alternativ Visning
Sådan Afsløres Voynich-manuskripthemmelighederne: En Undersøgelse - Alternativ Visning

Video: Sådan Afsløres Voynich-manuskripthemmelighederne: En Undersøgelse - Alternativ Visning

Video: Sådan Afsløres Voynich-manuskripthemmelighederne: En Undersøgelse - Alternativ Visning
Video: The Voynich Manuscript Decoded and Solved? 2024, Kan
Anonim

Hvad der ligger bag de sensationelle nyheder om Voynich-manuskriptet og om russiske videnskabsmænd, er det muligt nøjagtigt at bestemme sproget ud fra teksten, hvor tilstrækkelige matematikere arbejder med "lingvistikens" felt.

Den 19. april formidlede de russiske medier nyheden om den "epokegørende" opdagelse af russiske matematikere: ved hjælp af den nye metode beviste forskere ikke kun betydningen af det berømte "Voynich-manuskript", men var også i stand til at bestemme, at det var skrevet på to sprog og med undtagelse af bogstaver til vokaler.

Voynich-manuskriptet er et middelalderligt illustreret manuskript købt i 1912 af den antikke Wilfred Voynich. Oprettet i det 15. århundrede (baseret på radiokarbonanalyse af pergament - men de fleste forskere betragter i øjeblikket ikke selve teksten som en senere forfalskning), den er skrevet på et ukendt sprog ved hjælp af et ukendt alfabet. At dømme efter illustrationer består teksten af tematiske blokke: botaniske, astronomiske, farmakologiske og andre. Kompleksiteten ved afkodning af teksten gjorde Voynich-manuskriptet til en "hellig gral" for kryptografer og genstand for mange undersøgelser, herunder dem der bruger Big Data-metoder.

Nyheden om manuskriptet blev rapporteret som noget sensationelt. Dette vækkede straks en vis mistanke.”Før det mislykkedes alle forsøg på at dechifrere et unikt dokument og endda bare forstå, om det er en meningsfuld tekst. 600 års ubrugelig indsats!.. Cryptografer fra CIA og NSA, supercomputere og endda læger med "okkulte videnskaber" underskrev deres fuldstændige impotens. Det seneste indlæg fra kryptolog Gordon Rugg fra Keele University i Storbritannien lyder:”Voynich-manuskriptet er en falsk. En sådan “kompleks tekst” er let at konstruere for alle, der er fortrolige med enkle kopieringsmetoder,”sagde artiklen.

For det første blev tekstens meningsfuldhed anerkendt tilbage i 1970'erne og flere gange bekræftet i undersøgelser af 2010'erne, som blev skrevet om tilstrækkeligt detaljeret selv i de indenlandske medier. For det andet blev opdagelsen, der blev sendt til nyhederne, kun præsenteret i form af et institut-fortryk og ikke i en artikel i et internationalt fagfællebedømt tidsskrift (fortrykket blev også offentliggjort tilbage i 2016).

Disse underlige ting i præsentationen af materialet tvang os til først at søge afklaring fra forfatteren af undersøgelsen og derefter til uafhængige eksperter - lingvister, der arbejder med statistiske og matematiske metoder såvel som med afkodning af gamle skrifter.

Det er let at skrive en formel, men det er meget dyrt at udføre numerisk analyse

Salgsfremmende video:

Først kort om essensen af undersøgelsen. Forfatterne af fortrykket, matematikere fra Moskva Institut for Fysik og Teknologi og Institut for Anvendt Matematik fra det Russiske Videnskabsakademi, er afhængige af deres værker, ifølge hvilke "frekvensfordelingen af tekstsymboler er en stabil egenskab, ikke for forfatteren eller emnet for teksten, men for sproget." Det vil sige at ved hjælp af et sæt ved hjælp af matematiske værktøjer er det muligt at bestemme på hvilket sprog det er skrevet på grund af det faktum, at hvert sprog har sin egen karakteristiske "profil" (distribution af Hurst-eksponenten). Ved at tage disse metoder som grundlag fastslog forskerne, at manuskriptets tekst var skrevet på en blanding af flere sprog. På samme tid blev der tilføjet falske mellemrum, og symbolerne, der betegner vokallyde, blev fjernet.

Hovedforfatteren af undersøgelsen, Yuri Orlov (IPM RAS og MIPT), understregede, at Voynich-manuskriptet slet ikke er hovedmålet med deres arbejde. "Det 'sensationelle' manuskript er kun en illustration af den matematiske metode til at genkende sprog fra tekst - faktisk et problem ved maskinindlæring," sagde Orlov.

Selve manuskriptet er absolut ikke interessant for os. Videnskab henviser specifikt til statistikker over sprog. Gennem det kan vi forstå på hvilket sprog dette manuskript er skrevet. Men ikke hvad der står der, dette er et vigtigt punkt. - Yuri Orlov. MIPT og Institute of Applied Mathematics opkaldt efter M. V. Keldysh

Med hensyn til den sproglige metode, der anvendes i arbejdet, bemærker Orlov, at analysen af hyppigheden af bogstavkombinationer i selve teksterne er en velkendt ting. Imidlertid er Hurst-indikatoren dårligt kendt af lingvister, da det er vanskeligt at beregne selv matematisk. Formlen i sig selv er let at skrive, men numerisk analyse er meget dyr. Til dette er supercomputeren placeret ved instituttet opkaldt efter M. V. Keldysh, understreger matematikeren.

Valget af indoeuropæiske sprog til analyse forklares ved, at de alle er meget ens, siger Orlov. Indikatorer udviklet af matematikere gør det let at skelne sprog inden for samme sproggruppe, men ikke mellem familier. Naturligvis er det teoretisk muligt at udføre det samme arbejde med andre grupper (Ural, Altai eller andre), men værdien af analysen ligger i dens fuldstændighed, er Orlov sikker. For indoeuropæiske sprog er det ikke svært at skrive et korpus af tekster til hvert sprog; det er sværere at gøre det med andre familier.

Idet han vendte tilbage til Voynich-manuskriptet, bemærkede Orlov, at han og hans kolleger citerede fem beviser (den logaritmiske profil for frekvensrækkefølgen af bogstaver i teksten på et og flere sprog, fordelingen af Hurst-eksponenten, det spektrale portræt af matrixen med betingede sandsynligheder og andre) af hypotesen om blandingen af sprog i manuskriptet og sletningen breve til vokaler. De tager eftertrykkeligt afstand fra "hangoutet omkring manuskriptet", men de præsenterede et unikt resultat - en åben metode, statistisk analyse med en vurdering af pålidelighed, der kan verificeres uafhængigt.

Konklusionen afskrives af det faktum, at vi ikke forstår, hvilket materiale de har afledt, og hvad de kontrollerede deres formel

Selve antagelsen om, at teksten i Voynich-manuskriptet er blottet for bogstaver til vokaler med forkert anbragte mellemrum, er smuk og god, bemærker sprogforskeren Evgenia Korovina, der beskæftiger sig med matematiske sprogstatistikker (Institute of Linguistics, Russian Academy of Sciences). Tidligere fremsatte ingen en sådan hypotese. Hun forklarer for eksempel smukt, hvorfor der er færre bogstaver, end man kunne forvente for en europæisk tekst. Men problemet er, at forfatterne til undersøgelsen ikke engang angav, hvilke tekster på forskellige sprog de sammenlignede, og hvad der var omfanget af disse tests. Et stort antal sprog er nævnt i fortrykket. Derfor er undersøgelsen ikke reproducerbar: hvis du tager vilkårlige tekster på de samme sprog, er det ikke en kendsgerning, at de samme mønstre kommer ud.

Maria Molina, en specialist i corpusmetoder i studiet af gamle sprog (Institute of Linguistics, RAS), er enig med Korovina. Nye metoder til behandling af sproglige data hjælper efter hendes mening med at få oplysninger om, hvad der tidligere var lukket for sprogforskere. Imidlertid miskrediterer utilstrækkeligt godt forberedt inputmateriale selv de fineste databehandlingsteknikker.

Konklusionen afskrives af det faktum, at vi ikke forstår, hvilket materiale de tegnede, og hvad de kontrollerede deres formel. For mit materiale ved jeg helt sikkert, at der er en lille metodologisk fejl - og jeg får kritisk forskellige tal. - Maria Molina. Institut for Lingvistik RAS

“Affald ind - affald ud,” tilføjer Molina (GIGO er et princip inden for datalogi, der betyder, at forkerte inputdata vil resultere i forkerte resultater, selvom algoritmen i sig selv er korrekt, - bemærk Indicator. Ru).

Statistiske metoder er stadig antydninger af resultater, ikke resultater

Albert Davletshin (en ansat ved Center for Linguistic Comparative Studies ved Institut for Sammenlignende Studier ved det Russiske Statsuniversitet for Humaniora, studerer maya- og polynesiske sprog) talte endnu skarpere. Hvis forfatterne til fortrykket ikke ville dechiffrere Voynich-manuskriptet, hvorfor gør de det så? Og yderligere, hvis vi taler specifikt om afkodningen af ukendt skrivning, opstår der spørgsmål efter spørgsmål:”Der er ingen indledende data om skrivning - hvilken type bogstav? Hvordan opnås de forskellige transkriptioner? Hvor mange tegn? Hvad ligger til grund for de eksisterende antagelser om skrivets karakter? Hvad er længden af et ord adskilt af mellemrum og uden mellemrum? Hvad betyder mellemrum? Hvor stor er ordbogen? Hvad er forholdet mellem underskrifter og tegninger?

Først viser det sig, at teksten er dansk og kun dansk (og dette er historisk umuligt, som der ikke er et ord om i værket). Derefter viser det sig, at teksten er på to ukendte sprog (verifikation på dette tidspunkt viser sig at være umulig og er taget i tro). Der er desuden mange konservative måder at vise, at to (store) sider er skrevet med et bogstav, men på forskellige sprog uden at ty til komplekse matematiske modeller. Endelig, hvis vokaler fjernes fra teksten, hvor meget bekræftes dette af standard, længe kendte metoder (for eksempel Sukhotin, Shevoroshkina og Ventris)?"

Davletshin kritiserer også ufølsomheden over for filologi og historie, der er karakteristisk for denne form for forskning:

Hvad jeg ser i teksten: der er ofte mennesker, der ønsker at tage kilden X og glemme, at den er en kilde og eksisterer i noget historisk, herunder sproglig, kontekst og på en eller anden måde tæller noget i det. Hypotesen om, at der er mere end et sprog i et manuskript, er interessant. Men du kunne på en eller anden måde vise det menneskeligt. Statistiske metoder er stadig antydninger af resultater, ikke resultater. -Albert Davletshin. Center for sproglige sammenlignende studier, IVKA RSUH

Der er intet kriterium for at skelne mellem interessante resultater og forfærdelige

En mere afbalanceret holdning blev indtaget af Georgy Starostin, en ekspert i komparativ historisk lingvistik (RSUH). Han var mere interesseret i, hvor nyttige nye matematiske metoder er til løsning af problemer, som sprogforskere står over for.”Modellen, der præsenteres i artiklen, gør et mærkeligt indtryk. På den ene side ser det ud til at tilhøre kategorien "blind", analyse af tekstdata uden nogen foreløbige vurderinger om alfabetets struktur (for eksempel bør digrafi, som det engelske ch, sh, betragtes som kombinationer af to bogstaver, selvom dette faktisk er en lyd). På den anden side smides vokaler ud af de sammenlignede strenge, som ifølge forfatterne af teksten indeholder mindre information og snarere tilføjer støj. Generelt er testbasen tydeligvis meget lille, det er umuligt at tale om noget grundlæggende på så mange sprog."

Resultaterne af sammenligningen af indoeuropæiske og uralske sprog, præsenteret i sammenligningstabel 3 i artiklen, inspirerer ikke til særlig optimisme i Starostin. Nogle indikatorer for graden af sprog nærhed fanges godt (for eksempel intra-germanske eller intra-romanske forbindelser), nogle dårligt (for eksempel identificerer metoden ikke længere den indoeuropæiske familie). Det vigtigste er, at der ikke er noget kriterium for at skelne interessante resultater fra forfærdelige. I bedste fald gør metoden det muligt at udpege små sproglige grupper (selvom det her ikke fungerer mellem nært beslægtede finske og estiske), men alle disse grupper kan identificeres pålideligt uden det.

Tabel 3 fra fortrykket, som viser resultaterne, der sammenligner indoeuropæiske og uralske sprog. Den samme farve i tabellen. Der identificeres 3 sproggrupper, som er parvise tætte (i den forstand som L1-normen for fordelingen af ordnede frekvenser i tekster uden vokal). Nogle uventet tætte sprogpar er markeret med rødt, såsom tysk / ungarsk, engelsk / estisk, latin / baskisk og græsk / finsk. Preprint-forfattere: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabel 3 fra fortrykket, som viser resultaterne, der sammenligner indoeuropæiske og uralske sprog. Den samme farve i tabellen. Der identificeres 3 sproggrupper, som er parvise tætte (i den forstand som L1-normen for fordelingen af ordnede frekvenser i tekster uden vokal). Nogle uventet tætte sprogpar er markeret med rødt, såsom tysk / ungarsk, engelsk / estisk, latin / baskisk og græsk / finsk. Preprint-forfattere: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabel 3 fra fortrykket, som viser resultaterne, der sammenligner indoeuropæiske og uralske sprog. Den samme farve i tabellen. Der identificeres 3 sproggrupper, som er parvise tætte (i den forstand som L1-normen for fordelingen af ordnede frekvenser i tekster uden vokal). Nogle uventet tætte sprogpar er markeret med rødt, såsom tysk / ungarsk, engelsk / estisk, latin / baskisk og græsk / finsk. Preprint-forfattere: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Endelig er det en interessant idé at bestemme et sprogs genetiske karakteristik ved fordelingen af Hurst-eksponenten og måske endda bragt til et videnskabeligt punkt. Men dette kræver behandling af et stort antal tekster på forskellige sprog. Og problemet opstår straks: mange sprog er uskrevne, og hvor korrekt det er at sammenligne de alfabetiske registreringssystemer med fonetiske transkriptioner er stadig uklart. Der vil være meget lidt praktisk mening fra denne idé, er Starostin sikker på. I bedste fald kan det virkelig anvendes til hændelser som Voynich-manuskriptet, når der er en hypotese om, at noget sprog med standard alfabetisk skrivning er krypteret i henhold til visse principper (for eksempel med sletning af vokaler osv.). Der er dog meget få sådanne hændelser i verden.

Opsummering

Hvad er i bundlinjen? Diskussionen omkring IPM- og MIPT-forskningen afslørede en dyb kløft mellem det sproglige samfund (selv dem, der bruger statistiske metoder) og "outsidere" med hensyn til sprogspecialister, der besluttede at anvende deres matematiske værktøjer til sprogligt materiale.

Det faktum, at matematikere ikke ønsker at arbejde sammen med lingvister, giver ikke kun grove fejltagelser, som derefter migrerer til medierne (for eksempel kaldes det baskiske sprog i fortrykket indoeuropæisk, der er en sætning "vokalbogstaver"). Modellernes skønhed og supercomputers beregningskraft devalueres faktisk af fejl ved indgangsstedet. Igen, med ønsket om og åbenhed i kontakter med kolleger fra en anden disciplin, kunne disse fejl let undgås.

Se selve Voynich-manuskriptet her.