Učestalost analize teksta: značajke i primjeri

Sadržaj:

Učestalost analize teksta: značajke i primjeri
Učestalost analize teksta: značajke i primjeri
Anonim

S ovim konceptom ste se susreli više puta u životu ako ste morali raditi s tekstovima. Konkretno, možete se obratiti online kalkulatorima koji provode upravo analizu frekvencije teksta. Ovi praktični alati pokazuju koliko se puta određeni znak ili slovo pojavljuje u bilo kojem odlomku teksta. Često je prikazan i postotak. Zašto je ovo potrebno? Kako frekvencijska analiza teksta pridonosi "pucanju" jednostavnih šifri? Koja je njegova bit, tko ju je izmislio? Odgovorit ćemo na ova i druga važna pitanja o ovoj temi u tijeku članka.

Definicija

Frekvencijska analiza je jedna od varijanti kriptoanalize. Temelji se na pretpostavci znanstvenika o postojanju statističke netrivijalne distribucije pojedinačnih znakova i njihovih redovitih nizova u običnom i šifriranom tekstu.

Vjeruje se da će takva distribucija, do zamjene pojedinačnih znakova, također biti sačuvana u procesima šifriranja/dešifriranja.

frekvencijska analiza sustava
frekvencijska analiza sustava

Procesna karakteristika

Sada pogledajmo analizu frekvencije jednostavnim riječima. To implicira da je broj pojavljivanja istog abecednog znaka u tekstovima dovoljne dužine isti u različitim tekstovima napisanim na istom jeziku.

A sada što je s monoalfabetskom enkripcijom? Pretpostavlja se da ako postoji znak s tako sličnom vjerojatnošću pojavljivanja u odjeljku s šifriranim tekstom, onda je realno pretpostaviti da je to to šifrirano slovo.

Sljedbenici analize frekvencije teksta primjenjuju isto razmišljanje na digrame (nizove od dva slova). Trigrami - ovo je za slučaj već poliabecednih šifri.

Povijest metode

Analiza frekvencija riječi nije otkriće modernosti. Znanstvenom svijetu poznata je od 9. stoljeća. Njegovo stvaranje povezuje se s imenom Al-Kindi.

No poznati slučajevi primjene metode frekvencijske analize pripadaju znatno kasnijem razdoblju. Najupečatljiviji primjer ovdje je dešifriranje egipatskih hijeroglifa, koje je 1822. proizveo J.-F. Champollion.

Ako se okrenemo fikciji, možemo pronaći mnoge zanimljive reference na ovu metodu dešifriranja:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Djeca kapetana Granta".
  • Edgar Poe - "Gold Bug".

Međutim, od sredine prošlog stoljeća, većina algoritama korištenih u enkripciji razvijena je uzimajući u obzir njihovu otpornost na takvu frekvencijsku kriptoanalizu. Stoga jedanas se najčešće koriste samo za obuku budućih kriptografa.

analiza frekvencije teksta
analiza frekvencije teksta

Osnovna metoda

Predstavimo sada analizu frekvencijskog odziva u detalje. Ova vrsta analize izravno se temelji na činjenici da se test sastoji od riječi, a one, pak, od slova. Broj slova koja ispunjavaju nacionalne abecede je ograničen. Ovdje se jednostavno mogu navesti slova.

Najvažnije karakteristike takvog teksta bit će i ponavljanje slova, razni bigrami, trigrami i n-grami, kao i kompatibilnost raznih slova međusobno, izmjena suglasnika/samoglasnika i drugo vrste ovih simbola.

Glavna ideja metoda je brojati pojavljivanja mogućih n-grama (označenih s nm) u otvorenim tekstovima dovoljno dugim za analizu (označeno s T=t1t2…tl) sastavljenim od slova nacionalne abecede (označeno s {a1, a2, …, an}). Sve gore navedeno uzrokuje neke uzastopne m-grame teksta:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Ako je ovo broj pojavljivanja m-grama ai1ai2…cilj u određenom tekstu T, a L je ukupan broj m-grama koje je analizirao istraživač, tada je moguće empirijski utvrditi da za dovoljno veliki L, frekvencije za takav m-gram će se malo razlikovati jedna od druge.

frekvencijska analiza
frekvencijska analiza

Slova ruske abecede koja se često pojavljuju

Ali vremensko-frekvencijska analiza, unatoč sličnom nazivu, nema nikakve veze s temom našeg razgovora. Ova vrsta analize se provodi zasignale s slabo vidljivih radarskih stanica pomoću posebne valne transformacije.

A sada se vratimo na glavnu temu. Prilikom provođenja analize frekvencije možete saznati koja se slova ruske abecede najčešće nalaze u prilično obimnim tekstovima (postotak od 0,062 do 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Uvedeno je čak i posebno mnemoničko pravilo koje pomaže u učenju najčešćih slova ruske abecede. Da biste to učinili, dovoljno je zapamtiti samo jednu riječ - "sijenik".

U općim slučajevima, učestalost upotrebe slova u postotcima postavlja se jednostavno: stručnjak broji koliko se puta slovo pojavljuje u tekstu, a zatim dijeli rezultirajuću vrijednost s ukupnim brojem znakova u tekstu. A da biste ovu vrijednost izrazili kao postotak, dovoljno je pomnožiti je sa 100.

Važno je uzeti u obzir da će učestalost ovisiti ne samo o volumenu teksta, već io njegovoj prirodi. Na primjer, u tehničkim izvorima slovo "F" pojavljuje se mnogo češće nego u fikciji. Stoga, za objektivne rezultate, stručnjak mora upisivati tekstove različite prirode i stila za istraživanje.

programi za analizu frekvencije teksta
programi za analizu frekvencije teksta

Bi-, tri-, četiri grama

U smislenim tekstovima možete pronaći i najčešće (odnosno, najčešćeponovljene) kombinacije dvaju ili više slova. Stručnjaci su također sastavili nekoliko tablica, koje ukazuju na učestalost sličnih digrama različitih abeceda.

Što se tiče ruskog, analiza frekvencija sustava obimnih smislenih tekstova omogućila je utvrđivanje najčešćih bigrama i trigrama:

  • HR.
  • ST.
  • ALI.
  • NE.
  • UKLJUČENO.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NOVO
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Preferirani međusobni odnosi slova

I ovo nisu sve mogućnosti koje analiza frekvencija može pružiti istraživačima teksta. Sistematizacijom informacija iz sličnih tablica bigrama i trigrama moguće je izdvojiti podatke o najčešćim kombinacijama slova. Ili, drugim riječima, njihovi preferirani međusobni odnosi.

Tako opsežno istraživanje već su proveli stručnjaci. Njegov rezultat je bila tablica u kojoj su, uz svako slovo abecede, naznačeni njegovi susjedi. Štoviše, oni likovi koji se često nalaze i neposredno prije i nakon njega. Slova u tablici nisu slučajno napisana. Bliže simbolu, naznačeni su najčešći susjedi, dalje - rjeđi.

Razmotrimo primjere:

  • Slovo "A". Ovdje se razlikuju sljedeće preferirane veze: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Odavde vidimo da najčešće ispred "A" u tekstovima stoji "H" ("NA"). A iza "A" najčešće u tekstovima na ruskom možemo sresti "L"("AL").
  • Slovo "M". Stručnjaci su identificirali takve preferirane veze: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Slovo "b". Preferirane veze su sljedeće: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Slovo "Sh". Preferirane veze: "e-b-a-i-u-Sch-e-i-a".
  • Slovo "P". Preferirane veze s ovim simbolom ruske abecede: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
vremensko-frekvencijska analiza
vremensko-frekvencijska analiza

Što definira analizu?

Moderni programi za analizu teksta učestalosti pomažu u proučavanju velikih količina širokog spektra članaka, eseja, odlomaka i tako dalje. Sljedeće informacije se pružaju istraživaču kao standard:

  • Ukupan broj znakova u tekstu.
  • Broj mjesta koje je koristio autor.
  • Broj znamenki.
  • Informacije o korištenim interpunkcijskim znacima - točkama, zarezima, itd.
  • Broj slova u svakoj od dostupnih abeceda - ćirilica, latinica, itd.
  • Informacija o učestalosti korištenja svakog slova i simbola u tekstu - broj spominjanja i postotak u odnosu na cijeli tekst.

Borba protiv preoptimizacije i prezasićenosti

Zašto se radi analiza učestalosti teksta? Je li to samo u svrhu znatiželje - da se ustanovi koji se likovi u pisanom tekstu često susreću? Ne, glavna primjena analize je praktična i leži negdje drugdje.

N-grami uključuju ne samo stabilne bigrame i trigrame. Na istokategorije uključuju ključne riječi (oznake), kolokacije. To jest, stabilne kombinacije koje se sastoje od dvije ili više riječi. Odlikuje ih činjenica da se takve kompozicije pojavljuju zajedno u tekstu i istovremeno nose određeno semantičko opterećenje.

Ovo ide na ruku beskrupuloznim SEO stručnjacima. U svom radu ponekad zlorabe ponavljanje oznaka i ključnih riječi u tekstu kako bi umjetno povećali relevantnost određene web stranice. Pokušavaju prevariti sustav takvim "trikom": pretvaranjem prirodne kombinacije s uobičajenom kombinacijom riječi, tradicionalnom za ruski jezik ("kupite kaput od minke") u nedosljednu. Odnosno, dobiveno preuređivanjem riječi u takvom prirodnom N-gramu ("kupite kaput od nerca").

Ali danas su algoritmi pretraživanja naučili detektirati pretjeranu optimizaciju jednako učinkovito kao i prekomjernu neželjenu poštu - prezasićenost teksta ključnim riječima, oznakama koje utječu na rangiranje rezultata na stranici za pretraživanje. Preoptimizirane stranice sada su, naprotiv, niže rangirane prema upitu korisnika. I sami ljudi nisu skloni čitati besmislen, prezasićen tekstom oznaka, preferirajući korisne informacije na nekom drugom resursu.

metoda frekvencijske analize
metoda frekvencijske analize

Pomoć privatne analize za SEO stručnjake

Dakle, moderni tekstualni filteri tražilica danas daju prednost onim internetskim stranicama na kojima su informacije ne samo lake za čitanje, već i korisne posjetiteljima. Kako bi optimizirali svoj rad za nove standarde, SEO stručnjacite se okrene frekvencijskoj analizi teksta. Mnoge popularne usluge pružaju ga danas.

Analiza učestalosti pomaže u pregledu teksta koji se priprema za objavu radi informativnosti. Uklonite nepotrebnu suvišnost oznaka i ključnih fraza. Također vam omogućuje da skrenete pozornost autora na neprirodne kombinacije riječi koje izazivaju sumnju u tekstualnim filterima tražilica.

analiza frekvencijskog odziva
analiza frekvencijskog odziva

Analiza frekvencije teksta tako pomaže u određivanju učestalosti spominjanja određenog znaka u izvoru. Metoda se danas koristi za procjenu preopterećenosti teksta oznakama, neprirodnim permutacijama riječi.

Preporučeni: