Frekvenčna analiza besedila: značilnosti in primeri

Kazalo:

Frekvenčna analiza besedila: značilnosti in primeri
Frekvenčna analiza besedila: značilnosti in primeri
Anonim

S tem konceptom ste se srečali več kot enkrat v življenju, če bi morali delati z besedili. Zlasti se lahko obrnete na spletne kalkulatorje, ki izvajajo natančno frekvenčno analizo besedila. Ta priročna orodja kažejo, kolikokrat se določen znak ali črka pojavi v katerem koli odlomku besedila. Pogosto je prikazan tudi odstotek. Zakaj je to potrebno? Kako frekvenčna analiza besedila prispeva k »pokanju« preprostih šifr? Kaj je njegovo bistvo, kdo ga je izumil? Na ta in druga pomembna vprašanja na to temo bomo odgovorili v okviru članka.

Definicija

Frekvenčna analiza je ena od vrst kriptoanalize. Temelji na domnevi znanstvenikov o obstoju statistične netrivialne porazdelitve posameznih znakov in njihovih rednih zaporedij tako v navadnem kot v šifriranem besedilu.

Meni je, da bo takšna porazdelitev, do zamenjave posameznih znakov, ohranjena tudi v procesih šifriranja/dešifriranja.

frekvenčna analiza sistemov
frekvenčna analiza sistemov

Procesna značilnost

Sedaj si oglejmo analizo frekvenc na preprost način. To pomeni, da je število pojavljanj istega abecednega znaka v dovolj dolgih besedilih enako v različnih besedilih, napisanih v istem jeziku.

In kaj pa enoabecedno šifriranje? Predpostavlja se, da če je znak s tako podobno verjetnostjo pojavljanja v razdelku s šifriranim besedilom, potem je realno domnevati, da je to tista šifrirana črka.

Spremljevalci frekvenčne analize besedila uporabljajo enako sklepanje za digrame (zaporedja dveh črk). Trigrami - to velja za že večabecedne šifre.

Zgodovina metode

Frekvenčna analiza besed ni najdba modernosti. Znanstvenemu svetu je znan že od 9. stoletja. Njegovo ustvarjanje je povezano z imenom Al-Kindi.

Toda znani primeri uporabe metode frekvenčne analize sodijo v veliko poznejše obdobje. Najbolj presenetljiv primer tukaj je dešifriranje egipčanskih hieroglifov, ki jih je leta 1822 izdelal J.-F. Champollion.

Če se obrnemo na leposlovje, lahko najdemo veliko zanimivih sklicevanj na to metodo dešifriranja:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Otroci kapitana Granta".
  • Edgar Poe - "Gold Bug".

Vendar je bila od sredine prejšnjega stoletja večina algoritmov, ki se uporabljajo pri šifriranju, razvitih ob upoštevanju njihove odpornosti na takšno frekvenčno kriptoanalizo. Zato jedanes se najpogosteje uporabljajo samo za usposabljanje bodočih kriptografov.

analiza frekvence besedila
analiza frekvence besedila

Osnovna metoda

Predstavimo podrobno analizo frekvenčnega odziva. Ta vrsta analize neposredno temelji na dejstvu, da je test sestavljen iz besed, te pa iz črk. Število črk, ki zapolnjujejo nacionalne abecede, je omejeno. Črke lahko preprosto navedete tukaj.

Najpomembnejše značilnosti takšnega besedila bodo tako ponavljanje črk, različnih bigramov, trigramov in n-gramov, kot tudi združljivost različnih črk med seboj, menjavanje soglasnikov/samoglasnikov in drugo vrste teh simbolov.

Glavna ideja metod je štetje pojavov možnih n-gramov (označenih z nm) v dovolj dolgih odprtih besedilih (označeno s T=t1t2…tl), sestavljenih iz črk nacionalne abecede (označeno z {a1, a2, …, an}). Vse našteto povzroči nekaj zaporednih m-gramov besedila:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Če je to število pojavov m-grama ai1ai2…aim v določenem besedilu T in je L skupno število m-gramov, ki jih analizira raziskovalec, potem je mogoče empirično ugotoviti, da za dovolj velik L, se bodo frekvence za tak m-gram med seboj malo razlikovale.

frekvenčna analiza
frekvenčna analiza

Pogosto pojavljajoče se črke ruske abecede

A časovno-frekvenčna analiza kljub podobnemu imenu nima nič skupnega s temo našega pogovora. Ta vrsta analize se izvaja zasignali nizko opaznih radarskih postaj s posebno valovno transformacijo.

Zdaj se vrnimo k glavni temi. Pri izvajanju frekvenčne analize lahko ugotovite, katere črke ruske abecede se najpogosteje nahajajo v precej obsežnih besedilih (odstotek od 0,062 do 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Uvedeno je celo posebno mnemonično pravilo, ki pomaga pri učenju najpogostejših črk ruske abecede. Če želite to narediti, je dovolj, da se spomnite samo ene besede - "senik".

V splošnih primerih je pogostost uporabe črk v odstotkih nastavljena preprosto: specialist prešteje, kolikokrat se črka pojavi v besedilu, nato pa dobljeno vrednost deli s skupnim številom znakov v besedilu. In da to vrednost izrazimo v odstotkih, je dovolj, da jo pomnožimo s 100.

Upoštevati je treba, da pogostost ni odvisna samo od obsega besedila, ampak tudi od njegove narave. Na primer, v tehničnih virih se črka "F" pojavlja veliko pogosteje kot v leposlovju. Zato mora specialist za objektivne rezultate vtipkati besedila različne narave in sloga za raziskavo.

programi za analizo frekvence besedila
programi za analizo frekvence besedila

Bi-, tri-, štirigrami

V smiselnih besedilih lahko najdete tudi najpogostejša (oziroma najboljponavljajoče se) kombinacije dveh ali več črk. Strokovnjaki so sestavili tudi več tabel, ki označujejo frekvence podobnih digramov različnih abeced.

V ruščini je frekvenčna analiza sistemov obsežnih smiselnih besedil omogočila določitev najpogostejših bigramov in trigramov:

  • SL.
  • ST.
  • AMPAK.
  • NE.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NOVO
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Prednostna razmerja med črkami

In to niso vse možnosti, ki jih frekvenčna analiza lahko ponudi raziskovalcem besedil. S sistematizacijo informacij iz podobnih tabel bigramov in trigramov je mogoče izluščiti podatke o najpogostejših kombinacijah črk. Ali, z drugimi besedami, njuni prednostni odnosi med seboj.

Tako obsežno študijo so strokovnjaki že izvedli. Njegov rezultat je bila tabela, kjer so bili poleg vsake črke abecede navedeni njeni sosedje. Poleg tega tisti znaki, ki jih pogosto najdemo tik pred njim in za njim. Črke v tabeli niso naključno zapisane. Bližje simbolu so navedeni najpogostejši sosedje, naprej - bolj redki.

Razmislite o primerih:

  • Črka "A". Tu se razlikujejo naslednje prednostne povezave: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Od tu vidimo, da je najpogosteje pred "A" v besedilih "H" ("NA"). In za "A" najpogosteje v besedilih v ruščini lahko srečamo "L"("AL").
  • Črka "M". Strokovnjaki so ugotovili takšne prednostne povezave: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Črka "b". Prednostne povezave so naslednje: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Črka "Sh". Prednostne povezave: "e-b-a-i-u-Sch-e-i-a".
  • Črka "P". Prednostne povezave s tem simbolom ruske abecede: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
časovno-frekvenčna analiza
časovno-frekvenčna analiza

Kaj definira analizo?

Sodobni frekvenčni programi za analizo besedila pomagajo pri preučevanju velikih količin najrazličnejših člankov, esejev, odlomkov itd. Raziskovalcu se standardno zagotovijo naslednje informacije:

  • Skupno število znakov v besedilu.
  • Število prostorov, ki jih je uporabil avtor.
  • Število števk.
  • Informacije o uporabljenih ločilih - pike, vejice itd.
  • Število črk v vsaki od razpoložljivih abeced - cirilica, latinica itd.
  • Informacija o pogostosti uporabe vsake črke in simbola v besedilu - število omemb in odstotek v primerjavi s celotnim besedilom.

Boj proti preoptimizaciji in prenasičenosti

Zakaj se izvaja analiza frekvence besedila? Ali je to zgolj zaradi radovednosti – ugotoviti, kateri znaki v napisanem besedilu so se izkazali za pogoste? Ne, glavna uporaba analize je praktična in leži drugje.

N-grami vključujejo ne samo stabilne bigrame in trigrame. Na istokategorije vključujejo ključne besede (oznake), kolokacije. Se pravi stabilne kombinacije, sestavljene iz dveh ali več besed. Odlikuje jih dejstvo, da se takšne kompozicije pojavljajo skupaj v besedilu in hkrati nosijo določeno pomensko obremenitev.

To igra v roke brezvestnim strokovnjakom za SEO. Pri svojem delu včasih zlorabljajo ponavljanje oznak in ključnih besed v besedilu, da bi umetno povečali relevantnost določene spletne strani. Sistem poskušajo zavajati s takšnim "trikom": spreminjanje naravne kombinacije z običajno kombinacijo besed, ki je tradicionalno za ruski jezik ("kupi kun plašč") v nedosledno. Se pravi, pridobljeno s prerazporeditvijo besed v tako naravnem N-gramu ("kupi kun plašč").

Toda danes so se iskalni algoritmi naučili odkrivati preveliko optimizacijo tako učinkovito kot prekomerno neželeno pošto – prenasičenost besedila s ključnimi besedami, oznakami, ki vplivajo na uvrstitev rezultatov na iskalni strani. Preveč optimizirane strani so zdaj, nasprotno, po uporabnikovi poizvedbi uvrščene nižje. In ljudje sami ne berejo nesmiselnega, prenasičenega z oznakami besedila, raje imajo koristne informacije o drugem viru.

metoda frekvenčne analize
metoda frekvenčne analize

Pomoč zasebni analizi za strokovnjake za SEO

Tako dajejo sodobni besedilni filtri iskalnikov dandanes prednost tistim internetnim stranem, na katerih informacije niso le lahko berljive, ampak tudi uporabne za obiskovalce. Da bi optimizirali svoje delo za nove standarde, strokovnjaki za SEOin se obrnite na frekvenčno analizo besedila. Danes ga ponujajo številne priljubljene storitve.

Frekvenčna analiza pomaga pregledati besedilo, ki se pripravlja za objavo, zaradi informativnosti. Odpravite nepotrebno odvečnost oznak in ključnih besednih zvez. Omogoča tudi, da opozorite avtorja na nenaravne kombinacije besed, ki zbujajo sum v besedilnih filtrih iskalnikov.

analiza frekvenčnega odziva
analiza frekvenčnega odziva

Frekvenčna analiza besedila tako pomaga določiti pogostost omembe določenega znaka v viru. Metoda se danes uporablja za oceno preobremenjenosti besedila z oznakami, nenaravnimi permutacijami besed.

Priporočena: