Жиілікті мәтінді талдау: мүмкіндіктер мен мысалдар

Мазмұны:

Жиілікті мәтінді талдау: мүмкіндіктер мен мысалдар
Жиілікті мәтінді талдау: мүмкіндіктер мен мысалдар
Anonim

Мәтінмен жұмыс істеуге тура келсе, бұл ұғымды өміріңізде бір емес, бірнеше рет кездестірдіңіз. Атап айтқанда, мәтіннің жиілігін талдауды жүзеге асыратын онлайн калькуляторларға жүгінуге болады. Бұл ыңғайлы құралдар мәтіннің кез келген үзіндісінде белгілі бір таңба немесе әріп қанша рет кездесетінін көрсетеді. Көбінесе пайыздық көрсеткіш те көрсетіледі. Бұл не үшін қажет? Мәтінді жиілікті талдау қарапайым шифрлардың «жарылуына» қалай ықпал етеді? Оның мәні неде, оны кім ойлап тапты? Осы және басқа да маңызды сұрақтарға мақала барысында жауап береміз.

Анықтама

Жиіліктік талдау – криптоталдаудың бір түрі. Ол ғалымдардың жеке таңбалардың статистикалық тривиальды емес таралуының және олардың кәдімгі және шифрлы мәтіндегі тұрақты тізбектерінің болуы туралы болжамына негізделген.

Жеке таңбаларды ауыстыруға дейін мұндай тарату шифрлау/шифрды шешу процестерінде де сақталады деп есептеледі.

жүйелердің жиілігін талдау
жүйелердің жиілігін талдау

Процесс сипаттамасы

Енді жиілікті талдауды қарапайым тілмен қарастырайық. Бұл жеткілікті ұзындықтағы мәтіндердегі бірдей алфавиттік таңбаның кездесулерінің саны бір тілде жазылған әртүрлі мәтіндерде бірдей екенін білдіреді.

Ал енді моноалфавиттік шифрлау туралы не деуге болады? Егер шифрланған мәтіні бар бөлімде осындай ықтималдығы бар таңба болса, сол шифрланған әріп деп болжауға болады деп болжанады.

Жиілікті мәтінді талдаудың ізбасарлары диаграммаларға (екі әріп тізбегі) бірдей дәлелді қолданады. Триграммалар - бұл әлдеқашан көп алфавиттік шифрларға арналған.

Әдістің тарихы

Сөздерді жиілікпен талдау қазіргі заманның олжасы емес. Ол ғылым әлеміне 9 ғасырдан бері белгілі. Оның жасалуы Әл-Кинди есімімен байланысты.

Бірақ жиілікті талдау әдісін қолданудың белгілі жағдайлары әлдеқайда кейінгі кезеңге жатады. Мұнда ең жарқын мысал - 1822 жылы Дж.-Ф. Шампольон.

Көркем әдебиетке жүгінетін болсақ, осы шифрды шешу әдісіне қатысты көптеген қызықты сілтемелерді таба аламыз:

  • Конан Дойл - "Билейтін адамдар".
  • Жюль Верн - "Капитан Гранттың балалары".
  • Эдгар По - "Алтын қате".

Алайда өткен ғасырдың ортасынан бастап шифрлауда қолданылатын алгоритмдердің көпшілігі олардың осындай жиіліктік криптоталдауға төзімділігін ескере отырып әзірленді. Сондықтан олбүгінде олар тек болашақ криптографтарды оқыту үшін ғана пайдаланылады.

мәтін жиілігін талдау
мәтін жиілігін талдау

Негізгі әдіс

Енді жиілік реакциясының талдауын егжей-тегжейлі көрсетейік. Талдаудың бұл түрі тесттің сөздерден, ал олар өз кезегінде әріптерден тұратындығына тікелей негізделген. Ұлттық әліпбиді толтыратын әріптер саны шектеулі. Әріптерді осы жерде жай ғана тізімдеуге болады.

Мұндай мәтіннің ең маңызды сипаттамалары әріптердің, әртүрлі биграммалардың, триграммалардың және n-граммалардың қайталануы, сонымен қатар әртүрлі әріптердің бір-бірімен үйлесімділігі, дауыссыз дыбыстардың / дауысты дыбыстардың кезектесуі және т.б. осы таңбалардың түрлері.

Әдістемелердің негізгі идеясы ұлттық әліпбидің әріптерінен (T=t1t2…tl арқылы белгіленеді) ашық мәтіндерде ықтимал n-граммдардың (nm арқылы белгіленеді) кездесулерін санау болып табылады ({a1, a2, …, an}) арқылы белгіленеді. Жоғарыда айтылғандардың барлығы мәтіннің бірнеше дәйекті м-граммдарын тудырады:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Егер бұл белгілі бір мәтінде m-грамм ai1ai2…мақсаттың кездесулерінің саны T болса, ал L - зерттеуші талдаған m-граммдардың жалпы саны болса, онда бұл үшін эмпирикалық түрде анықтауға болады. жеткілікті үлкен L болса, мұндай m-грамның жиіліктері бір-бірінен аздап ерекшеленеді.

жиілікті талдау
жиілікті талдау

Орыс алфавитінің жиі кездесетін әріптері

Бірақ уақыт жиілігін талдау, ұқсас атына қарамастан, әңгімеміздің тақырыбына ешқандай қатысы жоқ. Мұндай талдау үшін жүргізіледіарнайы толқындық түрлендіруді қолданатын төмен байқалатын радиолокациялық станциялардың сигналдары.

Енді негізгі тақырыпқа оралайық. Жиілік талдауын жүргізген кезде сіз орыс әліпбиінің қай әріптері жеткілікті көлемді мәтіндерде жиі кездесетінін біле аласыз (пайыз 0,062-ден 0,018-ге дейін):

  • A.
  • V.
  • D.
  • F.
  • Мен.
  • K.
  • М.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Ш.
  • b.
  • E.
  • Мен.

Тіпті орыс алфавитінің жиі кездесетін әріптерін үйренуге көмектесетін арнайы мнемоникалық ереже де енгізілді. Ол үшін бір ғана сөзді есте сақтау жеткілікті - "шөп жинайтын жер".

Жалпы жағдайларда әріптерді пайыздық мәнде пайдалану жиілігі қарапайым түрде белгіленеді: маман әріптің мәтінде қанша рет кездесетінін санайды, содан кейін алынған мәнді мәтіндегі таңбалардың жалпы санына бөледі. Ал бұл мәнді пайызбен көрсету үшін оны 100-ге көбейту жеткілікті.

Жиілік мәтіннің көлеміне ғана емес, оның сипатына да байланысты болатынын ескеру маңызды. Мысалы, техникалық дереккөздерде «F» әрпі көркем әдебиетке қарағанда әлдеқайда жиі кездеседі. Сондықтан объективті нәтижелерге қол жеткізу үшін маман зерттеу үшін әртүрлі сипаттағы және стильдегі мәтіндерді теруі керек.

мәтін жиілігін талдау бағдарламалары
мәтін жиілігін талдау бағдарламалары

Би-, три-, төрт грамм

Мағыналы мәтіндерден сіз ең жиі кездесетінін де таба аласыз (тиісінше, ең көпқайталанатын) екі немесе одан да көп әріптердің комбинациясы. Сондай-ақ мамандар әртүрлі алфавиттердің ұқсас диаграммаларының жиілігін көрсететін бірнеше кесте құрастырды.

Орыс тіліне келетін болсақ, көлемді мағыналы мәтіндер жүйесін жиілік талдауы ең көп таралған биграммалар мен триграммаларды анықтауға мүмкіндік берді:

  • KK.
  • ST.
  • БІРАҚ.
  • ЖОҚ.
  • ҚОСУ.
  • РА.
  • OV.
  • КО.
  • VO.
  • СТО.
  • ЖАҢА
  • ENO.
  • TOV.
  • ОВА.
  • ОВО.

Әріптердің бір-бірімен таңдаулы қатынасы

Бұл жиілікті талдау мәтінді зерттеушілерге бере алатын барлық мүмкіндіктер емес. Биграммалар мен триграммалардың ұқсас кестелерінен ақпаратты жүйелеу арқылы әріптердің жиі кездесетін тіркесімі туралы мәліметтерді алуға болады. Немесе, басқаша айтқанда, олардың бір-бірімен жақсырақ қарым-қатынасы.

Мұндай ауқымды зерттеуді мамандар қазірдің өзінде жүргізген. Оның нәтижесі әліпбидің әрбір әрпімен бірге көршілері көрсетілген кесте болды. Оның үстіне, оның алдында да, одан кейін де жиі кездесетін кейіпкерлер. Кестедегі әріптер кездейсоқ жазылмайды. Таңбаға жақынырақ, жиі кездесетін көршілер, одан әрі - сирек кездесетіндер көрсетіледі.

Мысалдарды қарастырыңыз:

  • "А" әрпі. Мұнда келесі қолайлы жалғаулар ажыратылады: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Осыдан-ақ мәтіндерде «А»-дан бұрын «Н» («НА») жиі кездесетінін көреміз. Ал орыс тіліндегі мәтіндерде «А»-дан кейін біз «Л»-ді жиі кездестіреміз.(«AL»).
  • "M" әрпі. Сарапшылар мұндай таңдаулы қосылымдарды анықтады: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • "b" әрпі. Таңдаулы қосылымдар келесідей: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • "Ш" әрпі. Таңдаулы қосылымдар: "e-b-a-i-u-Sch-e-i-a".
  • "P" әрпі. Орыс алфавитінің осы белгісімен артықшылықты байланыстар: «v-s-u-a-i-e-o-P-o-r-e-a-u-i-l».
уақыт жиілігін талдау
уақыт жиілігін талдау

Талдау нені анықтайды?

Қазіргі жиіліктегі мәтінді талдау бағдарламалары мақалалардың, эсселердің, үзінділердің және т.б. алуан түрліліктің үлкен көлемін зерттеуге көмектеседі. Келесі ақпарат зерттеушіге стандарт ретінде беріледі:

  • Мәтіндегі таңбалардың жалпы саны.
  • Автор пайдаланған бос орындар саны.
  • Сандар саны.
  • Қолданылатын тыныс белгілері туралы ақпарат - нүктелер, үтірлер, т.б.
  • Қолжетімді алфавиттердің әрқайсысындағы әріптер саны - кириллица, латын және т.б.
  • Мәтіндегі әрбір әріп пен таңбаның қолданылу жиілігі туралы ақпарат – бүкіл мәтінмен салыстырғанда ескертпелердің саны мен пайызы.

Артық оңтайландыру және шамадан тыс қанықтырумен күрес

Мәтін жиілігін талдау не үшін жүргізіледі? Жазбаша мәтіндегі қай кейіпкерлер жиі кездесетінін анықтау үшін ғана қызығушылық үшін бе? Жоқ, талдаудың негізгі қолданысы практикалық және ол басқа жерде жатыр.

N-граммдарға тұрақты биграммалар мен триграммалар ғана емес. Дәл солайкатегорияларға түйінді сөздер (тегтер), коллокациялар жатады. Яғни, екі немесе одан да көп сөзден тұратын тұрақты тіркестер. Олар мұндай композициялардың мәтінде бірге кездесетіндігімен және бір уақытта белгілі бір мағыналық жүкті көтеруімен ерекшеленеді.

Бұл жосықсыз SEO мамандарының қолына түседі. Олар өз жұмыстарында кейде белгілі бір веб-беттің өзектілігін жасанды түрде арттыру мақсатында мәтіндегі тегтер мен түйінді сөздердің қайталануын теріс пайдаланады. Олар жүйені осындай «қулықпен» алдауға тырысады: орыс тіліне дәстүрге айналған сөздердің кәдімгі тіркесімімен табиғи тіркесімді («күзен пальто сатып алу») сәйкес келмейтінге айналдыру. Яғни, осындай табиғи N-граммадағы сөздерді қайта орналастыру арқылы алынған («күзен пальто сатып ал»).

Бірақ бүгінде іздеу алгоритмдері шамадан тыс оңтайландыруды – іздеу бетіндегі нәтижелердің рейтингісіне әсер ететін кілт сөздермен, тегтермен мәтіннің шамадан тыс қанығуы сияқты тиімді анықтауды үйренді. Шамадан тыс оңтайландырылған беттер енді, керісінше, пайдаланушы сұрауы бойынша төменірек. Адамдардың өзі басқа ресурстағы пайдалы ақпаратты таңдап, мағынасыз, тегтерге толы мәтінді оқуға бейім емес.

жиілікті талдау әдісі
жиілікті талдау әдісі

SEO мамандары үшін жеке талдауға көмектесу

Осылайша, қазіргі заманғы іздеу жүйесінің мәтіндік сүзгілері бүгінде ақпарат оқуға оңай ғана емес, сонымен қатар келушілерге де пайдалы интернет беттеріне артықшылық береді. Жаңа стандарттар үшін өз жұмысын оңтайландыру үшін SEO мамандарыжәне мәтіннің жиілік талдауына жүгініңіз. Оны бүгінде көптеген танымал қызметтер қамтамасыз етеді.

Жиілікті талдау жариялануға дайындалып жатқан мәтінді ақпараттылығы үшін қарап шығуға көмектеседі. Тегтер мен негізгі сөз тіркестерінің қажетсіз артықшылығын жойыңыз. Сондай-ақ ол іздеу жүйелерінің мәтіндік сүзгілерінде күдік тудыратын сөздердің табиғи емес тіркесіміне автордың назарын аударуға мүмкіндік береді.

жиілік реакциясын талдау
жиілік реакциясын талдау

Мәтіннің жиілік талдауы осылайша дереккөздегі белгілі бір кейіпкердің айтылу жиілігін анықтауға көмектеседі. Әдіс бүгін мәтіннің тегтермен шамадан тыс жүктелуін, сөздердің табиғи емес ауыстырылуын бағалау үшін қолданылады.

Ұсынылған: