Frequency metin analizi: özellikler ve örnekler

İçindekiler:

Frequency metin analizi: özellikler ve örnekler
Frequency metin analizi: özellikler ve örnekler
Anonim

Metinlerle çalışmak zorunda kaldıysanız, bu kavramla hayatınızda bir kereden fazla karşılaşmışsınızdır. Özellikle metnin frekans analizini tam olarak yapan çevrimiçi hesaplayıcılara başvurabilirsiniz. Bu kullanışlı araçlar, herhangi bir metin pasajında belirli bir karakter veya harfin kaç kez geçtiğini gösterir. Genellikle bir yüzde de gösterilir. Bu neden gerekli? Metnin frekans analizi, basit şifrelerin "kırılmasına" nasıl katkıda bulunur? Özü nedir, kim icat etti? Bu ve konuyla ilgili diğer önemli soruları makalenin akışında cevaplayacağız.

Tanım

Frekans analizi, kriptanalizin çeşitlerinden biridir. Bilim adamlarının, hem düz hem de şifreli metinde bireysel karakterlerin ve bunların düzenli sıralarının önemsiz olmayan istatistiksel bir dağılımının varlığına ilişkin varsayımına dayanır.

Böyle bir dağıtımın, tek tek karakterlerin değiştirilmesine kadar şifreleme/şifre çözme işlemlerinde de korunacağına inanılmaktadır.

sistemlerin frekans analizi
sistemlerin frekans analizi

Süreç özelliği

Şimdi basit terimlerle frekans analizine bir göz atalım. Bu, aynı dilde yazılmış farklı metinlerde yeterli uzunluktaki metinlerde aynı alfabetik karakterin geçiş sayısının aynı olduğu anlamına gelir.

Peki ya monoalfabetik şifreleme? Şifreli metinli bölümde bu kadar benzer bir meydana gelme olasılığına sahip bir karakter varsa o şifreli harf olduğunu varsaymak gerçekçi olur.

Sıklık metni analizinin takipçileri, aynı akıl yürütmeyi digramlara (iki harfli diziler) uygular. Trigramlar - bu zaten polialfabetik şifreler için geçerlidir.

Yöntemin tarihi

Kelimelerin frekans analizi, modernitenin bir bulgusu değildir. 9. yüzyıldan beri bilim dünyası tarafından bilinmektedir. Yaratılışı Al-Kindi adıyla ilişkilidir.

Fakat frekans analizi yönteminin bilinen uygulama durumları çok daha sonraki bir döneme aittir. Buradaki en çarpıcı örnek, 1822'de J.-F. tarafından üretilen Mısır hiyerogliflerinin deşifre edilmesidir. Champollion.

Kurguya dönersek, bu şifre çözme yöntemine birçok ilginç referans bulabiliriz:

  • Conan Doyle - "Dans Eden Adamlar".
  • Jules Verne - "Kaptan Grant'in Çocukları".
  • Edgar Poe - "Altın Böcek".

Ancak, geçen yüzyılın ortalarından beri, şifrelemede kullanılan algoritmaların çoğu, bu tür frekans kriptanalizine karşı dirençleri dikkate alınarak geliştirilmiştir. Bu nedenlebugün çoğunlukla yalnızca geleceğin kriptograflarını eğitmek için kullanılıyorlar.

metin sıklığı analizi
metin sıklığı analizi

Temel yöntem

Şimdi frekans tepkisi analizini detaylı olarak sunalım. Bu tür bir analiz, doğrudan testin kelimelerden ve sırayla harflerden oluştuğu gerçeğine dayanır. Ulusal alfabeleri dolduran harf sayısı sınırlıdır. Harfler burada basitçe listelenebilir.

Böyle bir metnin en önemli özelliği, hem harflerin, çeşitli bigramların, trigramların ve n-gramların tekrarı, hem de çeşitli harflerin birbiriyle uyumluluğu, ünsüzlerin / ünlülerin ve diğer harflerin birbirini izlemesi olacaktır. bu sembollerin çeşitleri.

Yöntemlerin ana fikri, ulusal alfabenin harflerinden oluşan (T=t1t2…tl ile gösterilir) analiz için yeterince uzun düz metinlerdeki olası n-gramların (nm ile gösterilir) oluşumlarını saymaktır ({a1, a2, …, an}) ile gösterilir. Yukarıdakilerin tümü metnin bazı ardışık m-gramlarına neden olur:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Bu, belirli bir metin T'de m-gram ai1ai2…amacının oluşum sayısıysa ve L, araştırmacı tarafından analiz edilen toplam m-gram sayısıysa, ampirik olarak şunu belirlemek mümkündür: yeterince büyük L, böyle bir m-gram için frekanslar birbirinden biraz farklı olacaktır.

frekans analizi
frekans analizi

Rus alfabesinde sık görülen harfler

Ancak zaman-frekans analizi, benzer isme rağmen, konuşmamızın konusuyla hiçbir ilgisi yok. Bu tür analizler şu amaçlarla yapılır:özel bir dalgacık dönüşümü kullanan düşük gözlemlenebilir radar istasyonlarından gelen sinyaller.

Şimdi asıl konuya dönelim. Bir frekans analizi yaparken, oldukça hacimli metinlerde Rus alfabesinin hangi harflerinin en sık bulunduğunu öğrenebilirsiniz (yüzde 0.062 ila 0.018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Şş.
  • b.
  • E.
  • I.

Rus alfabesinin en yaygın harflerini öğrenmeye yardımcı olan özel bir anımsatıcı kural bile getirildi. Bunu yapmak için sadece bir kelimeyi hatırlamanız yeterlidir - "hayloft".

Genel durumlarda, harflerin kullanım sıklığı yüzde cinsinden basitçe ayarlanır: uzman harfin metinde kaç kez geçtiğini sayar, ardından elde edilen değeri metindeki toplam karakter sayısına böler. Ve bu değeri yüzde olarak ifade etmek için 100 ile çarpmak yeterlidir.

Sıklığın yalnızca metnin hacmine değil, doğasına da bağlı olacağını düşünmek önemlidir. Örneğin, teknik kaynaklarda "F" harfi kurgudan çok daha sık görülür. Bu nedenle, nesnel sonuçlar için bir uzman, araştırma için çeşitli doğa ve tarzdaki metinleri yazmalıdır.

metin sıklığı analiz programları
metin sıklığı analiz programları

Bi-, tri-, dört gram

Anlamlı metinlerde ayrıca en yaygın olanı (sırasıyla en çoktekrarlanan) iki veya daha fazla harfin kombinasyonları. Uzmanlar ayrıca çeşitli alfabelerdeki benzer diyagramların frekanslarını gösteren birkaç tablo derlediler.

Rusça'ya gelince, hacimli anlamlı metinlerin sistemlerinin frekans analizi, en yaygın bigram ve trigramların oluşturulmasını mümkün kıldı:

  • TR.
  • ST.
  • AMA.
  • DEĞİL.
  • AÇIK.
  • RA.
  • OV.
  • KO.
  • SES.
  • STO.
  • YENİ
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Birbiriyle tercih edilen harf ilişkileri

Ve frekans analizinin metin araştırmacılarına sağlayabileceği tüm olasılıklar bu değil. Benzer bigram ve trigram tablolarından bilgileri sistematik hale getirerek, en yaygın harf kombinasyonları hakkında veri çıkarmak mümkündür. Veya başka bir deyişle, birbirleriyle tercih ettikleri ilişkiler.

Böylesine kapsamlı bir çalışma zaten uzmanlar tarafından yapılmıştır. Sonuç, alfabenin her harfiyle birlikte komşularının belirtildiği bir tabloydu. Ayrıca, genellikle hem hemen öncesinde hem de sonrasında bulunan karakterler. Tablodaki harfler tesadüfen yazılmamıştır. Sembole daha yakın, en sık görülen komşular belirtilir, ayrıca - daha nadir olanlar.

Örnekleri düşünün:

  • "A" harfi. Aşağıdaki tercih edilen bağlantılar burada ayırt edilir: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Buradan, metinlerde en sık "A" dan önce "H" ("NA") olduğunu görüyoruz. Ve çoğu zaman Rusça metinlerde "A" dan sonra "L" ile tanışabiliriz.("AL").
  • "M" harfi. Uzmanlar bu tür tercih edilen bağlantıları belirlediler: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • "b" harfi. Tercih edilen bağlantılar aşağıdaki gibidir: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • "S" harfi. Tercih edilen bağlantılar: "e-b-a-i-u-Sch-e-i-a".
  • "P" harfi. Rus alfabesinin bu sembolü ile tercih edilen bağlantılar: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
zaman-frekans analizi
zaman-frekans analizi

Analizimi ne tanımlar?

Modern frekans metin analizi programları, çok çeşitli makaleler, denemeler, pasajlar vb.'den oluşan büyük hacimli çalışmaları incelemeye yardımcı olur. Aşağıdaki bilgiler araştırmacıya standart olarak sağlanmaktadır:

  • Metindeki toplam karakter sayısı.
  • Yazar tarafından kullanılan boşluk sayısı.
  • Rakam sayısı.
  • Kullanılan noktalama işaretleri - noktalar, virgüller vb. hakkında bilgiler
  • Mevcut alfabelerin her birindeki harf sayısı - Kiril, Latin vb.
  • Metindeki her harf ve sembolün kullanım sıklığı hakkında bilgi - tüm metne kıyasla bahsetme sayısı ve yüzdesi.

Aşırı optimizasyon ve aşırı doygunluğa karşı mücadele

Metin sıklığı analizi neden yapılır? Sadece merak amacıyla mı - yazılı metinde hangi karakterlere sıkça rastlandığını belirlemek için mi? Hayır, analizin ana uygulaması pratiktir ve başka bir yerdedir.

N-gramlar yalnızca kararlı bigramları ve trigramları içermez. Aynısıkategoriler, anahtar kelimeleri (etiketler), eşdizimleri içerir. Yani, iki veya daha fazla kelimeden oluşan kararlı kombinasyonlar. Bu tür kompozisyonların metinde bir arada bulunması ve aynı zamanda belirli bir anlam yükü taşıması ile ayırt edilirler.

Bu, vicdansız SEO uzmanlarının işine geliyor. Çalışmalarında, belirli bir web sayfasının alaka düzeyini yapay olarak artırmak için bazen metindeki etiketlerin ve anahtar kelimelerin tekrarını kötüye kullanırlar. Sistemi böyle bir "hile" ile aldatmaya çalışıyorlar: Rus dili için geleneksel olan ("bir vizon ceket satın al") olağan kelime kombinasyonuyla doğal bir kombinasyonu tutarsız bir hale getirmek. Yani, kelimeleri böyle doğal bir N-gram'da yeniden düzenleyerek elde edilir ("bir vizon ceket satın alın").

Ancak bugün, arama algoritmaları, aşırı spam kadar etkili bir şekilde aşırı optimizasyonu tespit etmeyi öğrendi - metnin anahtar kelimelerle aşırı doygunluğu, arama sayfasındaki sonuçların sıralamasını etkileyen etiketler. Aşırı optimize edilmiş sayfalar artık tam tersine, kullanıcının sorgusuna göre daha alt sıralarda yer alıyor. Ve insanların kendileri, başka bir kaynakla ilgili faydalı bilgileri tercih ederek, anlamsız, etiket metinleriyle aşırı doygunluk gösterme eğiliminde değiller.

frekans analiz yöntemi
frekans analiz yöntemi

SEO uzmanları için özel analize yardımcı olma

Bu nedenle, günümüzde modern arama motoru metin filtreleri, bilgileri yalnızca okunması kolay değil, aynı zamanda ziyaretçiler için de yararlı olan İnternet sayfalarını tercih etmektedir. SEO uzmanları çalışmalarını yeni standartlar için optimize etmek içinve metnin frekans analizine dönün. Birçok popüler hizmet bunu bugün sağlıyor.

Sıklık analizi, yayına hazırlanan metnin bilgilendirici olması açısından gözden geçirilmesine yardımcı olur. Gereksiz etiket ve anahtar sözcük fazlalığını ortadan kaldırın. Ayrıca, arama motorlarının metin filtrelerinde şüphe uyandıran doğal olmayan kelime kombinasyonlarına yazarın dikkatini çekmenizi sağlar.

frekans yanıtı analizi
frekans yanıtı analizi

Metnin frekans analizi böylece kaynakta belirli bir karakterin bahsedilme sıklığını belirlemeye yardımcı olur. Yöntem bugün, etiketlerle aşırı metin yüklemesini, kelimelerin doğal olmayan permütasyonlarını değerlendirmek için kullanılmaktadır.

Önerilen: