Borpus dilbilimi nedir?

İçindekiler:

Borpus dilbilimi nedir?
Borpus dilbilimi nedir?
Anonim

Birkaç on yıl önce, bilim adamları yalnızca dil araştırmalarını otomatikleştirmeyi hayal edebiliyorlardı. İş elle yapıldı, çok sayıda öğrenci dahil oldu, önemli bir "dikkatsizlik" hatası olasılığı vardı ve en önemlisi, hepsi çok, çok zaman aldı.

Bilgisayar teknolojisinin gelişmesiyle, çok daha hızlı araştırma yapmak mümkün hale geldi ve bugün dil araştırmalarında gelecek vaat eden alanlardan biri de korpus dilbilimdir. Başlıca özelliği, tek bir veritabanında birleştirilmiş, özel bir şekilde işaretlenmiş ve bir derlem adı verilen büyük miktarda metinsel bilginin kullanılmasıdır.

Bugün, milyonlarca ila on milyarlarca sözcük birimini kapsayan, farklı dil materyallerine dayalı olarak farklı amaçlar için oluşturulmuş birçok derlem var. Bu yön umut verici olarak kabul edilir ve uygulamalı ve araştırma hedeflerine ulaşmada önemli ilerleme gösterir. Profesyoneller, şu ya da bu şekildedoğal dil, en azından temel düzeyde metin külliyatına aşina olmanız önerilir.

Borpus dilbiliminin tarihi

Bu yönün oluşumu, geçen yüzyılın 60'larının başlarında ABD'de Brown Corps'un yaratılmasıyla bağlantılıdır. Metin koleksiyonu sadece 1 milyon kelime formundan oluşuyordu ve bugün böyle bir ciltten oluşan bir külliyat tamamen rekabetsiz olurdu. Bu büyük ölçüde bilgisayar teknolojisinin gelişme hızından ve yeni araştırma kaynaklarına yönelik artan talepten kaynaklanmaktadır.

90'larda derlem dilbilimi tam teşekküllü ve bağımsız bir disiplin haline geldi, metin koleksiyonları derlendi ve birkaç düzine dil için işaretlendi. Bu dönemde, örneğin, 100 milyon kelime kullanımı için British National Corpus oluşturuldu.

korpus dilbilimi
korpus dilbilimi

Dilbilimin bu yönü geliştikçe, metinlerin hacmi büyür (ve milyarlarca kelime birimine ulaşır) ve işaretleme giderek daha çeşitli hale gelir. Bugün, İnternet alanında, diğer birçok çeşidin yanı sıra, kurgu veya akademik literatüre odaklanan, çok dilli ve eğitici, yazılı ve sözlü konuşma külliyatını bulabilirsiniz.

Hangi vakalar var

Derlem dilbilimindeki derlem türleri çeşitli şekillerde temsil edilebilir. Sınıflandırmanın temelinin metinlerin dili (Rusça, Almanca), erişim modu (açık kaynak, kapalı kaynak, ticari), kaynak malzemenin türü (kurgu) olabileceği sezgisel olarak açıktır.edebiyat, belgesel, akademik, gazetecilik).

korpus dilbilim yöntemleri
korpus dilbilim yöntemleri

İlginç bir şekilde, sözlü konuşmayı temsil eden materyallerin üretilmesi gerçekleştirilir. Bu tür konuşmaların kasıtlı olarak kaydedilmesi, muhataplar için yapay koşullar yaratacağından ve ortaya çıkan materyalin "kendiliğinden" olarak adlandırılamayacağından, modern korpus dilbilimi diğer tarafa gitti. Gönüllüye mikrofon takılır ve gün boyunca katıldığı tüm konuşmalar kayıt altına alınır. Etraftaki insanlar elbette günlük bir konuşma sırasında bilimin gelişimine katkıda bulunduklarını bilemezler.

Daha sonra alınan ses kayıtları veri bankasında saklanır ve döküm gibi basılı metinler eşlik eder. Bu şekilde, günlük konuşma konuşmalarından oluşan bir külliyat oluşturmak için gereken işaretleme mümkün hale gelir.

Uygulama

Dili kullanmanın mümkün olduğu yerlerde, metin külliyatını kullanmak da mümkündür. Derlem yöntemlerini dilbilimde kullanmanın amacı şunlar olabilir:

  • Sırasıyla seçmenlerden ve müşterilerden gelen olumlu ve olumsuz geri bildirimleri izlemek için siyasette ve iş dünyasında yaygın olarak kullanılan duyarlılık programları oluşturmak.
  • Performanslarını artırmak için bilgi sistemini sözlüklere ve çevirmenlere bağlama.
  • Dilin yapısını, gelişiminin tarihini ve yakın gelecekte değişiminin tahminlerini anlamaya katkıda bulunan çeşitli araştırma görevleri.
  • Morfolojik temelli bilgi çıkarma sistemlerinin geliştirilmesi,sözdizimsel, anlamsal ve diğer özellikler.
  • Çeşitli dil sistemlerinin çalışmasının optimizasyonu vb.

Kabukları kullanma

Kaynak arayüzü tipik bir arama motoruna benzer ve kullanıcıdan bilgi tabanında arama yapmak için bir kelime veya kelime kombinasyonu girmesini ister. Kesin talep formuna ek olarak, neredeyse tüm dil kriterlerine göre metinsel bilgileri bulmanızı sağlayan genişletilmiş sürümü kullanabilirsiniz.

bilgisayar ve korpus dilbilimi
bilgisayar ve korpus dilbilimi

Aramanın temeli şunlar olabilir:

  • konuşmanın belirli bir grubuna ait olmak;
  • dil bilgisi özellikleri;
  • semantik;
  • üslupsal ve duygusal renklendirme.

Ayrıca, bir kelime dizisi için arama kriterlerini birleştirebilirsiniz: örneğin, bir fiilin şimdiki zamanda, birinci tekil şahıs, tekil ve ardından "in" edatını ve ismin durumundaki tüm oluşumlarını bulun. Bu kadar basit bir görevi çözmek, kullanıcının birkaç saniyesini alır ve verilen alanlarda yalnızca birkaç fare tıklaması gerektirir.

Oluşturma süreci

Aramanın kendisi hem tüm alt birimlerde hem de belirli bir hedefe ulaşırken ihtiyaçlara bağlı olarak özel olarak seçilen birinde gerçekleştirilebilir:

  1. Öncelikle derlemin temelini hangi metinlerin oluşturacağı belirlenir. Pratik amaçlar için, gazetecilik, gazete materyalleri, İnternet yorumları sıklıkla kullanılır. Araştırma projelerinde en çokçeşitli derlem türleri, ancak metinler bazı ortak temellere göre seçilmelidir.
  2. Ortaya çıkan metin seti ön işleme tabi tutulur, varsa hatalar düzeltilir, metnin bibliyografik ve dil dışı açıklaması hazırlanır.
  3. Metinsel olmayan tüm bilgiler filtrelenir: grafikler, resimler, tablolar silinir.
  4. Belirteçler, genellikle kelimeler, daha sonraki işlemler için tahsis edilir.
  5. Son olarak, ortaya çıkan öğe kümesinin morfolojik, sözdizimsel ve diğer işaretlemeleri gerçekleştirilir.

Yapılan tüm işlemlerin sonucu, her biri için konuşmanın bir parçası, dilbilgisi ve bazı durumlarda anlamsal özelliklerin tanımlandığı, üzerine dağıtılmış bir dizi öğeye sahip sözdizimsel bir yapıdır.

Vaka oluşturmanın zorlukları

Bir bütünce elde etmek için çok sayıda kelime veya cümleyi bir araya getirmenin yeterli olmadığını anlamak önemlidir. Bir yandan, bir metin koleksiyonunun dengelenmesi, yani farklı metin türlerinin belirli oranlarda sunulması gerekir. Öte yandan, davanın içeriği özel bir şekilde işaretlenmelidir.

Zakharov korpus dilbilimi
Zakharov korpus dilbilimi

İlk sorun anlaşmayla çözülür: örneğin, koleksiyon kurmaca metinlerin %60'ını, belgesellerin %20'sini içerir, sözlü konuşmanın, yasama eylemlerinin, bilimsel makalelerin vb. yazılı sunumuna belirli bir oran verilir.. Dengeli bir külliyat için ideal tarif bugün mevcut değil.

İçerik işaretlemeyle ilgili ikinci soruyu çözmek daha zordur. Metinlerin otomatik olarak işaretlenmesi için kullanılan özel programlar ve algoritmalar vardır, ancak bunlar %100 sonuç vermez, arızalara neden olabilir ve manuel iyileştirme gerektirebilir. Bu sorunu çözmedeki fırsatlar ve sorunlar, V. P. Zakharov'un korpus dilbilimi konusundaki çalışmasında ayrıntılı olarak açıklanmaktadır.

Metin işaretleme, aşağıda listeleyeceğimiz birkaç düzeyde gerçekleştirilir.

Morfolojik işaretleme

Okul bankından, Rus dilinde konuşmanın farklı bölümleri olduğunu ve her birinin kendine has özellikleri olduğunu hatırlıyoruz. Örneğin, bir fiil, bir ismin sahip olmadığı ruh hali ve zaman kategorilerine sahiptir. Anadili İngilizce olan bir kişi tereddüt etmeden isimleri reddeder ve fiilleri çeker, ancak el emeği 100 milyon kelimelik bir derlemi işaretlemek için uygun değildir. Gerekli tüm işlemler bir bilgisayar tarafından yapılabilir, ancak bunun için öğretilmesi gerekir.

Morfolojik işaretleme, bilgisayarın her kelimeyi konuşmanın belirli gramer özelliklerine sahip bir parçası olarak "anlaması" için gereklidir. Rusçada (herhangi bir dilde olduğu gibi) bir dizi düzenli kural çalıştığından, makineye bir dizi algoritma koyarak morfolojik analiz için otomatik bir prosedür oluşturmak mümkündür. Bununla birlikte, kuralın istisnaları ve çeşitli karmaşık faktörler vardır. Sonuç olarak, günümüzde saf bilgisayar analizi ideal olmaktan uzaktır ve %4'lük hata bile, manuel iyileştirme gerektiren 100 milyon birimlik bir derlemde 4 milyon kelimelik bir değer verir.

Bu sorun, V. P. Zakharov'un "Corpus Linguistics" adlı kitabında ayrıntılı olarak açıklanmıştır.

Sözdizimsel işaretleme

Sözdizimsel analiz veya ayrıştırma, bir cümledeki kelimelerin ilişkisini belirleyen bir prosedürdür. Bir dizi algoritma yardımıyla metindeki özne, yüklem, eklemeler ve çeşitli konuşma dönüşlerini belirlemek mümkün hale gelir. Dizideki hangi kelimelerin ana ve hangilerinin bağımlı olduğunu bularak, metinden verimli bir şekilde bilgi alabilir ve makineyi bir arama isteğine yanıt olarak yalnızca ilgilendiğimiz bilgileri döndürmesi için eğitebiliriz.

Rus üniversitelerinde korpus dilbilim laboratuvarları
Rus üniversitelerinde korpus dilbilim laboratuvarları

Bu arada, modern arama motorları, "bir elmada kaç kalori var" veya "Moskova'dan St. Petersburg'a olan mesafe" gibi ilgili sorulara yanıt olarak uzun metinler yerine belirli sayılar vermek için bunu kullanır. Bununla birlikte, açıklanan sürecin en temellerini bile anlamak için "Borpus Dilbilimine Giriş" veya başka bir temel ders kitabına aşina olmanız gerekir.

Semantik işaretleme

Bir kelimenin anlamı, basit bir ifadeyle anlamıdır. Semantik analizde yaygın olarak uygulanabilir bir yaklaşım, etiketlerin bir kelimeye atfedilmesidir ve onun bir dizi semantik kategoriye ve alt kategoriye ait olduğunu yansıtır. Bu tür bilgiler, metin duyarlılığı analiz algoritmalarını optimize etmek, otomatik referans vermek ve bütünce dilbilim yöntemlerini kullanarak diğer görevleri gerçekleştirmek için değerlidir.

Ağacın bir takım "kökleri" vardır, bunlar soyut kelimelerdir.çok geniş anlambilim. Bu ağaç dallandıkça, giderek daha spesifik sözlüksel öğeler içeren düğümler oluşur. Örneğin, "yaratık" kelimesi "insan" ve "hayvan" gibi kavramlarla ilişkilendirilebilir. İlk kelime çeşitli mesleklere, akrabalık, milliyet terimlerine, ikincisi ise hayvan sınıflarına ve türlerine girmeye devam edecek.

Bilgi alma sistemlerinin kullanımı

Borpus dilbiliminin kullanım alanları, çok çeşitli faaliyet alanlarını kapsar. Corpora, sözlükleri derlemek ve düzeltmek, otomatik çeviri sistemleri oluşturmak, özetlemek, gerçekleri çıkarmak, duyguyu belirlemek ve diğer metin işleme için kullanılır.

derlem dilbilim derlem türleri
derlem dilbilim derlem türleri

Ayrıca, bu tür kaynaklar dünya dillerinin ve bir bütün olarak dilin işleyişinin mekanizmalarının incelenmesinde aktif olarak kullanılmaktadır. Büyük hacimli önceden hazırlanmış bilgilere erişim, dillerin gelişimindeki eğilimlerin hızlı ve kapsamlı çalışmasına, neolojizmlerin oluşumuna ve istikrarlı konuşma dönüşlerine, sözcük birimlerinin anlamlarındaki değişikliklere vb. katkıda bulunur.

Bu kadar büyük miktarda veriyle çalışmak otomasyon gerektirdiğinden, günümüzde bilgisayar ve derlem dilbilimi arasında yakın bir etkileşim vardır.

Rus Dilinin Ulusal Derlemi

Bu derlem (NKRC olarak kıs altılır), çok çeşitli görevleri çözmek için kaynağın kullanılmasına izin veren bir dizi alt yapı içerir.

NCRA veritabanındaki malzemeler şu şekilde ayrılır:

  • 90'ların ve 2000'lerin medyasındaki yayınlar hakkındayerli ve yabancı yıllar;
  • sözlü konuşma kayıtları;
  • Vurgusal olarak işaretlenmiş metinler (yani vurgu işaretli);
  • lehçe konuşma;
  • şiirsel eserler;
  • sözdizimsel işaretleme vb. olan malzemeler

Bilgi sistemi ayrıca eserlerin Rusça'dan İngilizce, Almanca, Fransızca ve diğer birçok dile (ve tam tersi) paralel çevirileri olan alt metinler içerir.

Ayrıca, veritabanı, gelişiminin çeşitli dönemlerinde Rusça yazılı konuşmayı temsil eden tarihi metinlerin bir bölümüne sahiptir. Ayrıca yabancı vatandaşlar için Rus diline hakim olma konusunda faydalı olabilecek bir eğitim külliyatı da bulunmaktadır.

Rus dilinin ulusal külliyatı 400 milyon sözcük birimi içerir ve birçok yönden Avrupa dillerinin külliyatının önemli bir bölümünün önündedir.

Öngörüler

Bu alanın umut verici olarak kabul edilmesi lehine bir gerçek, Rus üniversitelerinde ve yabancı üniversitelerde korpus dilbilim laboratuvarlarının varlığıdır. Dikkate alınan bilgi erişim kaynakları çerçevesinde kullanım ve araştırma ile yüksek teknolojiler alanında bazı alanların geliştirilmesi, soru-cevap sistemleri ile ilişkilendirilmiştir, ancak bu yukarıda tartışılmıştır.

korpus dilbilim tarihi
korpus dilbilim tarihi

Borpus dilbiliminin daha da geliştirilmesi, bilgi arama ve işleme süreçlerini optimize eden, bilgisayarların yeteneklerini genişleten, operasyonel kapasiteyi artıran yeni algoritmaların tanıtılması açısından teknikten tüm seviyelerde öngörülmektedir.kullanıcılar bu tür kaynakları günlük yaşamda ve işte kullanmanın daha fazla yolunu buldukça, hafıza ve evdekilerle bitiyor.

Sonuç olarak

Geçen yüzyılın ortasında, 2017, uzay araçlarının Evrenin geniş alanlarında gezindiği ve robotların tüm işleri insanlar için yaptığı uzak bir gelecek gibi görünüyordu. Ancak gerçekte bilim, "boş noktalar" ile doludur ve insanlığı yüzyıllardır rahatsız eden soruları yanıtlamak için umutsuz girişimlerde bulunmaktadır. Dilin işleyişiyle ilgili sorular burada gururla yer alır ve bütünce ve hesaplamalı dilbilim bu soruları yanıtlamamıza yardımcı olabilir.

Büyük miktarda veriyi işlemek, daha önce erişilemeyen kalıpları algılamanıza, belirli dil özelliklerinin gelişimini tahmin etmenize, neredeyse gerçek zamanlı olarak kelimelerin oluşumunu izlemenize olanak tanır.

Pratik bir küresel düzeyde, corpora, örneğin, kamu duyarlılığını değerlendirmek için potansiyel bir araç olarak düşünülebilir - İnternet, gerçek kullanıcılar tarafından oluşturulan çeşitli metinlerin sürekli güncellenen bir veritabanıdır: bunlar yorumlar, incelemeler, makalelerdir. ve diğer birçok konuşma biçimi.

Ayrıca, corpora ile çalışmak, Google veya Yandex hizmetlerinden, makine çevirisinden, elektronik sözlüklerden bize tanıdık gelen bilgi alma ile ilgili aynı teknik araçların geliştirilmesine katkıda bulunur.

Tümce dilbiliminin henüz ilk adımlarını attığını ve yakın gelecekte hızla gelişeceğini söyleyebiliriz.

Önerilen: