Veri Madenciliği Kavram, algoritma analizi, amaç ve uygulama

İçindekiler:

Veri Madenciliği Kavram, algoritma analizi, amaç ve uygulama
Veri Madenciliği Kavram, algoritma analizi, amaç ve uygulama
Anonim

Bilgi teknolojisinin gelişimi pratik sonuçlar getirir. Ancak bilgi bulma, analiz etme ve kullanma gibi görevler henüz etkili bir yüksek kaliteli araç almadı. Analitik ve nicel araçlar var, gerçekten işe yarıyorlar. Ancak bilgi kullanımında niteliksel bir devrim henüz gerçekleşmedi.

Bilgisayar teknolojisinin ortaya çıkmasından çok önce, bir kişinin büyük miktarda bilgiyi işlemesi gerekiyordu ve bununla deneyimlerinin ve mevcut teknik yeteneklerinin en iyisiyle başa çıktı.

Bilgi ve becerilerin gelişimi her zaman gerçek ihtiyaçları karşıladı ve mevcut görevlere karşılık geldi. Veri madenciliği, insan faaliyetinin çeşitli alanlarında kararlar almak için gerekli olan, verilerde önceden bilinmeyen, önemsiz olmayan, pratik olarak yararlı ve erişilebilir bilgileri keşfetmek için bir dizi yönteme atıfta bulunmak için kullanılan toplu bir addır.

İnsan, zeka, programlama

Bir insan her zaman her durumda nasıl davranacağını bilir. Cehalet veya yabancı bir durum onun karar vermesine engel değildir. Herhangi bir insan kararının nesnelliği ve makullüğü sorgulanabilir, ancak kabul edilecektir.

Zeka şunlara dayanır: kalıtsal "mekanizma", edinilmiş, aktif bilgi. Bilgi, kişinin önünde ortaya çıkan sorunları çözmek için uygulanır.

  1. Zeka, benzersiz bir bilgi ve beceriler dizisidir: insan yaşamı ve çalışması için fırsatlar ve temeller.
  2. Zeka sürekli gelişiyor ve insan eylemlerinin diğer insanlar üzerinde etkisi var.

Programlama, verilerin temsilini ve algoritma oluşturma sürecini resmileştirmeye yönelik ilk girişimdir.

Adam, zeka, programlama
Adam, zeka, programlama

Yapay zeka (AI) bir zaman ve kaynak israfıdır, ancak AI alanında geçen yüzyılın başarısız girişimlerinin sonuçları hafızada kaldı, çeşitli uzman (akıllı) sistemlerde kullanıldı ve dönüştürüldü, özellikle algoritmalara (kurallara) ve matematiksel (mantıksal) veri analizine ve Veri Madenciliğine.

Bilgi ve olağan bir çözüm arayışı

Sıradan bir kitaplık bir bilgi deposudur ve basılı kelime ve grafikler henüz avuç içini bilgisayar teknolojisine bırakmamıştır. Fizik, kimya, teorik mekanik, tasarım, doğa tarihi, felsefe, doğa bilimleri, botanik, ders kitapları, monograflar, bilim adamlarının çalışmaları, konferans materyalleri, geliştirme çalışmalarıyla ilgili raporlar vb. üzerine kitaplar her zaman alakalı ve güvenilirdir.

Kütüphane, birbirinden farklı birçok farklı kaynaktır.materyalin sunum şekli, kökeni, yapısı, içeriği, sunum stili vb.

Kütüphane: kitaplar, dergiler ve diğer basılı materyaller
Kütüphane: kitaplar, dergiler ve diğer basılı materyaller

Dışa doğru her şey anlamak ve kullanmak için görünür (okunabilir, erişilebilir). Herhangi bir sorunu çözebilir, görevi doğru bir şekilde belirleyebilir, çözümü gerekçelendirebilir, bir deneme veya dönem ödevi yazabilir, diploma için materyal seçebilir, bir tez veya bilimsel ve analitik bir rapor konusundaki kaynakları analiz edebilirsiniz.

Herhangi bir bilgi sorunu çözülebilir. Gerekli azim ve beceri ile doğru ve güvenilir bir sonuç elde edilecektir. Bu bağlamda Veri Madenciliği tamamen farklı bir yaklaşımdır.

Sonuca ek olarak, kişi hedefe ulaşma sürecinde görüntülenen her şeye "aktif bağlantılar" alır. Sorunun çözümünde kullandığı kaynaklara başvurulabilir ve hiç kimse kaynağın varlığına itiraz edemez. Bu, özgünlüğün garantisi değildir, ancak özgünlük sorumluluğunun "abonelikten çıktığının" kesin bir kanıtıdır. Bu bakış açısından, Veri Madenciliği, güvenilirlik ve "aktif" bağlantı olmaması konusunda büyük şüpheler anlamına gelir.

Bir kişi birkaç problemi çözerek sonuç alır ve entelektüel potansiyelini birçok "aktif bağlantıya" genişletir. Yeni bir görev zaten var olan bir bağlantıyı "etkinleştirirse", kişi onu nasıl çözeceğini bilir: tekrar bir şey aramaya gerek yoktur.

"Aktif bağlantı" sabit bir ilişkilendirmedir: belirli bir durumda nasıl ve ne yapılacağı. İnsan beyni, potansiyel olarak ilginç, faydalı görünen her şeyi otomatik olarak hatırlar.veya gelecekte ihtiyaç duyulması muhtemeldir. Birçok yönden, bu bilinç altı bir seviyede gerçekleşir, ancak “aktif bağlantı” ile ilişkilendirilebilecek bir görev ortaya çıkar çıkmaz, anında zihinde belirir ve ek bilgi aramadan bir çözüm elde edilir. Veri Madenciliği her zaman arama algoritmasının tekrarıdır ve bu algoritma değişmez.

Düzenli arama: "sanatsal" sorunlar

Math kitaplığı ve içinde bilgi aramak nispeten zayıf bir iştir. Bir integrali çözmenin, bir matris oluşturmanın veya iki sanal sayı toplama işlemini gerçekleştirmenin bir yolunu bulmak zahmetli ama basittir. Birçoğu belirli bir dilde yazılmış birkaç kitabı sıralamanız, doğru metni bulmanız, üzerinde çalışmanız ve gerekli çözümü bulmanız gerekiyor.

Zamanla, numaralandırma tanıdık gelecek ve birikmiş deneyim, kitaplık bilgisinde ve diğer matematiksel problemlerde gezinmenize izin verecektir. Bu, soru ve cevaplardan oluşan sınırlı bir bilgi alanıdır. Karakteristik bir özellik: böyle bir bilgi arayışı, benzer sorunları çözmek için bilgi biriktirir. Bir kişinin bilgi arayışı, hafızasında diğer sorunlara olası çözümler hakkında izler ("aktif bağlantılar") bırakır.

Kurguda şu sorunun cevabını bulun: "İnsanlar Ocak 1248'de nasıl yaşadı?" çok zor. Mağaza raflarında ne var ve gıda ticaretinin nasıl organize edildiği sorusuna cevap vermek daha da zor. Bazı yazarlar bunu romanında açıkça ve doğrudan yazsa bile, eğer bu yazarın adı bulunabilirse, o zaman şüphe duyulur.alınan verilerin güvenilirliği devam edecektir. Güvenilirlik, herhangi bir miktarda bilginin kritik bir özelliğidir. Sonucun yanlışlığını dışlayan kaynak, yazar ve kanıtlar önemlidir.

Belirli bir durumun nesnel koşulları

İnsan görür, duyar, hisseder. Bazı uzmanlar benzersiz bir duygu - sezgi konusunda akıcıdır. Sorunun ifadesi bilgi gerektirir, sorunu çözme sürecine çoğunlukla sorun ifadesinin iyileştirilmesi eşlik eder. Bu, bir bilgisayar sisteminin bağırsaklarına bilgi taşımanın getirdiği daha az sorundur.

Sanal alanda bilgi
Sanal alanda bilgi

Kütüphane ve iş arkadaşları, karar sürecinde dolaylı katılımcılardır. Kitabın tasarımı (kaynak), metindeki grafikler, bilgileri başlıklara ayırma özellikleri, cümlelere göre dipnotlar, konu indeksi, birincil kaynakların listesi - her şey bir kişide çözüm sürecini dolaylı olarak etkileyen dernekleri uyandırır. sorun.

Problemi çözmenin zamanı ve yeri önemlidir. Bir kişi o kadar düzenlenmiştir ki, bir problemi çözme sürecinde istemeden onu çevreleyen her şeye dikkat eder. Dikkat dağıtıcı olabilir veya uyarıcı olabilir. Veri Madenciliği asla "anlamayacak".

Sanal uzayda bilgi

Bir kişi her zaman yalnızca bir olay, fenomen, nesne, bir sorunu çözmek için algoritma hakkında güvenilir bilgilerle ilgilendi. İnsan her zaman tam olarak istediği hedefe nasıl ulaşabileceğini hayal etmiştir.

Bilgisayarların ve bilgi sistemlerinin görünümü bir insan için hayatı kolaylaştırmalıydı, ancak her şey sadece daha karmaşık hale geldi. Bilgi, bilgisayar sistemlerinin bağırsaklarına göç etti ve gözden kayboldu. Gerekli verileri seçmek için doğru bir algoritma oluşturmanız veya veritabanına bir sorgu formüle etmeniz gerekir.

Bilgi sistemi içindeki veriler
Bilgi sistemi içindeki veriler

Soru doğru olmalı. Ancak o zaman bir cevap alabilirsiniz. Ancak gerçekliği hakkında şüpheler devam ediyor. Bu anlamda Veri Madenciliği aslında bir "kazı"dır, "bilgi çıkarma"dır. Bu cümleyi tercüme etmek moda oldu. Rusça versiyonu veri madenciliği veya veri madenciliği teknolojisidir.

Yetkili uzmanların çalışmalarında Veri Madenciliğinin görevleri şu şekilde belirtilir:

  • sınıflandırma;
  • kümeleme;
  • ilişkilendirme;
  • sıra;
  • tahmin.

Bilginin manuel olarak işlenmesinde bir kişiye rehberlik eden uygulama açısından, tüm bu pozisyonlar tartışmalıdır. Her durumda, bir kişi bilgileri otomatik olarak işler ve verileri sınıflandırmayı, tematik nesne gruplarını derlemeyi (kümeleme), zamansal kalıpları (sıralama) aramayı veya sonucu tahmin etmeyi düşünmez.

İnsan zihnindeki tüm bu konumlar, daha fazla konumu kapsayan ve ilk verileri işleme mantığını dinamik olarak kullanan aktif bilgi ile temsil edilir. Bir kişinin bilinç altı, özellikle belirli bir bilgi alanında uzman olduğunda önemli bir rol oynar.

Örnek: Bilgisayar ekipmanlarının toptan ticareti

Görev basit. Bir kaç tane vardüzinelerce bilgisayar ekipmanı ve çevre birimi tedarikçisi. Her birinin, tedarikçinin resmi web sitesinden indirilebilen xls formatında (Excel dosyası) bir fiyat listesi vardır. Excel dosyalarını okuyan, bunları veritabanı tablolarına dönüştüren ve müşterilerin istediği ürünleri en düşük fiyatlarla seçmesine olanak tanıyan bir web kaynağı oluşturmak gerekiyor.

Sorunlar hemen ortaya çıkar. Her tedarikçi, xls dosyasının yapısının ve içeriğinin kendi versiyonunu sunar. Dosyayı tedarikçinin web sitesinden indirerek, e-posta ile sipariş vererek veya kişisel hesabınız üzerinden, yani tedarikçiye resmi olarak kaydolarak bir indirme bağlantısı alarak alabilirsiniz.

Sanal Bilgisayar Mağazası
Sanal Bilgisayar Mağazası

Sorunun çözümü (en başında) teknolojik olarak basittir. Dosyalar (ilk veriler) yüklenirken, her tedarikçi için bir dosya tanıma algoritması yazılır ve veriler büyük bir ilk veri tablosuna yerleştirilir. Tüm veriler alındıktan sonra, yeni verilerin sürekli olarak değiştirilmesi (günlük, haftalık veya değişiklik üzerine) mekanizması kurulduktan sonra:

  • ürün çeşitliliğini değiştir;
  • fiyat değişiklikleri;
  • stoktaki miktarın açıklanması;
  • garanti şartlarının, teknik özelliklerin vb. ayarlanması

Gerçek sorunların başladığı yer burasıdır. Mesele şu ki, tedarikçi şunu yazabilir:

  • notebook Acer;
  • notebook Asus;
  • Dell dizüstü bilgisayar.

Aynı üründen bahsediyoruz, ancak farklı üreticilerden. Dizüstü bilgisayar=dizüstü bilgisayar nasıl eşleştirilir veya Acer, Asus ve Dell bir ürün hattından nasıl çıkarılır?

içininsan sorun değil, ama algoritma Acer, Asus, Dell, Samsung, LG, HP, Sony'nin ticari marka veya tedarikçi olduğunu nasıl "anlayacak"? "Yazıcı" ve yazıcı, "tarayıcı" ve "MFP", "fotokopi makinesi" ve "MFP", "kulaklıklar" "kulaklık" ile, "aksesuarlar" "aksesuarlar" ile nasıl eşleştirilir?

Kaynak verilere (kaynak dosyalar) dayalı bir kategori ağacı oluşturmak, her şeyi otomatik olarak ayarlamanız gerektiğinde zaten bir sorundur.

Veri örneklemesi: "taze dökülmüş" kazılar

Bilgisayar ekipmanı tedarikçilerinden oluşan bir veri tabanı oluşturma görevi çözüldü. Bir kategori ağacı oluşturuldu, tüm tedarikçilerin tekliflerini içeren ortak bir tablo çalışıyor.

Bu örnek bağlamında tipik Veri Madenciliği görevleri:

  • en düşük fiyata bir ürün bulun;
  • gönderim maliyeti ve fiyatı en düşük olan öğeyi seçin;
  • ürün analizi: kriterlere göre özellikler ve fiyatlar.

Birkaç düzine tedarikçiden gelen verileri kullanan bir yöneticinin gerçek çalışmasında, bu görevlerin birçok varyasyonu ve hatta daha gerçek durumlar olacaktır.

Örneğin, ASUS VivoBook S15'i satan bir "A" tedarikçisi var: ön ödeme, teslimat, gerçek paranın alınmasından 5 gün sonra. Aynı modelin aynı ürünün bir tedarikçisi "B" var: teslim alındığında ödeme, bir gün içinde sözleşmenin imzalanmasından sonra teslimat, fiyat bir buçuk kat daha yüksek.

Veri Madenciliği başlıyor - "kazılar". Figüratif ifadeler: "kazılar" veya "veri madenciliği" eş anlamlıdır. Karar vermek için nasıl bir neden bulacağınızla ilgili.

Tedarikçiler "A" ve "B" teslimat geçmişine sahiptir. Seviyeikinci durumda teslimat hatasının %65 daha yüksek olduğu dikkate alındığında, ikinci durumda makbuzda ödemeye karşı birinci durumda ön ödeme. Müşteriden ceza alma riski daha yüksek/düşüktür. Nasıl ve neyi belirlemeli ve hangi kararı vermeli?

Öte yandan: veritabanı bir programcı ve bir yönetici tarafından oluşturuldu. Programcı ve yönetici değiştiyse, veritabanının mevcut durumu nasıl belirlenir ve nasıl doğru kullanılacağı nasıl öğrenilir? Ayrıca veri madenciliği yapmanız gerekecek. Veri Madenciliği, ne tür verilerin araştırıldığıyla ilgilenmeyen çeşitli matematiksel ve mantıksal yöntemler sunar. Bu, bazı durumlarda doğru çözümü verir, ancak hepsinde değil.

Sanallığa geçmek ve anlam bulmak

Veri Madenciliği yöntemleri, bilgi veri tabanına yazıldığı ve “görüş alanından” kaybolduğu anda anlam kazanır. Bilgisayar ekipmanı ticareti ilginç bir iştir, ancak bu sadece bir iştir. Şirkette ne kadar iyi organize olduğu, başarısına bağlıdır.

Gezegendeki iklim değişiklikleri ve belirli bir şehirdeki hava durumu sadece profesyonel iklim uzmanlarını değil, herkesin ilgisini çekiyor. Binlerce sensör, yapay Dünya uydularından gelen rüzgar, nem, basınç ve veri okumalarını alır ve yıllar ve yüzyıllar boyunca bir veri geçmişi vardır.

Hava durumu verileri yalnızca işe bir şemsiye getirip getirmemeye karar vermekle ilgili değildir. Veri Madenciliği teknolojileri, bir uçağın güvenli uçuşu, bir otoyolun istikrarlı çalışması ve deniz yoluyla güvenilir petrol ürünleri tedarikidir.

"Ham" veri bilgilerine gönderilirsistem. Veri Madenciliğinin görevleri, bunları sistematik bir tablolar sistemine dönüştürmek, bağlantılar kurmak, homojen veri gruplarını vurgulamak ve kalıpları tespit etmektir.

İklim, hava durumu ve ham veriler
İklim, hava durumu ve ham veriler

Niteliksel analitik OLAP (Çevrimiçi Analitik İşleme) günlerinden beri matematiksel ve mantıksal yöntemler pratikliklerini göstermiştir. Burada teknoloji, bilgisayar ekipmanı satma örneğinde olduğu gibi, anlam bulmanızı ve kaybetmemenizi sağlar.

Ayrıca, küresel görevlerde:

  • ulusötesi ticaret;
  • hava taşımacılığı yönetimi;
  • toprağın bağırsakları veya sosyal problemlerin incelenmesi (eyalet düzeyinde);
  • ilaçların canlı bir organizma üzerindeki etkisinin incelenmesi;
  • bir sanayi kuruluşu vb. inşaatının sonuçlarını tahmin etme.

Veri Madeni teknolojileri ve “anlamsız” verileri nesnel kararlar vermenizi sağlayan gerçek verilere dönüştürmek tek seçenektir.

İnsan olanakları, büyük miktarda ham bilginin olduğu yerde sona erer. Bilginin görülmesi, anlaşılması ve hissedilmesi gereken yerlerde veri madenciliği sistemleri kullanışlılığını kaybeder.

İşlevlerin ve nesnelliğin makul dağılımı

İnsan ve bilgisayar birbirini tamamlamalıdır - bu bir aksiyomdur. Bir tez yazmak bir kişi için bir önceliktir ve bir bilgi sistemi bir yardımdır. Burada Veri Madenciliği teknolojisinin sahip olduğu veriler buluşsal yöntemler, kurallar, algoritmalardır.

Haftalık hava tahmini hazırlamak bilgi sisteminin önceliğidir. İnsan verileri yönetir, ancak kararlarını sistemin hesaplamalarının sonuçlarına dayandırır. Veri Madenciliği yöntemlerini, uzman veri sınıflandırmasını, algoritma uygulamasının manuel kontrolünü, geçmiş verilerin otomatik karşılaştırmasını, matematiksel tahminleri ve bilgi sisteminin uygulanmasına dahil olan gerçek kişilerin birçok bilgi ve becerisini birleştirir.

adam ve bilgisayar
adam ve bilgisayar

Olasılık teorisi ve matematiksel istatistikler, bilginin en "favori" ve anlaşılabilir alanları değildir. Pek çok uzman onlardan çok uzak ama bu alanlarda geliştirilen yöntemler neredeyse %100 doğru sonuç veriyor. Veri Madenciliği fikirlerine, yöntemlerine ve algoritmalarına dayalı sistemler uygulanarak, objektif ve güvenilir bir şekilde çözümler elde edilebilir. Aksi takdirde bir çözüm bulmak imkansızdır.

Firavunlar ve geçmiş yüzyılların gizemleri

Tarih periyodik olarak yeniden yazıldı:

  • devletler - stratejik çıkarları uğruna;
  • yetkili bilim adamları - öznel inançları uğruna.

Neyin doğru neyin yanlış olduğunu söylemek zor. Veri Madenciliği kullanımı bu sorunu çözmemizi sağlar. Örneğin, piramit inşa etme teknolojisi tarihçiler tarafından tanımlanmış ve farklı yüzyıllarda bilim adamları tarafından incelenmiştir. Tüm materyaller İnternet'e girmedi, burada her şey benzersiz değil ve birçok veride şunlar olmayabilir:

  • tarif edilen zaman noktası;
  • açıklama yazma zamanı;
  • açıklamanın dayandığı tarihler;
  • yazar(lar), görüşler (bağlantılar) dikkate alınır;
  • nesnelliğin teyidi.

Bkütüphaneler, tapınaklar ve "beklenmedik yerler" farklı yüzyıllardan kalma el yazmaları ve geçmişin maddi kanıtlarını bulabilirsiniz.

İlginç hedef: her şeyi bir araya getirmek ve "gerçeği" ortaya çıkarmak. Problemin özelliği: Bir vakanüvisin ilk açıklamasından, firavunların yaşamı boyunca, bu sorunun birçok bilim insanı tarafından modern yöntemlerle çözüldüğü içinde bulunduğumuz yüzyıla kadar bilgi edinilebilir.

Veri Madenciliğini kullanmanın mantığı: el emeği mümkün değildir. Çok fazla miktar:

  • bilgi kaynakları;
  • temsil dilleri;
  • araştırmacılar aynı şeyi farklı şekillerde tarif ediyor;
  • tarihler, etkinlikler ve terimler;
  • terim korelasyon problemleri;
  • İstatistiklerin zaman içinde veri gruplarına göre analizi farklılık gösterebilir, vb.

Geçen yüzyılın sonunda, yapay zeka fikrinin başka bir fiyaskosu sadece meslekten olmayanlar için değil, aynı zamanda sofistike bir uzman için de aşikar hale geldiğinde, fikir ortaya çıktı: “kişiliği yeniden yaratmak”.

Örneğin, Puşkin, Gogol, Çehov'un eserlerine göre belirli bir kurallar sistemi, davranış mantığı oluşturulur ve bir kişinin yapacağı gibi belirli sorulara cevap verebilecek bir bilgi sistemi oluşturulur: Puşkin, Gogol veya Çehov. Teorik olarak böyle bir görev ilginçtir, ancak pratikte uygulanması son derece zordur.

Ancak, böyle bir görev fikri çok pratik bir fikir önerir: "akıllı bir bilgi araması nasıl oluşturulur?" İnternet bir çok gelişen kaynak, devasa bir veri tabanıdır ve bu, Veri Madenciliğini insan kaynaklarıyla birlikte uygulamak için harika bir fırsattır.ortak geliştirme formatında mantık.

Makine ve adam birlikte
Makine ve adam birlikte

Bir makine ve bir adam eşleştirilmiş mükemmel bir görevdir ve "bilgi arkeolojisi" alanında şüphesiz bir başarıdır, verilerde yüksek kaliteli kazılar ve bir şeyi şüpheye düşürecek sonuçlar, ancak şüphesiz size izin verecektir. yeni bilgiler edinmek ve toplumda talep görmek için.

Önerilen: