Çok boyutlu ölçekleme: tanım, hedefler, hedefler ve örnek

İçindekiler:

Çok boyutlu ölçekleme: tanım, hedefler, hedefler ve örnek
Çok boyutlu ölçekleme: tanım, hedefler, hedefler ve örnek
Anonim

Çok değişkenli ölçekleme (MDS), bir veri kümesindeki tek tek vakaların benzerlik düzeyini görselleştirmeye yönelik bir araçtır. Bilginin görselleştirilmesinde, özellikle bir mesafe matrisinde yer alan bilgileri görüntülemek için kullanılan bir dizi ilgili koordinasyon yöntemini ifade eder. Bu, doğrusal olmayan boyutluluk indirgemenin bir şeklidir. MDS algoritması, her bir nesneyi, nesneler arasındaki mesafeleri mümkün olan en iyi şekilde koruyacak şekilde N boyutlu bir uzaya yerleştirmeyi amaçlar. Daha sonra her nesneye N boyutunun her birinde koordinatlar atanır.

MDS grafiğinin boyut sayısı 2'yi geçebilir ve önceden belirtilir. N=2 seçilmesi, 2B dağılım grafiği için nesne yerleşimini optimize eder. Çok boyutlu ölçekleme örneklerini yazıdaki resimlerde görebilirsiniz. Rusça sembollü örnekler özellikle açıklayıcıdır.

Çok boyutlu ölçekleme
Çok boyutlu ölçekleme

Öz

Çok boyutlu ölçekleme yöntemi (MMS,MDS), bir dizi kayıp fonksiyonu ve ağırlıklarla birlikte bilinen mesafelerin girdi matrisleri için optimizasyon prosedürünü genelleştiren genişletilmiş bir klasik araçlar setidir. Bu bağlamda, stres majörleştirme adı verilen bir prosedürle genellikle en aza indirilen yararlı bir kayıp işlevine stres denir.

Manuel

Çok boyutlu ölçekleme için birkaç seçenek vardır. MDS programları, bir çözüm elde etmek için yükü otomatik olarak en aza indirir. Metrik olmayan MDS algoritmasının özü, iki yönlü bir optimizasyon sürecidir. İlk olarak, optimal monotonik yakınlık dönüşümü bulunmalıdır. İkinci olarak, yapılandırma noktaları, mesafeleri ölçeklenen yakınlık değerleriyle mümkün olduğunca yakın eşleşecek şekilde en uygun şekilde yerleştirilmelidir.

Çok boyutlu ölçekleme örneği
Çok boyutlu ölçekleme örneği

Genişletme

Hedef uzayın keyfi bir düz Öklid olmayan uzay olduğu istatistiklerde metrik çok boyutlu ölçeklemenin bir uzantısı. Farklılıklar bir yüzeydeki mesafeler ve hedef uzay farklı bir yüzeydir. Tematik programlar, bir yüzeyin diğerine minimum düzeyde bozulmasıyla bir ek bulmanızı sağlar.

Adımlar

Çok değişkenli ölçekleme kullanarak bir çalışma yürütmenin birkaç adımı vardır:

  1. Problemin formülasyonu. Hangi değişkenleri karşılaştırmak istiyorsunuz? Kaç değişkeni karşılaştırmak istiyorsunuz? Çalışma hangi amaçla kullanılacak?
  2. Giriş verileri alınıyor. Katılımcılara bir dizi soru sorulur. Her bir ürün çifti için benzerliği derecelendirmeleri istenir (genellikle çok benzerden çok farklıya doğru 7'li Likert ölçeğinde). İlk soru Coca-Cola/Pepsi için olabilir, örneğin bir sonraki bira için, sonraki Dr. Pepper vb. için olabilir. Soruların sayısı markaların sayısına bağlıdır.
Mesafe ölçekleme
Mesafe ölçekleme

Alternatif yaklaşımlar

İki yaklaşım daha var. "Algısal Veri: Türetilmiş Yaklaşım" adı verilen ve ürünlerin niteliklere ayrıştırıldığı ve değerlendirmenin anlamsal bir diferansiyel ölçekte yapıldığı bir teknik var. Diğer bir yöntem ise, yanıtlayanlara benzerlikler yerine tercihlerin sorulduğu "tercih verisi yaklaşımı"dır.

Aşağıdaki adımlardan oluşur:

  1. MDS istatistik programını başlatma. Prosedürü gerçekleştirmek için yazılım birçok istatistiksel yazılım paketinde mevcuttur. Genellikle metrik MDS (aralık veya oran düzeyindeki verilerle ilgilenen) ve metrik olmayan MDS (sıralı verilerle ilgilenen) arasında bir seçim vardır.
  2. Ölçüm sayısını belirleme. Araştırmacı bilgisayarda oluşturmak istediği ölçüm sayısını belirlemelidir. Ne kadar çok ölçüm olursa, istatistiksel uyum o kadar iyi olur, ancak sonuçları yorumlamak o kadar zor olur.
  3. Sonuçları görüntüleyin ve ölçümleri tanımlayın - istatistiksel program (veya ilgili modül) sonuçları görüntüler. Harita her bir ürünü gösterecektir (genellikle 2D olarak). Uzay). Ürünlerin birbirine yakınlığı, hangi yaklaşımın kullanıldığına bağlı olarak benzerliklerini veya tercihlerini gösterir. Ancak, ölçümlerin gerçekte sistem davranışı ölçümlerine nasıl karşılık geldiği her zaman açık değildir. Burada öznel bir uygunluk değerlendirmesi yapılabilir.
  4. Güvenilirlik ve geçerlilik için sonuçları kontrol edin - MDS prosedürü tarafından açıklanabilecek ölçeklendirilmiş veri varyansının oranını belirlemek için R-kare'yi hesaplayın. Kare R 0.6, kabul edilebilir minimum seviye olarak kabul edilir. R kare 0,8 metrik ölçekleme için iyi kabul edilirken, 0,9 metrik olmayan ölçekleme için iyi kabul edilir.
Çok değişkenli ölçekleme sonuçları
Çok değişkenli ölçekleme sonuçları

Çeşitli testler

Diğer olası testler, Kruskal tipi stres testleri, bölünmüş veri testleri, veri kararlılığı testleri ve tekrar test güvenilirliği testleridir. Testteki sonuçlar hakkında ayrıntılı olarak yazın. Haritalama ile birlikte en az bir mesafe ölçüsü (örn. Sorenson endeksi, Jaccard endeksi) ve güvenilirlik (örn. stres değeri) belirtilmelidir.

Ayrıca, bir başlangıç yapılandırması verdiyseniz veya rastgele bir seçiminiz varsa, genellikle kullanılan program tarafından belirlenen (bazen algoritma raporunun yerini alan) bir algoritma (ör. Kruskal, Mather) vermek de son derece arzu edilir. boyut çalıştırmaları, Monte Carlo sonuçları, yineleme sayısı, kararlılık puanı ve her eksenin orantılı varyansı (r-kare).

Görsel bilgi ve veri analiz yöntemiçok boyutlu ölçekleme

Bilgi görselleştirme, insan bilişini geliştirmek için soyut verilerin etkileşimli (görsel) temsillerinin incelenmesidir. Soyut veriler, metinsel ve coğrafi bilgiler gibi hem sayısal hem de sayısal olmayan verileri içerir. Bununla birlikte, bilgi görselleştirme bilimsel görselleştirmeden farklıdır: "uzamsal bir temsil seçildiğinde bilgilendirici (bilgi görselleştirme) ve mekansal bir temsil verildiğinde scivis (bilimsel görselleştirme) olur."

Bilgi görselleştirme alanı, insan-bilgisayar etkileşimi, bilgisayar bilimi uygulamaları, grafikler, görsel tasarım, psikoloji ve iş yöntemleri araştırmalarından ortaya çıkmıştır. Bilimsel araştırmalarda, dijital kütüphanelerde, veri madenciliğinde, finansal verilerde, pazar araştırmasında, üretim kontrolünde vb. önemli bir bileşen olarak giderek daha fazla kullanılmaktadır.

Yöntemler ve ilkeler

Bilgi görselleştirme, görselleştirme ve etkileşim yöntemlerinin insan algısının zenginliğinden yararlanarak kullanıcıların büyük miktarda bilgiyi aynı anda görmelerine, keşfetmelerine ve anlamalarına olanak tanıdığını öne sürer. Bilgi görselleştirme, soyut verileri, bilgiyi sezgisel bir şekilde iletmek için yaklaşımlar yaratmayı amaçlar.

Renk çok boyutlu ölçekleme
Renk çok boyutlu ölçekleme

Veri analizi, endüstrideki tüm uygulamalı araştırmaların ve problem çözmenin ayrılmaz bir parçasıdır. EnVeri analizine yönelik temel yaklaşımlar, görselleştirme (histogramlar, dağılım grafikleri, yüzey grafikleri, ağaç haritaları, paralel koordinat grafikleri vb.), istatistik (hipotez testi, regresyon, PCA, vb.), veri analizidir (eşleştirme vb.)..d.) ve makine öğrenme yöntemleri (kümeleme, sınıflandırma, karar ağaçları vb.).

Bu yaklaşımlar arasında, bilgi görselleştirme veya görsel veri analizi, analitik personelin bilişsel becerilerine en çok bağımlı olanıdır ve yalnızca insanın hayal gücü ve yaratıcılığı ile sınırlı olan yapılandırılmamış eyleme geçirilebilir içgörülerin keşfedilmesine olanak tanır. Bir analistin veri görselleştirmelerini yorumlayabilmek için herhangi bir karmaşık teknik öğrenmesi gerekmez. Bilgi görselleştirme aynı zamanda istatistiksel hipotez testi gibi daha analitik veya resmi analizlerin eşlik ettiği ve genellikle eşlik ettiği bir hipotez oluşturma şemasıdır.

Çalışma

Modern görselleştirme çalışması, "en başından beri bilimsel sorunları incelemek için kullanılan bilgisayar grafikleriyle başladı. Ancak, ilk yıllarda grafik gücünün eksikliği genellikle kullanışlılığını sınırladı. Görselleştirmeye öncelik başladı. 1987'de Bilimsel Hesaplamada Bilgisayar Grafikleri ve Görselleştirme için özel yazılımın piyasaya sürülmesiyle gelişmeye başlamıştır. O zamandan beri, IEEE Computer Society ve ACM SIGGRAPH tarafından ortaklaşa düzenlenen çeşitli konferanslar ve çalıştaylar olmuştur."

Veri görselleştirme, bilgi görselleştirme ve bilimsel görselleştirme genel konularını ele aldılar,hacim oluşturma gibi daha spesifik alanların yanı sıra.

Çok boyutlu marka ölçeklendirme
Çok boyutlu marka ölçeklendirme

Özet

Genelleştirilmiş Çok Boyutlu Ölçekleme (GMDS), hedef uzayın Öklidyen olmadığı metrik çok boyutlu ölçeklemenin bir uzantısıdır. Farklılıklar bir yüzeydeki mesafeler olduğunda ve hedef alan başka bir yüzey olduğunda, GMDS minimum bozulma ile bir yüzeyin diğerine yuvalanmasını bulmanızı sağlar.

GMDS yeni bir araştırma hattıdır. Şu anda, ana uygulamalar deforme olabilen nesne tanıma (örneğin, 3B yüz tanıma için) ve doku eşlemedir.

Çok boyutlu ölçeklemenin amacı çok boyutlu verileri temsil etmektir. Çok boyutlu verilerin, yani temsil edilmesi iki veya üçten fazla boyut gerektiren verilerin yorumlanması zor olabilir. Basitleştirmeye yönelik bir yaklaşım, ilgilenilen verilerin yüksek boyutlu bir uzayda gömülü doğrusal olmayan bir manifold üzerinde bulunduğunu varsaymaktır. Toplayıcı yeterince düşük bir boyuta sahipse, veriler düşük boyutlu uzayda görselleştirilebilir.

Doğrusal olmayan boyutsallık az altma yöntemlerinin çoğu, doğrusal yöntemlerle ilgilidir. Doğrusal olmayan yöntemler genel olarak iki gruba ayrılabilir: haritalama sağlayanlar (yüksek boyutlu uzaydan düşük boyutlu gömmeye veya tam tersi) ve basitçe görselleştirme sağlayanlar. Makine öğrenimi bağlamında, haritalama yöntemleri şu şekilde görülebilir:öznitelik çıkarmanın bir ön aşaması, ardından örüntü tanıma algoritmaları uygulanır. Genellikle sadece görselleştirme sağlayanlar yakınlık verilerine, yani mesafe ölçümlerine dayanır. Çok boyutlu ölçekleme, psikolojide ve diğer beşeri bilimlerde de oldukça yaygındır.

Çapraz çok boyutlu ölçekleme
Çapraz çok boyutlu ölçekleme

Öznitelik sayısı büyükse, benzersiz olası dizelerin alanı da katlanarak büyüktür. Bu nedenle, boyut ne kadar büyük olursa, alanı tasvir etmek o kadar zor olur. Bu birçok soruna neden olur. Yüksek boyutlu veriler üzerinde çalışan algoritmalar çok yüksek zaman karmaşıklığına sahip olma eğilimindedir. Verileri daha az boyuta indirmek, genellikle analiz algoritmalarını daha verimli hale getirir ve makine öğrenimi algoritmalarının daha doğru tahminler yapmasına yardımcı olabilir. Çok boyutlu veri ölçeklemenin bu kadar popüler olmasının nedeni budur.

Önerilen: