İstatistiksel modelleme: yöntemler, açıklama, uygulama

İçindekiler:

İstatistiksel modelleme: yöntemler, açıklama, uygulama
İstatistiksel modelleme: yöntemler, açıklama, uygulama
Anonim

İstatistiksel modellemede yer alan varsayımlar, bazılarının dağılıma yeterince yaklaştığı varsayılan bir dizi olasılık dağılımını tanımlar. Tanımdan belirli bir veri seti seçilir. İstatistiksel modellemenin doğasında bulunan olasılık dağılımları, istatistiksel modelleri diğer istatistiksel olmayan matematiksel modellerden ayıran şeydir.

Image
Image

Matematikle bağlantı

Bu bilimsel yöntemin kökleri öncelikle matematiğe dayanmaktadır. Sistemlerin istatistiksel modellemesi genellikle bir veya daha fazla rastgele değişkeni ve muhtemelen diğer rastgele olmayan değişkenleri ilişkilendiren matematiksel denklemlerle verilir. Bu nedenle, istatistiksel bir model "bir teorinin resmi temsilidir" (Hermann Ader, Kenneth Bollen'den alıntı yapar).

Tüm istatistiksel hipotez testleri ve tüm istatistiksel tahminler, istatistiksel modellerden türetilir. Daha genel olarak, istatistiksel modeller istatistiksel çıkarımın temelinin bir parçasıdır.

İstatistik yöntemlerimodelleme

Gayri resmi olarak, istatistiksel bir model, belirli bir özelliğe sahip istatistiksel bir varsayım (veya istatistiksel varsayımlar kümesi) olarak düşünülebilir: bu varsayım, herhangi bir olayın olasılığını hesaplamamızı sağlar. Örnek olarak, bir çift sıradan altı yüzlü zar düşünün. Kemikle ilgili iki farklı istatistiksel varsayımı inceleyeceğiz.

İlk istatistiksel varsayım, istatistiksel modeli oluşturur, çünkü yalnızca bir varsayımla herhangi bir olayın olasılığını hesaplayabiliriz. Alternatif istatistiksel varsayım, istatistiksel bir model oluşturmaz, çünkü yalnızca bir varsayımla her olayın olasılığını hesaplayamayız.

Tipik istatistiksel model
Tipik istatistiksel model

Yukarıdaki örnekte ilk varsayımla, bir olayın olasılığını hesaplamak kolaydır. Bununla birlikte, diğer bazı örneklerde, hesaplama karmaşık ve hatta pratik olmayabilir (örneğin, milyonlarca yıllık hesaplama gerektirebilir). İstatistiksel bir model oluşturan varsayım için, bu zorluk kabul edilebilir: hesaplamayı gerçekleştirmek pratik olarak mümkün olmak zorunda değil, sadece teorik olarak mümkün.

Model örnekleri

Diyelim ki eşit dağılmış çocuklara sahip bir okul çocuğu nüfusumuz var. Bir çocuğun boyu yaşla stokastik olarak ilişkili olacaktır: örneğin, bir çocuğun 7 yaşında olduğunu bildiğimizde, bu, çocuğun 5 fit (yaklaşık 152 cm) boyunun olma olasılığını etkiler. Bu ilişkiyi doğrusal bir regresyon modelinde resmileştirebiliriz, örneğin: büyüme=b0 + b1agei+ εi, burada b0 kesişim, b1 büyüme tahmini alınırken yaşın çarpıldığı parametre, εi ise hata terimidir. Bu, yüksekliğin yaşa göre bazı hatalarla tahmin edildiği anlamına gelir.

Geçerli bir model tüm veri noktalarıyla eşleşmelidir. Bu nedenle, düz bir çizgi (heighti=b0 + b1agei) bir veri modeli için bir denklem olamaz - tüm veri noktalarına tam olarak uymadıkça, yani tüm veri noktaları doğru üzerinde mükemmel bir şekilde yer almaz. Modelin tüm veri noktalarına uyması için hata terimi εi denkleme dahil edilmelidir.

cinsiyet istatistikleri
cinsiyet istatistikleri

İstatistiksel bir çıkarım yapmak için, önce εi için bazı olasılık dağılımlarını varsaymamız gerekiyor. Örneğin, εi dağılımlarının sıfır ortalama ile Gauss dağılımı olduğunu varsayabiliriz. Bu durumda modelin 3 parametresi olacaktır: b0, b1 ve Gauss dağılımının varyansı.

Genel Açıklama

İstatistiksel model, matematiksel modelin özel bir sınıfıdır. İstatistiksel bir modeli diğer matematiksel modellerden ayıran şey, deterministik olmamasıdır. İstatistiksel verileri modellemek için kullanılır. Bu nedenle matematiksel denklemlerle tanımlanan istatistiksel bir modelde bazı değişkenlerin belirli değerleri olmayıp bunun yerine olasılık dağılımları vardır; yani, bazı değişkenler stokastiktir. Yukarıdaki örnekte, ε stokastik bir değişkendir; Bu değişken olmadan modeldeterministik olurdu.

İstatistiksel modeller, modellenen fiziksel süreç deterministik olsa bile, istatistiksel analiz ve modellemede sıklıkla kullanılır. Örneğin, bozuk para atmak prensipte deterministik bir süreçtir; yine de genellikle stokastik olarak modellenir (Bernoulli süreci aracılığıyla).

ısınma istatistikleri
ısınma istatistikleri

Parametrik modeller

Parametrik modeller en sık kullanılan istatistiksel modellerdir. Yarı parametrik ve parametrik olmayan modellerle ilgili olarak, Sir David Cox şunları söyledi: "Genellikle dağılımın yapısı ve şekli hakkında daha az varsayım içerirler, ancak genellikle güçlü bağımsızlık varsayımları içerirler." Bahsedilen diğer tüm modeller gibi, genellikle matematiksel modellemenin istatistiksel yönteminde de kullanılırlar.

Çok seviyeli modeller

Çok düzeyli modeller (hiyerarşik doğrusal modeller, iç içe veri modelleri, karma modeller, rastgele katsayılar, rastgele efekt modelleri, rastgele parametre modelleri veya bölümlenmiş modeller olarak da bilinir) birden fazla düzeyde değişen istatistiksel parametre modelleridir. Bir örnek, bireysel öğrenciler için ölçümlerin yanı sıra öğrencilerin gruplandırıldığı sınıflar için ölçümler içeren bir öğrenci başarı modelidir. Bu modeller, doğrusal olmayan modellere de genişletilebilmelerine rağmen, doğrusal modellerin (özellikle doğrusal regresyon) genellemeleri olarak düşünülebilir. Bu modeller olduyeterli bilgi işlem gücü ve yazılım kullanıma sunulduğunda çok daha popüler oldu.

Segment istatistikleri
Segment istatistikleri

Çok düzeyli modeller, özellikle katılımcılara yönelik verilerin birden fazla düzeyde düzenlendiği (ör. iç içe veriler) araştırma projeleri için uygundur. Analiz birimleri genellikle bağlam/toplu birimler (daha yüksek bir düzeyde) içinde yuvalanmış bireylerdir (daha düşük düzeyde). Çok seviyeli modellerde en düşük veri seviyesi tipik olarak bireysel olmakla birlikte, bireylerin tekrarlanan ölçümleri de düşünülebilir. Bu nedenle, çok düzeyli modeller, tek değişkenli veya çok değişkenli tekrarlanan ölçüm analizi için alternatif bir analiz türü sağlar. Büyüme eğrilerindeki bireysel farklılıklar dikkate alınabilir. Ek olarak, çok düzeyli modeller, tedavi farklılıkları için test edilmeden önce bağımlı değişken puanlarının ortak değişkenler (örneğin, bireysel farklılıklar) için ayarlandığı ANCOVA'ya alternatif olarak kullanılabilir. Çok seviyeli modeller, ANCOVA'nın gerektirdiği tek tip regresyon eğimleri varsayımı olmadan bu deneyleri analiz edebilir.

Çok düzeyli modeller çok düzeyli veriler için kullanılabilir, ancak iki düzeyli modeller en yaygın olanlarıdır ve bu makalenin geri kalanı bunlara odaklanır. Bağımlı değişken, analizin en alt seviyesinde incelenmelidir.

Atmosferik basınç grafiği
Atmosferik basınç grafiği

Model seçimi

Model seçimiistatistiksel modelleme çerçevesinde gerçekleştirilen, veri verilen bir dizi aday model arasından seçim yapma görevidir. En basit durumlarda, halihazırda var olan bir veri seti dikkate alınır. Ancak görev, toplanan verilerin model seçim görevine çok uygun olması için deney tasarlamayı da içerebilir. Benzer tahmin veya açıklama gücüne sahip aday modeller verildiğinde, en basit model muhtemelen en iyi seçim olacaktır (Occam'ın usturası).

Konishi & Kitagawa, "İstatistiksel çıkarım problemlerinin çoğu, istatistiksel modelleme ile ilgili problemler olarak kabul edilebilir" diyor. Benzer şekilde Cox, "Konunun istatistiksel modele nasıl çevrildiği genellikle analizin en önemli kısmıdır" dedi.

Model seçimi, belirsizlik altında karar verme veya optimizasyon amaçları için çok sayıda hesaplamalı modelden birkaç temsili model seçme sorununa da atıfta bulunabilir.

Grafik desenler

Grafik model ya da olasılıksal grafik model, (PGM) ya da yapılandırılmış olasılıksal model, grafiğin rastgele değişkenler arasındaki koşullu bir ilişkinin yapısını ifade ettiği olasılıksal bir modeldir. Olasılık teorisi, istatistik (özellikle Bayes istatistikleri) ve makine öğreniminde yaygın olarak kullanılırlar.

Grafikli istatistiksel model
Grafikli istatistiksel model

Ekonometrik modeller

Ekonometrik modeller, şu alanlarda kullanılan istatistiksel modellerdir:Ekonometri. Bir ekonometrik model, belirli bir ekonomik fenomenle ilgili çeşitli ekonomik nicelikler arasında var olduğuna inanılan istatistiksel ilişkileri tanımlar. Bir ekonometrik model, belirsizliği hesaba katan deterministik bir ekonomik modelden veya kendisi stokastik olan bir ekonomik modelden türetilebilir. Ancak, belirli bir ekonomik teoriye bağlı olmayan ekonometrik modelleri kullanmak da mümkündür.

Önerilen: