Lojistik regresyon: model ve yöntemler

İçindekiler:

Lojistik regresyon: model ve yöntemler
Lojistik regresyon: model ve yöntemler
Anonim

Lojistik regresyon ve diskriminant analizi yöntemleri, yanıtlayanları hedef kategorilere göre açıkça ayırt etmek gerektiğinde kullanılır. Bu durumda, grupların kendileri tek bir değişken parametrenin seviyeleri ile temsil edilir. Lojistik regresyon modeline daha yakından bakalım ve neden gerekli olduğunu öğrenelim.

lojistik regresyon
lojistik regresyon

Genel bilgi

Lojistik regresyonun kullanıldığı bir probleme örnek, katılımcıların hardal alan ve almayan gruplara ayrılmasıdır. Farklılaştırma sosyo-demografik özelliklere göre yapılır. Bunlara özellikle yaş, cinsiyet, akraba sayısı, gelir vb. dahildir. Operasyonlarda farklılaştırma kriterleri ve bir değişken vardır. İkincisi, aslında yanıtlayanların bölünmesi gereken hedef kategorileri kodlar.

Nüanslar

Lojistik regresyonun uygulandığı durumların aralığının diskriminant analizine göre çok daha dar olduğu söylenmelidir. Bu bağlamda, ikincisinin evrensel bir farklılaşma yöntemi olarak kullanılması düşünülmektedir.daha çok tercih edilir. Ayrıca uzmanlar sınıflandırma çalışmalarına diskriminant analizi ile başlamayı önermektedir. Ve sadece sonuçlarla ilgili belirsizlik durumunda lojistik regresyon kullanabilirsiniz. Bu ihtiyaç birkaç faktörden kaynaklanmaktadır. Bağımsız ve bağımlı değişkenlerin türü net bir şekilde anlaşıldığında lojistik regresyon kullanılır. Buna göre, olası 3 prosedürden biri seçilir. Diskriminant analizinde araştırmacı her zaman tek bir statik işlemle ilgilenir. Herhangi bir ölçekte bir bağımlı ve birkaç bağımsız kategorik değişken içerir.

Görüntüleme

Lojistik regresyon kullanan istatistiksel bir çalışmanın görevi, belirli bir yanıtlayıcının belirli bir gruba atanma olasılığını belirlemektir. Farklılaştırma belirli parametrelere göre gerçekleştirilir. Uygulamada, bir veya daha fazla bağımsız faktörün değerlerine göre cevaplayıcıları iki gruba ayırmak mümkündür. Bu durumda ikili lojistik regresyon gerçekleşir. Ayrıca, belirtilen parametreler ikiden fazla gruba bölünürken kullanılabilir. Böyle bir durumda çok terimli lojistik regresyon gerçekleşir. Ortaya çıkan gruplar, tek bir değişkenin seviyelerinde ifade edilir.

lojistik regresyon
lojistik regresyon

Örnek

Diyelim ki, Moskova'nın banliyölerinde bir arsa satın alma teklifiyle ilgilenip ilgilenmedikleri sorusuna yanıt verenlerin yanıtları var. Seçenekler "hayır"ve evet. Potansiyel alıcıların kararlarında hangi faktörlerin baskın etkiye sahip olduğunu bulmak gerekir. Bunu yapmak için, katılımcılara bölgenin altyapısı, sermayeye olan uzaklığı, sitenin alanı, bir konut binasının varlığı / yokluğu vb. hakkında sorular sorulur. İkili regresyon kullanarak dağıtmak mümkündür. cevaplayıcılar iki gruba ayrılır. Birincisi, satın alma ile ilgilenenleri - potansiyel alıcıları ve ikincisi, sırasıyla böyle bir teklifle ilgilenmeyenleri içerecektir. Her katılımcı için ayrıca bir veya başka bir kategoriye atanma olasılığı hesaplanacaktır.

Karşılaştırmalı özellikler

Yukarıdaki iki seçeneğin farkı, grup sayısının farklı olması ve bağımlı ve bağımsız değişkenlerin türüdür. İkili regresyonda, örneğin, ikili bir faktörün bir veya daha fazla bağımsız koşula bağımlılığı incelenir. Ayrıca, ikincisi herhangi bir ölçeğe sahip olabilir. Çok terimli regresyon, bu sınıflandırma seçeneğinin bir varyasyonu olarak kabul edilir. İçinde 2'den fazla grup bağımlı değişkene aittir. Bağımsız faktörlerin sıralı veya nominal bir ölçeği olmalıdır.

spss'de lojistik regresyon

11-12 istatistik paketinde analizin yeni bir versiyonu sunuldu - sıralı. Bu yöntem, bağımlı faktör aynı isim (sıralı) ölçeğe ait olduğunda kullanılır. Bu durumda, bağımsız değişkenler belirli bir türden seçilir. Sıralı veya nominal olmalıdırlar. Birkaç kategoriye göre sınıflandırma en çok kabul edilirevrensel. Bu yöntem lojistik regresyon kullanan tüm çalışmalarda kullanılabilir. Ancak, bir modelin kalitesini artırmanın tek yolu üç tekniği de kullanmaktır.

yeterlilik kalite kontrolü ve lojistik regresyon
yeterlilik kalite kontrolü ve lojistik regresyon

Sıralı sınıflandırma

İstatistik paketinin başlarında, sıralı bir ölçeğe sahip bağımlı faktörler için özel analiz gerçekleştirmenin tipik bir olasılığının olmadığı söylenmelidir. 2'den fazla grubu olan tüm değişkenler için multinominal varyant kullanıldı. Nispeten yakın zamanda tanıtılan sıralı analizin bir takım özellikleri vardır. Ölçeğin özelliklerini dikkate alırlar. Bu arada, öğretim yardımcılarında, sıralı lojistik regresyon genellikle ayrı bir teknik olarak kabul edilmez. Bunun nedeni şudur: sıralı analizin çok terimliye göre önemli bir avantajı yoktur. Araştırmacı, hem sıralı hem de nominal bağımlı değişkenin varlığında ikincisini kullanabilir. Aynı zamanda, sınıflandırma süreçlerinin kendileri neredeyse birbirinden farklı değildir. Bu, sıralı analiz yapmanın herhangi bir zorluğa neden olmayacağı anlamına gelir.

Analiz seçeneği

Basit bir durumu ele alalım - ikili regresyon. Diyelim ki, pazarlama araştırması sürecinde, belirli bir büyükşehir üniversitesinin mezunlarına olan talep değerlendiriliyor. Ankette, katılımcılara aşağıdakiler de dahil olmak üzere sorular soruldu:

  1. Çalışıyor musunuz? (ql).
  2. Mezuniyet yılını girin (q 21).
  3. Ortalama nedirmezuniyet puanı (ortalama).
  4. Cinsiyet (q22).

Lojistik regresyon, aver, q 21 ve q 22 bağımsız faktörlerinin ql değişkeni üzerindeki etkisini değerlendirecektir. Basitçe söylemek gerekirse, analizin amacı alan, mezuniyet yılı ve genel not ortalamasına dayalı olarak mezunların muhtemel istihdamını belirlemek olacaktır.

lojistik sigmoid regresyon göstergesi
lojistik sigmoid regresyon göstergesi

Lojistik Regresyon

İkili regresyon kullanarak parametreleri ayarlamak için Analyze►Regression►Binary Logistic menüsünü kullanın. Lojistik Regresyon penceresinde, soldaki mevcut değişkenler listesinden bağımlı faktörü seçin. ql'dir. Bu değişken Bağımlı alanına yerleştirilmelidir. Bundan sonra, Covariates grafiğine bağımsız faktörleri eklemek gerekir - q 21, q 22, aver. Ardından, bunları analizinize nasıl dahil edeceğinizi seçmeniz gerekir. Bağımsız faktörlerin sayısı 2'den fazlaysa, varsayılan olarak ayarlanan tüm değişkenlerin aynı anda tanıtılması yöntemi kullanılır, ancak adım adım. En popüler yol Backward:LR'dir. Seç düğmesini kullanarak araştırmaya tüm yanıtlayanları değil, yalnızca belirli bir hedef kategorisini dahil edebilirsiniz.

Kategorik Değişkenleri Tanımlayın

Kategorik düğmesi, bağımsız değişkenlerden biri 2'den fazla kategoriyle nominal olduğunda kullanılmalıdır. Bu durumda, Kategorik Değişkenleri Tanımla penceresinde, Kategorik Değişkenler bölümüne tam da böyle bir parametre yerleştirilir. Bu örnekte, böyle bir değişken yoktur. Bundan sonra, açılır listede Kontrast şu şekildedir:Sapma öğesini seçin ve Değiştir düğmesine basın. Sonuç olarak, her bir nominal faktörden birkaç bağımlı değişken oluşacaktır. Sayıları, başlangıç koşulunun kategorilerinin sayısına karşılık gelir.

Yeni Değişkenleri Kaydet

Çalışmanın ana iletişim kutusundaki Kaydet düğmesi kullanılarak yeni parametrelerin oluşturulması ayarlanır. Regresyon sürecinde hesaplanan göstergeleri içereceklerdir. Özellikle, aşağıdakileri tanımlayan değişkenler oluşturabilirsiniz:

  1. Belirli bir sınıflandırma kategorisine ait (Grup üyeliği).
  2. Her çalışma grubuna bir yanıtlayıcı atama olasılığı (Olasılıklar).

Seçenekler düğmesini kullanırken, araştırmacı önemli seçenekler elde etmez. Buna göre, göz ardı edilebilir. "Tamam" düğmesine tıkladıktan sonra, analizin sonuçları ana pencerede görüntülenecektir.

lojistik regresyon katsayısı
lojistik regresyon katsayısı

Yeterlilik ve lojistik regresyon için kalite kontrolü

Model Katsayılarının Çok Yönlü Testleri tablosunu göz önünde bulundurun. Modelin yaklaşıklığının kalitesinin analizinin sonuçlarını görüntüler. Adım adım bir seçenek ayarlandığından, son aşamanın (Adım2) sonuçlarına bakmanız gerekir. Bir sonraki aşamaya geçilirken Ki-kare göstergesinde yüksek derecede anlamlı bir artış bulunursa olumlu bir sonuç kabul edilecektir (Sig. < 0.05). Modelin kalitesi Model hattında değerlendirilir. Negatif bir değer elde edilirse, ancak modelin genel olarak yüksek önemliliği ile anlamlı olarak kabul edilmezse, sonpratik olarak uygun kabul edilebilir.

Tablolar

Model Özeti, oluşturulan model (R Kare indeksi) tarafından açıklanan toplam varyans indeksini tahmin etmeyi mümkün kılar. Nagelker değerinin kullanılması tavsiye edilir. Nagelkerke R Kare parametresi 0,50'nin üzerindeyse pozitif bir gösterge olarak kabul edilebilir. Bundan sonra, incelenen bir veya başka bir kategoriye ait gerçek göstergelerin regresyon modeline göre tahmin edilenlerle karşılaştırıldığı sınıflandırmanın sonuçları değerlendirilir. Bunun için Sınıflandırma Tablosu kullanılır. Ayrıca, incelenen her grup için farklılaşmanın doğruluğu hakkında sonuçlar çıkarmamızı sağlar.

lojistik regresyon modeli
lojistik regresyon modeli

Aşağıdaki tablo, analize girilen bağımsız faktörlerin yanı sıra standartlaştırılmamış her bir lojistik regresyon katsayısının istatistiksel önemini bulmak için bir fırsat sağlar. Bu göstergelere dayanarak, örneklemdeki her bir katılımcının belirli bir gruba ait olduğunu tahmin etmek mümkündür. Kaydet düğmesini kullanarak yeni değişkenler girebilirsiniz. Belirli bir sınıflandırma kategorisine (Öngörülen kategori) ait olma ve bu gruplara dahil olma olasılığı (Öngörülen olasılıklar üyeliği) hakkında bilgi içereceklerdir. "Tamam"ı tıkladıktan sonra, hesaplama sonuçları Multinomial Logistic Regression'ın ana penceresinde görünecektir.

Araştırmacı için önemli olan göstergeleri içeren ilk tablo Model Uyum Bilgileri'dir. Yüksek düzeyde bir istatistiksel anlamlılık, yüksek kaliteyi vepratik problemlerin çözümünde modeli kullanmanın uygunluğu. Bir diğer önemli tablo ise Pseudo R-Square. Analiz için seçilen bağımsız değişkenler tarafından belirlenen bağımlı faktördeki toplam varyans oranını tahmin etmenizi sağlar. Olabilirlik Oranı Testleri tablosuna göre, ikincisinin istatistiksel önemi hakkında sonuçlar çıkarabiliriz. Parametre Tahminleri, standartlaştırılmamış katsayıları yansıtır. Denklemin yapımında kullanılırlar. Ayrıca, her bir değişken kombinasyonu için bunların bağımlı faktör üzerindeki etkisinin istatistiksel önemi belirlendi. Bu arada, pazarlama araştırmasında, yanıtlayanları bireysel olarak değil, hedef grubun bir parçası olarak kategorilere göre ayırmak genellikle gerekli hale gelir. Bunun için Gözlenen ve Öngörülen Frekanslar tablosu kullanılır.

Pratik uygulama

Değerlendirilen analiz yöntemi, tüccarların çalışmalarında yaygın olarak kullanılmaktadır. 1991 yılında lojistik sigmoid regresyon göstergesi geliştirildi. Olası fiyatları "aşırı ısınmadan" önce tahmin etmek için kullanımı kolay ve etkili bir araçtır. Gösterge, grafikte iki paralel çizgiden oluşan bir kanal olarak gösterilir. Trendden eşit uzaklıktalar. Koridorun genişliği yalnızca zaman çerçevesine bağlı olacaktır. Gösterge, döviz çiftlerinden değerli metallere kadar neredeyse tüm varlıklarla çalışırken kullanılır.

spss'de lojistik regresyon
spss'de lojistik regresyon

Uygulamada, enstrümanı kullanmak için 2 temel strateji geliştirilmiştir: koparma vebir dönüş için. İkinci durumda, tüccar kanal içindeki fiyat değişikliklerinin dinamiklerine odaklanacaktır. Değer, destek veya direnç çizgisine yaklaştıkça, hareketin ters yönde başlama olasılığı üzerine bahis yapılır. Fiyat üst sınıra yaklaşırsa, varlıktan kurtulabilirsiniz. Alt sınırda ise, satın almayı düşünmelisiniz. Koparma stratejisi, siparişlerin kullanımını içerir. Nispeten küçük bir mesafede sınırların dışına kurulurlar. Fiyatın bazı durumlarda onları kısa bir süre için ihlal ettiğini göz önünde bulundurarak, güvenli oynamalı ve kayıpları durdurmalısınız. Aynı zamanda, elbette, seçilen stratejiden bağımsız olarak, tüccarın piyasada ortaya çıkan durumu olabildiğince sakin bir şekilde algılaması ve değerlendirmesi gerekir.

Sonuç

Böylece, lojistik regresyon kullanımı, yanıtlayanları verilen parametrelere göre hızlı ve kolay bir şekilde kategorilere ayırmanıza olanak tanır. Analiz ederken, herhangi bir belirli yöntemi kullanabilirsiniz. Özellikle, çok terimli regresyon evrenseldir. Ancak uzmanlar, yukarıda açıklanan tüm yöntemleri bir arada kullanmanızı önerir. Bunun nedeni, bu durumda modelin kalitesinin önemli ölçüde daha yüksek olacağıdır. Bu da uygulama aralığını genişletecektir.

Önerilen: