14 Temmuz 2011 Perşembe

ÇOKLU DOĞRUSALLIK SORUNUN TESPİTİNE İLİŞKİN SPSS VE R PROJECT UYGULAMALARI



Çoklu doğrusal regresyon analizinde amaç, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini ayrı ayrı ölçmektir. Ancak bağımsız değişkenler arasındaki doğrusal veya doğrusala yakın yakın bir ilişki olması durumunda her bağımsız değişkenin bağımlı değişken üzerindeki kısmi etkileri kestirilemez. Bağımsız değişkenler birbirlerini etkilediği için, ortak bir etki söz konusu olacaktır. Çoklu doğrusallık terimi, iki veya daha fazla bağımsız değişken arasındaki doğrusala yakın ilişkiyi temsil etmek için kullanılmaktadır.

Çoklu doğrusallık sorununun tespit edilmesi için çeşitli sezgisel ve sayısal metotlar kullanılmaktadır. Ç.D (çoklu doğrusallık) tespiti için öncelikle bağımsız değişkenler arasındaki korelasyon değerleri incelenmelidir. Korelasyon değerlerinin 0,90’dan büyük olması durumunda Ç.D varlığından şüphe edilmelidir.  İkiden fazla değişken için çiftler arasındaki korelasyonlara ilişkin çeşitli eşik değerleri bulunmaktadır.


P=3 değişken için
P=6 değişken için
r (Korelasyon katsayısı)
r≥0,9325 veya r≤-0,4825
r≥0,9164 veya r≤-0,1964

Pozitif korelasyonun negatif korelasyona göre daha yüksek eşik değerleri taşıdığı için gerçekleşme koşulunun nispeten zor olduğu söylenebilir. Ancak negatif korelasyona ilişkin alt sınır değerleri  -1/(p-1) formülü ile hesaplandığı için, alt sınır koşulu negatif korelasyon için sıkıntı oluşturmaktadır. Örneğin p=3 için alt sınır -0,50 , p=6 için alt sınır -0,20 olmaktadır. Bu sezgisel yöntem, ikiden fazla bağımsız değişken bulunması durumunda tek başına yeterli olmayacaktır. 

Bir diğer sezgisel yöntem de β tahmincilerine ilişkin t istatistiklerinin ve varyans değerlerinin incelenmesidir. Ç.D’ nin meydana geldiği durumlarda düşük değerli t istatistikleri ve yüksek değerli varyans değerleri gözlenmektedir. β tahmincilerinin varyans değerleri son derece yüksek olduğu için, tahmine ilişkin güven aralığı da genişleyecektir. Bu durumda düşük t istatistiği, yüksek standart hata ve geniş güven aralıklarına bakılarak Ç.D sorununun var olduğu söylenebilir.

Ç.D sorununun varlığını tespit etmek için kullanılan sayısal yöntemler de mevcuttur. Bunlardan birisi, yan regresyon olarak adlandırabileceğimiz bağımsız değişkenlerin kendi aralarındaki regresyon denklemlerinin incelenmesidir. Her bağımsız değişken bağımlı değişkenmiş gibi diğer bağımsız değişkenlerle ayrı ayrı regresyon işlemine tabi tutulur ve her denkleme ilişkin R^2 değerleri hesaplanır. F ile R^2 değerleri arasındaki ilişkiden yararlanılarak Ri değeri hesaplanır. F dağılımına uygunluk gösteren bu değer ve F tablo değeri karşılaştırılır. Ri değeri anlamlı ise, ilgili bağımsız değişkenin diğer bağımsız değişkenlerle doğrusal bir yapı içinde olduğuna karar verilir.

 Çeşitli sayısal yöntemlerin yanısıra, günümüzde Ç.D sorununu tespit edebilmek için kullanılan üç temel yöntem mevcuttur:

1.       VIF Değeri (Varyans Şişirme Çarpanı)
2.       Tolerans Değeri
3.       CI Koşul Endeksi

VIF değeri Marquardt (1970) tarafından önerilmiştir. VIF değeri, tıpkı yan regresyonda olduğu gibi her bağımsız değişkenin diğerleri ile ayrı ayrı regresyon işlemi gerçekleştirilmesi sonucu hesaplanan R^2 değerleri kullanılarak elde edilir. Her bağımsız değişkene ait VIF değerleri ayrı ayrı hesaplanarak hangi değişken veya değişkenlerin Ç.D sorununa yol açtığı tespit edilebilir. İlgili bağımsız değişken diğerleri ile ilişkili derecesi arttıkça VIF değeri yükselecektir. Tam ilişki durumunda VIF değeri , ilişki olmadığı durumda VIF değeri 1 olacaktır.  Tolerans değeri, kurulan regresyon denkleminden elde edilen R^2 değerleri kullanılarak 1- R^2 şeklinde her bağımsız değişken için hesaplanmaktadır. Tolerans değeri, diğer tahminciler dikkate alındığında elimizdeki tahminciye ilişkin varyans yüzdesinin gösterimidir. CI koşul endeksi, maksimum özdeğerin değişkene ilişkin özdeğere bölümünün karekökü alınarak hesaplanır.

VIF ve Tolerans değerlerine bakacak olursak, 10 ve üzeri VIF değeri ve 0,10’dan küçük Tolerans değeri için Ç.D’ nin var olduğu söylenebilir. CI koşul indeksi 15’in üzerinde olduğunda çoklu doğrusallığın orta düzeyde sorun oluşturduğu söylenebilir. Ancak CI koşul indeksi 30 ve üzeri değerler aldığında Ç.D’nin yüksek derecede sorun oluşturduğu kabul edilir. Bu yöntemlerin haricinde varyans-kovaryans Σ matrisinin özdeğerlerine bakılarak Ç.D sorunu tespit edilebilir.  Σ matrisinin 1’den fazla özdeğeri 0’a yakın değer alıyor ise, Ç.D’ nin var olduğu belirtilir.

Ç.D’ nin tespitine ilişkin kullanılan yöntemler çeşitli bilgisayar programları aracılığı ile uygulanabilmektedir. SPSS ve R Project programına ilişkin çeşitli uygulamalar, elimde var olan çeşitli veri setleri kullanılarak gerçekleştirilmiştir.


R PROJECT UYGULAMASI


# VIF değerleri
tahmin<-lm(stack.loss~Acid.Conc.+Air.Flow+Water.Temp, data=stackloss)
tahmin
v<-vif(tahmin)


Acid.Conc.
Air.Flow
Water.Temp
1.333.587
2.906.484
2.572.632


SPSS UYGULAMASI

GET
  FILE='D:\C\Desktop\iSTATİSTİK\SPSS\VERİ\veri.sav'.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE ZPP
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT Y1
  /METHOD=ENTER X1 X2 X3 X4.



Collinearity Statistics

Tolerance
VIF
Constant


X1
,388
2,575
X2
,355
2,815
X3
,212
4,712
X4
,215
4,654
X5
,650
1,539

Collinearity Diagnosticsa
Model
Dimension
Eigenvalue
Condition Index
Variance Proportions
(Constant)
X1
X2
X3
X4
X5
1
1
5,849
1,000
,00
,00
,00
,00
,00
,00
2
,095
7,839
,00
,02
,01
,15
,00
,03
3
,026
14,910
,05
,15
,02
,09
,02
,00
4
,021
16,825
,01
,16
,02
,01
,00
,92
5
,007
28,182
,00
,67
,94
,00
,00
,04
6
,001
67,174
,94
,00
,02
,75
,98
,00




13 Temmuz 2011 Çarşamba

ÇOK BOYUTLU ÖLÇEKLEME ANALİZİ VE SPSS, R PROJECT UYGULAMALARI


 
Çok Boyutlu Ölçekleme Analizi,  nesneleri arasındaki gizli yapıları yakınlık ölçüleri aracılığı ile ortaya çıkaran çok değişkenli bir boyut indirgeme metodudur. Gizli yapılardan sözcüğü ile anlatılmak istenen, nesnelerin birbirleri ile olan karşılıklı ilişkileridir. Bu teknik sayesinde p sayıdaki değişken yerine k sayıda boyut kullanılarak (p>k) nesnelerin karşılaştırmalı yapısı gözlenebilmektedir. Ç.B.A, nesneler arasında karşılaştırma yapabilmek için grafiksel gösterimler sunmaktadır. Teorik açıdan inceleyecek olursak, n tane nesne p boyutlu uzayda noktalar kümesi oluşturmaktadır. Bu teknik ile amaçlanan esas şey, bu noktalar kümesini orijinal halini bozmadan daha düşük boyutlu bir uzayda gösterebilmektir.

Ç.B.A Psikoloji, Politik Bilimler, Pazarlama gibi birçok farklı alanda kullanılmaktadır. Politik bilimlerde seçmenlerin adaylar arasındaki algılama düzeyini ölçmek için kullanılmaktadır. Psikologlar bireylerin konuşma şekli, kişilik yapıları gibi çeşitli özelliklerini değerlendirmek üzere Ç.B.A tekniğini uygulamaktadır. Pazar araştırmacıları tüketicilerin ürün özellikleri açısından değerlendirmelerini karşılaştırmak için bu yöntemi kullanmaktadır.

Ç.B.A diğer çok değişkenli istatistiklere göre daha avantajlı bir tekniktir çünkü Ç.B.A için herhangi bir dağılıma uyma zorunluluğu bulunmamaktadır. Ayrıca nesneler arasındaki ilişkiler grafiksel gösterim aracılığı ile rahatlıkla gözlenebilmektedir. Ç.B.A verilerin ölçek tipine genel olarak üç kategoriye ayrılmaktadır:

 1.  Metrik  Ç.B.A 
  2.  Metrik Olmayan Ç.B.A
 3.  Klasik Ç.B.A

Metrik Ç.B.A analizi veriler aralıklı ve oransal ölçekli olduğu durumlarda kullanılmaktadır. Metrik olmayan Ç.B.A veriler sınıflayıcı veya sıralayıcı ölçekli olduğu durumlarda uygulanmaktadır. Klasik Ç.B.A analizi 1952 yılında Torgensen tarafından ortaya atılmış ve popüler hale gelmiştir. Klasik Ç.B.A diğer yöntemlere göre teknik açıdan farklılık göstermektedir. Metrik ve metrik olmayan yöntemlerin aksine herhangi bir iteratif işlem kullanılmadan gerçekleştirilmektedir. Klasik Ç.B.A spektral ayrıştırma kullanılarak, Temel Bileşenler Analizine benzer şekilde nesneleri daha düşük boyutlu bir uzayda konumlandırmaktadır.

Ç.B.A diğer çok değişkenli tekniklerde olduğu gibi ham X verileri ile işlem görmemektedir. Bunun yerine verinin yapısına göre yakınlık ölçüsü olarak tanımlayabileceğimiz farklılık veya benzerlik ölçülerinden herhangi biri seçilerek uzaklık matrisi elde edilmekte ve D uzaklık matrisinden yararlanılmaktadır. Uzaklık matrisi oluşturulmadan önce, farklı ölçekli veriler kullanıldığında standardizasyon işlemi gerçekleştirilmelidir. İkili ölçekli değişkenler için standardizasyon işlemi uygulanamaz.

Metrik ve metrik olmayan Ç.B.A’ da verilerin uzaklıklarına göre uygun regresyon metodu seçilerek tahmini gösterim (konfigürasyon) uzaklıkları hesaplanmaktadır. Uygun regresyon metodu (doğrusal, monotik, polinominal) serpilme diyagramı incelenerek seçilmelidir. Metrik olmayan Ç.B.A için iteratif şekilde Shepard Algoritması kullanılmaktadır. Uzaklıklar ve sıralamalar arasındaki ilişkiye göre PAV (pool-adjacent violator) algoritması da kullanılabilir. Tahmini gösterim uzaklıkları hesaplandıktan sonra, bu uzaklık değerleri kullanılarak farklılık matrisi elde edilir. Farklılık matrisi incelenerek daha düşük boyutlu uzayda nesneler arasında karşılaştırma yapılabilmektedir.  Mevcut uzaklık ve tahmini gösterim uzaklık değerleri arasındaki uyumu ölçebilmek için stres istatistiği hesaplanır. Bu istatistiğe ilişkin değer aralıklarına göre uyum düzeyi ölçülebilir. Stres tablosu aşağıdaki gibidir:

Stres Değeri
Uyum Düzeyi
0-0,025
Mükemmel
0,025-0,05
Çok iyi
0,05-0,1
İyi
0,1-0,2
Orta
0,2 ve üzeri
Düşük

Boyut indirgeme sonucunda boyut sayısını belirlemek için stress istatistiğine bakılmaktadır. Stres istatistiği iterasyonlar sonucunda belirli bir değere yakınsamaktadır. Yakınsanan değere ait olan boyut sayısı seçilebilir. Bu yöntem haricinde ham veri matrisi ve transpozunun çarpımı ile elde edilen pozitif yarı tanımlı B matrisinin özdeğerleri kullanılarak boyut sayısına karar verilebilir. Özdeğerler toplam değerinin toplam pozitif özdeğerleri bölünmesi ile elde edilen değer kadar boyut seçilebilir. Teorik altyapı çok fazla detay içerdiğinden detaylara girmeyeceğim. Uygulamada genel olarak 2 veya 3 boyut seçilmektedir. Boyut sayısı çoğaldıkça gösterim güçlüğü artacağı için 2 veya 3 boyut tercih edilmektedir. Boyut sayısına göre nesnelere ilişkin her boyuta ait koordinat değerleri hesaplanmaktadır. Koordinat değerlerine bakılarak hangi boyutta hangi nesnelerin daha baskın özellik taşıdığı tespit edilebilmektedir.
Ç.B.A’ yı uygulamak üzere R Project ve SPSS programlarına ilişkin kodlar ve çeşitli çıktılar okuyucuya sunulmaktadır. Veri setine ait olan veri setinin ismi vedeğişken isimleri değiştirilerek analiz gerçekleştirilebilmektedir. Ayrıca analize ilişkin diğer isim ve sayısal değerler de değiştirilebilir. Elde edilen çıktılar, elimdeki çeşitli veri setleri kullanılarak sonuçların sadece bir kısmıdır.


R KODLARI VE ÇIKTILARI


# Klasik Ç.B.A
d <- dist(hayaliveri)     # Satırlar arasındaki Öklid uzaklıkları
fit <- cmdscale(d,eig=TRUE, k=2)   # k , boyut sayısı
fit   # Tahmin sonucu

# Grafiksel çözüm
x <- fit$points[,1]
y <- fit$points[,2]
plot(x, y, xlab="Coordinate 1", ylab="Coordinate 2", main="Metric MDS", type="n")
text(x, y,  labels = row.names(hayaliveri), cex=.7)



# Metrik Olmayan Ç.B.A

d <- dist(hayaliveri)     # Satırlar arasındaki Öklid uzaklıkları
fit <- cmdscale(d,eig=TRUE, k=2)   # k , boyut sayısı
fit   # Tahmin sonucu

# Grafiksel çözüm
x <- fit$points[,1]
y <- fit$points[,2]
plot(x, y, xlab="Coordinate 1", ylab="Coordinate 2", main="Metric MDS", type="n")
text(x, y,  labels = row.names(hayaliveri), cex=.7)




SPSS KODLARI VE ÇIKTILARI



/MATRIX=IN('C:\Users\User\AppData\Local\Temp\spss4520\hayaliveri')
/LEVEL=ORDINAL
/CONDITION=MATRIX
/MODEL=EUCLID
/CRITERIA=CONVERGE(0.001) STRESSMIN(0.005) ITER(30) CUTOFF(0) DIMENS(2,2)
/PLOT=DEFAULT ALL
/PRINT=DATA HEADER.