14 Temmuz 2011 Perşembe

ÇOKLU DOĞRUSALLIK SORUNUN TESPİTİNE İLİŞKİN SPSS VE R PROJECT UYGULAMALARI



Çoklu doğrusal regresyon analizinde amaç, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini ayrı ayrı ölçmektir. Ancak bağımsız değişkenler arasındaki doğrusal veya doğrusala yakın yakın bir ilişki olması durumunda her bağımsız değişkenin bağımlı değişken üzerindeki kısmi etkileri kestirilemez. Bağımsız değişkenler birbirlerini etkilediği için, ortak bir etki söz konusu olacaktır. Çoklu doğrusallık terimi, iki veya daha fazla bağımsız değişken arasındaki doğrusala yakın ilişkiyi temsil etmek için kullanılmaktadır.

Çoklu doğrusallık sorununun tespit edilmesi için çeşitli sezgisel ve sayısal metotlar kullanılmaktadır. Ç.D (çoklu doğrusallık) tespiti için öncelikle bağımsız değişkenler arasındaki korelasyon değerleri incelenmelidir. Korelasyon değerlerinin 0,90’dan büyük olması durumunda Ç.D varlığından şüphe edilmelidir.  İkiden fazla değişken için çiftler arasındaki korelasyonlara ilişkin çeşitli eşik değerleri bulunmaktadır.


P=3 değişken için
P=6 değişken için
r (Korelasyon katsayısı)
r≥0,9325 veya r≤-0,4825
r≥0,9164 veya r≤-0,1964

Pozitif korelasyonun negatif korelasyona göre daha yüksek eşik değerleri taşıdığı için gerçekleşme koşulunun nispeten zor olduğu söylenebilir. Ancak negatif korelasyona ilişkin alt sınır değerleri  -1/(p-1) formülü ile hesaplandığı için, alt sınır koşulu negatif korelasyon için sıkıntı oluşturmaktadır. Örneğin p=3 için alt sınır -0,50 , p=6 için alt sınır -0,20 olmaktadır. Bu sezgisel yöntem, ikiden fazla bağımsız değişken bulunması durumunda tek başına yeterli olmayacaktır. 

Bir diğer sezgisel yöntem de β tahmincilerine ilişkin t istatistiklerinin ve varyans değerlerinin incelenmesidir. Ç.D’ nin meydana geldiği durumlarda düşük değerli t istatistikleri ve yüksek değerli varyans değerleri gözlenmektedir. β tahmincilerinin varyans değerleri son derece yüksek olduğu için, tahmine ilişkin güven aralığı da genişleyecektir. Bu durumda düşük t istatistiği, yüksek standart hata ve geniş güven aralıklarına bakılarak Ç.D sorununun var olduğu söylenebilir.

Ç.D sorununun varlığını tespit etmek için kullanılan sayısal yöntemler de mevcuttur. Bunlardan birisi, yan regresyon olarak adlandırabileceğimiz bağımsız değişkenlerin kendi aralarındaki regresyon denklemlerinin incelenmesidir. Her bağımsız değişken bağımlı değişkenmiş gibi diğer bağımsız değişkenlerle ayrı ayrı regresyon işlemine tabi tutulur ve her denkleme ilişkin R^2 değerleri hesaplanır. F ile R^2 değerleri arasındaki ilişkiden yararlanılarak Ri değeri hesaplanır. F dağılımına uygunluk gösteren bu değer ve F tablo değeri karşılaştırılır. Ri değeri anlamlı ise, ilgili bağımsız değişkenin diğer bağımsız değişkenlerle doğrusal bir yapı içinde olduğuna karar verilir.

 Çeşitli sayısal yöntemlerin yanısıra, günümüzde Ç.D sorununu tespit edebilmek için kullanılan üç temel yöntem mevcuttur:

1.       VIF Değeri (Varyans Şişirme Çarpanı)
2.       Tolerans Değeri
3.       CI Koşul Endeksi

VIF değeri Marquardt (1970) tarafından önerilmiştir. VIF değeri, tıpkı yan regresyonda olduğu gibi her bağımsız değişkenin diğerleri ile ayrı ayrı regresyon işlemi gerçekleştirilmesi sonucu hesaplanan R^2 değerleri kullanılarak elde edilir. Her bağımsız değişkene ait VIF değerleri ayrı ayrı hesaplanarak hangi değişken veya değişkenlerin Ç.D sorununa yol açtığı tespit edilebilir. İlgili bağımsız değişken diğerleri ile ilişkili derecesi arttıkça VIF değeri yükselecektir. Tam ilişki durumunda VIF değeri , ilişki olmadığı durumda VIF değeri 1 olacaktır.  Tolerans değeri, kurulan regresyon denkleminden elde edilen R^2 değerleri kullanılarak 1- R^2 şeklinde her bağımsız değişken için hesaplanmaktadır. Tolerans değeri, diğer tahminciler dikkate alındığında elimizdeki tahminciye ilişkin varyans yüzdesinin gösterimidir. CI koşul endeksi, maksimum özdeğerin değişkene ilişkin özdeğere bölümünün karekökü alınarak hesaplanır.

VIF ve Tolerans değerlerine bakacak olursak, 10 ve üzeri VIF değeri ve 0,10’dan küçük Tolerans değeri için Ç.D’ nin var olduğu söylenebilir. CI koşul indeksi 15’in üzerinde olduğunda çoklu doğrusallığın orta düzeyde sorun oluşturduğu söylenebilir. Ancak CI koşul indeksi 30 ve üzeri değerler aldığında Ç.D’nin yüksek derecede sorun oluşturduğu kabul edilir. Bu yöntemlerin haricinde varyans-kovaryans Σ matrisinin özdeğerlerine bakılarak Ç.D sorunu tespit edilebilir.  Σ matrisinin 1’den fazla özdeğeri 0’a yakın değer alıyor ise, Ç.D’ nin var olduğu belirtilir.

Ç.D’ nin tespitine ilişkin kullanılan yöntemler çeşitli bilgisayar programları aracılığı ile uygulanabilmektedir. SPSS ve R Project programına ilişkin çeşitli uygulamalar, elimde var olan çeşitli veri setleri kullanılarak gerçekleştirilmiştir.


R PROJECT UYGULAMASI


# VIF değerleri
tahmin<-lm(stack.loss~Acid.Conc.+Air.Flow+Water.Temp, data=stackloss)
tahmin
v<-vif(tahmin)


Acid.Conc.
Air.Flow
Water.Temp
1.333.587
2.906.484
2.572.632


SPSS UYGULAMASI

GET
  FILE='D:\C\Desktop\iSTATİSTİK\SPSS\VERİ\veri.sav'.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE ZPP
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT Y1
  /METHOD=ENTER X1 X2 X3 X4.



Collinearity Statistics

Tolerance
VIF
Constant


X1
,388
2,575
X2
,355
2,815
X3
,212
4,712
X4
,215
4,654
X5
,650
1,539

Collinearity Diagnosticsa
Model
Dimension
Eigenvalue
Condition Index
Variance Proportions
(Constant)
X1
X2
X3
X4
X5
1
1
5,849
1,000
,00
,00
,00
,00
,00
,00
2
,095
7,839
,00
,02
,01
,15
,00
,03
3
,026
14,910
,05
,15
,02
,09
,02
,00
4
,021
16,825
,01
,16
,02
,01
,00
,92
5
,007
28,182
,00
,67
,94
,00
,00
,04
6
,001
67,174
,94
,00
,02
,75
,98
,00




Hiç yorum yok: