24 Ağustos 2012 Cuma

SAS Programı ile Regresyon Modellerinin Karşılaştırılması

            Regresyon analizi kuşkusuz, istatistikçiler için vazgeçilmez bir yöntem. Regresyon analizi iki amaç için kullanılır:

           1. Geleceğe yönelik tahminde bulunma
           2.  Bağımlı-bağımsız değişkenler arasındaki ilişkisel yapıyı nicel olarak ifade etme.

   
İstatistikçiler için iyi bir regresyon modeli kurmak hayati önem taşımaktadır. Çünkü elde edilen modele   göre geleceğe dönük kararlar alınacaktır. Ayrıca bir değişkeni etkileyen diğer faktörlerin etki düzeyleri de regresyon analizi ile ortaya çıkarılmaktadır. Bu nedenle elde edilecek regresyon modeli doğrudan problemin yapısına göre hayatın akışını değiştirebilecek özelliğe sahiptir. Bu konuyu biraz daha açalım.



Farz edelim ki bir alışveriş merkezi içerisinde pastaneniz var. Pastaneye günlük pasta çeşitlerinden alıyorsunuz ve gün sonunda satamadığınız malları çöpe atmak zorunda kalıyorsunuz. Ancak her gün ne kadar satış yapacağınız hakkında rasgele bir karar da veremiyorsunuz. Bunun için günlük satış rakamlarını bağımlı değişken olarak alarak bir araştırmaya başlıyorsunuz. Satış rakamlarını etkileyen faktörleri tek tek ele alıyorsunuz ve bir regresyon modeli kuruyorsunuz. Örneğin hava sıcaklığı, alışveriş merkezine giren kişi sayısı, haftanın günleri vs. gibi bağımsız değişkenler seçiyorsunuz. Bu verilere dayanarak kurduğunuz regresyon modelinin mutlaka doğru sonuçlar yansıtmasını beklersiniz. Çünkü bu sonuçlara göre bir sonraki gün için ürün siparişi vereceksiniz. Eğer gereğinden düşük düzeyde bir satış rakamı tahmin ederseniz muhtemelen sipariş verdiğiniz ürünleriniz tükenecek ve gelen müşteriler pasta alamadığı için memnuniyetsiz bir şekilde ayrılacaklar. Bu da müşterine kaybına yol açabilir. Mesela çok yüksek miktarda satış olacağını tahmin ettiniz ve bu sebeple çok miktarda pasta sipariş ettiniz. Bu durumda da pastalar çöpe girecek ve zarara uğrayacaksınız. Sonuç olarak iyi bir kazanç elde etmek için doğru miktarda pasta sipariş vermeniz lazım. ( Tüm bunlara rağmen ben regresyon analizi falan yapmam, uyanık geçinip de bir önceki günün pastalarını satarım diyorsanız, kısa zamanda batacağınıza dair garanti verebilirim Çünkü o şekilde iflas eden birisini tanıyorum. )


Yukarıda aktardığım küçük bir örnek dahi regresyon analizinin ne kadar önemli olduğuna işaret etmektedir. Günümüz literatüründe birçok regresyon analizi tekniği bulunmaktadır. Bu teknikler en genel ifade ile klasik regresyon varsayımların sağlanıp sağlanmaması, bağımlı-bağımsız değişkenler arasındaki ilişkinin şekli ve bağımlı değişkenin yapısına göre farklılıklar göstermektedir. Bizim için asıl mesele, en doğru regresyon modelini kurmaktır. Doğru regresyon tekniği uygulandığında bile, doğru modeli seçmek için modeller arası karşılaştırma yapılmalıdır. Ben bu çalışmada çoklu doğrusal regresyon (Ç.D.R) modellerinin karşılaştırılması üzerinde duracağım.



Ç.D.R modellerini karşılaştırmak için kullanılan yöntemlerden bazıları şunlardır:


  •  İleriye Doğru Seçim (Forward)
  • Geriye Doğru Eleme (Backward)
  • Aşamalı Model Seçimi (Stepwise)
  • Maksimum R^2 Gelişimi (MAXR)
  • Minimum R^2 Gelişimi  (MINR)
  • R^2 Seçimi
  • Düzeltilmiş R^2 Seçimi
  • Mallow Cp Kriteri


Yukarıda saymış olduğum yöntemler dışında Akaike Bilgi Kriteri, Bayesci Bilgi Kriteri gibi çok çeşitli yöntemler mevcuttur. SAS programı ile bağımsız değişkenlerin farklı birleşimlerine (kombinasyon) göre model karşılaştırması yapılabilmektedir. Belirtmiş olduğum ilk üç yöntem diğer bir çok program kullanılarak uygulanabilir. Ancak diğer yöntemler için SAS en etkili araçtır. Model karşılaştırması için MODEL bağımlı değişken=bağımsız değişkenler / SELECTION=Yöntem şeklinde kod yazarak en uygun regresyon modeline karar verilebilir. Bahsetmiş olduğum model seçim yöntemleri üzerinde çok durmayacağım. Ancak şunu özellikle belirtmek isterim, farklı sayıda bağımsız değişkenler için R^2 seçimi uygun değildir. Çünkü serbestlik derecesi farklılığı ortaya çıkmaktadır. Bu sebeple model seçiminde R^2 ölçütünü kullanmayı önermiyorum. Onun yerine düzeltilmiş R^2 değerlerine göre model seçimi yapılabilir. Aşağıdaki tablolarda bir bağımlı üç bağımsız değişkenden oluşan bir veri seti kullanılarak elde edilen model seçimine ilişkin tabloları göstereceğim.


Son söz olarak şunu söylemeliyim: SAS uygulama konusunda diğer tüm programlardan çok daha etkili bir program. Özellikle regresyon analizi için MAXR, MINR ve Mallow Cp ölçütü gibi farklı ölçütleri kullanarak farklı modeller elde edilebilmektedir.


Bağımlı Değişken: Kilo
Bağımsız Değişkenler: Yaş, Günlük Alınan Kalori Miktarı (kcal), Günlük Spor Süresi (dakika)



                          ADJUSTED RSQUARE



Number in
Model
Adjusted
R-Square
R-Square
Variables in Model
3
0.9765
0.9882
KALORI SPOR YAS
2
0.9589
0.9726
KALORI YAS
1
0.9329
0.9441
KALORI
2
0.9180
0.9453
KALORI SPOR
2
0.4134
0.6090
SPOR YAS
1
0.1505
0.2920
SPOR
1
0.0724
0.2270
YAS




                                                               MALLOW CP



Number in
Model
C(p)
R-Square
Variables in Model
3
4.0000
0.9882
KALORI SPOR YAS
2
5.9764
0.9726
KALORI YAS
1
11.2445
0.9441
KALORI
2
12.9353
0.9453
KALORI SPOR
2
98.6536
0.6090
SPOR YAS
1
177.4135
0.2920
SPOR
1
193.9864
0.2270
YAS


                                                              

                  

                                    MAXR




Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 1 89.55495 89.55495 84.45 0.0003
Error 5 5.30219 1.06044
Corrected Total 6 94.85714

Variable Parameter
Estimate
Standard
Error
Type II SS F Value Pr > F
Intercept 53.73302 1.48022 1397.38363 1317.74 <.0001
KALORI 0.00844 0.00091799 89.55495 84.45 0.0003
Bounds on condition number: 1, 1
The above model is the best 1-variable model found.
Maximum R-Square Improvement: Step 2

Variable YAS Entered: R-Square = 0.9726 and C(p) = 5.9764
Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 2 92.26034 46.13017 71.06 0.0007
Error 4 2.59680 0.64920
Corrected Total 6 94.85714

Variable Parameter
Estimate
Standard
Error
Type II SS F Value Pr > F
Intercept 57.60197 2.22111 436.62836 672.56 <.0001
KALORI 0.00961 0.00092098 70.72680 108.94 0.0005
YAS -0.19462 0.09534 2.70539 4.17 0.1108
Bounds on condition number: 1.6441, 6.5764
The above model is the best 2-variable model found.
Maximum R-Square Improvement: Step 3

Variable SPOR Entered: R-Square = 0.9882 and C(p) = 4.0000
Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 3 93.74046 31.24682 83.95 0.0022
Error 3 1.11668 0.37223
Corrected Total 6 94.85714

Variable Parameter
Estimate
Standard
Error
Type II SS F Value Pr > F
Intercept 56.69597 1.74213 394.23095 1059.11 <.0001
KALORI 0.01148 0.00117 35.97705 96.65 0.0022
SPOR 0.08057 0.04041 1.48012 3.98 0.1401
YAS -0.34387 0.10399 4.07040 10.94 0.0455
Bounds on condition number: 4.6102, 32.667
The above model is the best 3-variable model found.
No further improvement in R-Square is possible.

Hiç yorum yok: