1. Geleceğe yönelik tahminde bulunma
2. Bağımlı-bağımsız değişkenler arasındaki ilişkisel yapıyı nicel olarak ifade etme.
İstatistikçiler için iyi bir regresyon modeli kurmak hayati önem taşımaktadır. Çünkü elde edilen modele göre geleceğe dönük kararlar alınacaktır. Ayrıca bir değişkeni etkileyen diğer faktörlerin etki düzeyleri de regresyon analizi ile ortaya çıkarılmaktadır. Bu nedenle elde edilecek regresyon modeli doğrudan problemin yapısına göre hayatın akışını değiştirebilecek özelliğe sahiptir. Bu konuyu biraz daha açalım.
Farz edelim ki bir alışveriş merkezi içerisinde pastaneniz var. Pastaneye günlük pasta çeşitlerinden alıyorsunuz ve gün sonunda satamadığınız malları çöpe atmak zorunda kalıyorsunuz. Ancak her gün ne kadar satış yapacağınız hakkında rasgele bir karar da veremiyorsunuz. Bunun için günlük satış rakamlarını bağımlı değişken olarak alarak bir araştırmaya başlıyorsunuz. Satış rakamlarını etkileyen faktörleri tek tek ele alıyorsunuz ve bir regresyon modeli kuruyorsunuz. Örneğin hava sıcaklığı, alışveriş merkezine giren kişi sayısı, haftanın günleri vs. gibi bağımsız değişkenler seçiyorsunuz. Bu verilere dayanarak kurduğunuz regresyon modelinin mutlaka doğru sonuçlar yansıtmasını beklersiniz. Çünkü bu sonuçlara göre bir sonraki gün için ürün siparişi vereceksiniz. Eğer gereğinden düşük düzeyde bir satış rakamı tahmin ederseniz muhtemelen sipariş verdiğiniz ürünleriniz tükenecek ve gelen müşteriler pasta alamadığı için memnuniyetsiz bir şekilde ayrılacaklar. Bu da müşterine kaybına yol açabilir. Mesela çok yüksek miktarda satış olacağını tahmin ettiniz ve bu sebeple çok miktarda pasta sipariş ettiniz. Bu durumda da pastalar çöpe girecek ve zarara uğrayacaksınız. Sonuç olarak iyi bir kazanç elde etmek için doğru miktarda pasta sipariş vermeniz lazım. ( Tüm bunlara rağmen ben regresyon analizi falan yapmam, uyanık geçinip de bir önceki günün pastalarını satarım diyorsanız, kısa zamanda batacağınıza dair garanti verebilirim J Çünkü o şekilde iflas eden birisini tanıyorum. )
Yukarıda aktardığım küçük bir örnek dahi regresyon analizinin ne kadar önemli olduğuna işaret etmektedir. Günümüz literatüründe birçok regresyon analizi tekniği bulunmaktadır. Bu teknikler en genel ifade ile klasik regresyon varsayımların sağlanıp sağlanmaması, bağımlı-bağımsız değişkenler arasındaki ilişkinin şekli ve bağımlı değişkenin yapısına göre farklılıklar göstermektedir. Bizim için asıl mesele, en doğru regresyon modelini kurmaktır. Doğru regresyon tekniği uygulandığında bile, doğru modeli seçmek için modeller arası karşılaştırma yapılmalıdır. Ben bu çalışmada çoklu doğrusal regresyon (Ç.D.R) modellerinin karşılaştırılması üzerinde duracağım.
Ç.D.R modellerini karşılaştırmak için kullanılan yöntemlerden bazıları şunlardır:
- Geriye Doğru Eleme (Backward)
- Aşamalı Model Seçimi (Stepwise)
- Maksimum R^2 Gelişimi (MAXR)
- Minimum R^2 Gelişimi (MINR)
- R^2 Seçimi
- Düzeltilmiş R^2 Seçimi
- Mallow Cp Kriteri
Yukarıda saymış olduğum yöntemler dışında Akaike Bilgi Kriteri, Bayesci Bilgi Kriteri gibi çok çeşitli yöntemler mevcuttur. SAS programı ile bağımsız değişkenlerin farklı birleşimlerine (kombinasyon) göre model karşılaştırması yapılabilmektedir. Belirtmiş olduğum ilk üç yöntem diğer bir çok program kullanılarak uygulanabilir. Ancak diğer yöntemler için SAS en etkili araçtır. Model karşılaştırması için MODEL bağımlı değişken=bağımsız değişkenler / SELECTION=Yöntem şeklinde kod yazarak en uygun regresyon modeline karar verilebilir. Bahsetmiş olduğum model seçim yöntemleri üzerinde çok durmayacağım. Ancak şunu özellikle belirtmek isterim, farklı sayıda bağımsız değişkenler için R^2 seçimi uygun değildir. Çünkü serbestlik derecesi farklılığı ortaya çıkmaktadır. Bu sebeple model seçiminde R^2 ölçütünü kullanmayı önermiyorum. Onun yerine düzeltilmiş R^2 değerlerine göre model seçimi yapılabilir. Aşağıdaki tablolarda bir bağımlı üç bağımsız değişkenden oluşan bir veri seti kullanılarak elde edilen model seçimine ilişkin tabloları göstereceğim.
Son söz olarak şunu söylemeliyim: SAS uygulama konusunda diğer tüm programlardan çok daha etkili bir program. Özellikle regresyon analizi için MAXR, MINR ve Mallow Cp ölçütü gibi farklı ölçütleri kullanarak farklı modeller elde edilebilmektedir.
Bağımlı Değişken: Kilo
Bağımsız Değişkenler: Yaş, Günlük Alınan Kalori Miktarı (kcal), Günlük Spor Süresi (dakika)
ADJUSTED RSQUARE
Number in Model | Adjusted R-Square | R-Square | Variables in Model |
3 | 0.9765 | 0.9882 | KALORI SPOR YAS |
2 | 0.9589 | 0.9726 | KALORI YAS |
1 | 0.9329 | 0.9441 | KALORI |
2 | 0.9180 | 0.9453 | KALORI SPOR |
2 | 0.4134 | 0.6090 | SPOR YAS |
1 | 0.1505 | 0.2920 | SPOR |
1 | 0.0724 | 0.2270 | YAS |
Number in Model | C(p) | R-Square | Variables in Model |
3 | 4.0000 | 0.9882 | KALORI SPOR YAS |
2 | 5.9764 | 0.9726 | KALORI YAS |
1 | 11.2445 | 0.9441 | KALORI |
2 | 12.9353 | 0.9453 | KALORI SPOR |
2 | 98.6536 | 0.6090 | SPOR YAS |
1 | 177.4135 | 0.2920 | SPOR |
1 | 193.9864 | 0.2270 | YAS |
MAXR
Analysis of Variance | |||||
Source | DF | Sum of Squares | Mean Square | F Value | Pr > F |
Model | 1 | 89.55495 | 89.55495 | 84.45 | 0.0003 |
Error | 5 | 5.30219 | 1.06044 | ||
Corrected Total | 6 | 94.85714 |
Variable | Parameter Estimate | Standard Error | Type II SS | F Value | Pr > F |
Intercept | 53.73302 | 1.48022 | 1397.38363 | 1317.74 | <.0001 |
KALORI | 0.00844 | 0.00091799 | 89.55495 | 84.45 | 0.0003 |
Bounds on condition number: 1, 1 |
The above model is the best 1-variable model found. |
Maximum R-Square Improvement: Step 2 |
Variable YAS Entered: R-Square = 0.9726 and C(p) = 5.9764 |
Analysis of Variance | |||||
Source | DF | Sum of Squares | Mean Square | F Value | Pr > F |
Model | 2 | 92.26034 | 46.13017 | 71.06 | 0.0007 |
Error | 4 | 2.59680 | 0.64920 | ||
Corrected Total | 6 | 94.85714 |
Variable | Parameter Estimate | Standard Error | Type II SS | F Value | Pr > F |
Intercept | 57.60197 | 2.22111 | 436.62836 | 672.56 | <.0001 |
KALORI | 0.00961 | 0.00092098 | 70.72680 | 108.94 | 0.0005 |
YAS | -0.19462 | 0.09534 | 2.70539 | 4.17 | 0.1108 |
Bounds on condition number: 1.6441, 6.5764 |
The above model is the best 2-variable model found. |
Maximum R-Square Improvement: Step 3 |
Variable SPOR Entered: R-Square = 0.9882 and C(p) = 4.0000 |
Analysis of Variance | |||||
Source | DF | Sum of Squares | Mean Square | F Value | Pr > F |
Model | 3 | 93.74046 | 31.24682 | 83.95 | 0.0022 |
Error | 3 | 1.11668 | 0.37223 | ||
Corrected Total | 6 | 94.85714 |
Variable | Parameter Estimate | Standard Error | Type II SS | F Value | Pr > F |
Intercept | 56.69597 | 1.74213 | 394.23095 | 1059.11 | <.0001 |
KALORI | 0.01148 | 0.00117 | 35.97705 | 96.65 | 0.0022 |
SPOR | 0.08057 | 0.04041 | 1.48012 | 3.98 | 0.1401 |
YAS | -0.34387 | 0.10399 | 4.07040 | 10.94 | 0.0455 |
Bounds on condition number: 4.6102, 32.667 |
The above model is the best 3-variable model found. |
No further improvement in R-Square is possible. |
Hiç yorum yok:
Yorum Gönder