1 Eylül 2012 Cumartesi

R' de Korelasyon Analizinin Görselleştirilmesi Üzerine Bir Grafiksel Yaklaşım



Korelasyon analizi, sayısal değişkenler arasındaki ilişkinin yönünü ve derecesini tespit edebilmek için kullanılan bir istatistiksel yöntemdir. Korelasyon analizindeki en önemli nokta, nedensellik ilişkileri Bugün birçok bilim dalında yürütülen çalışmada korelasyon analizi uygulanmaktadır. Yalnız korelasyon analizi uygulanırken teorik düzeyde bazı kavramlara dikkat edilmediği için hatalı sonuçlar elde edilmektedir. Korelasyon analizi uygulanırken dikkat edilmesi gereken iki temel nokta var:


·         Değişkenlerin dağılım şekli
·         Korelasyon katsayısının anlamlılığı



Korelasyon analizine başlamadan önce ilk yapılacak şey değişkenlerin normal dağılıp dağılmadığını belirlemektir. Normal dağılan değişkenler için literatürde en sık kullanılan teknik Pearson korelasyon katsayısıdır. Normal dağılıma uygun olmayan değişkenler için Spearman korelasyon katsayısı kullanılır. Uygun korelasyon analizi belirlendikten sonra, değişkenler arası doğrusal bir ilişkinin olup olmadığını belirlemek üzere korelasyon katsayısı için anlamlılık testi yapılmalıdır. Bu testin uygulanması son derece akla uygundur. Çünkü iki değişken arasında doğrusal bir ilişki yoksa, korelasyon katsayısı 0.99 dahi olsa bir anlam ifade etmez. Özellikle örnek sayısı çok düşük olduğunda, korelasyon katsayısı yüksek çıkabilmektedir. Elimizde yeteri kadar bilgi olmaması sebebiyle bu durum yanıltıcıdır.


Bu yazımda R programı kullanarak sayısal değişkenler arasındaki korelasyon değerlerini görsel olarak gösteren bir program yazdım. Programın içerisinde kofgrafik( ) isimli bir fonksiyon var ve bu fonksiyonun içerisine veri setinin adını yazdığınız zaman size değişken sayısı kadar çokgen oluşturuyor. Her değişken isminin ilk dört harfi çember biçimindeki değişkenlerin içerisine otomatik olarak yerleşiyor.  Bu deneme asıl çalışmakta olduğum Bayesci ağlar (Bayesian network) konusu için bir temel oluşturmak üzere yapılmıştır. Ayrıca R programının ne kadar güçlü bir program olduğunu göstermek üzere çarpıcı bir örnektir. Çünkü SPSS, Minitab gibi programlarda sadece menüler aracılığıyla analiz yapabiliyoruz ve bu durumda paket programa tam anlamı ile mahkum oluyoruz. Akademik kariyer düşünen her istatistikçi mutlaka bir programlama diline hakim olmalı ve kendi programını kendi yazmalı. Ancak bu şekilde ortaya yeni bir şeyler koyabilir. R programı, açık kaynak kodlu ve ücretsiz olduğu için severek kullanıyorum, analize doğrudan müdahale edebilmek inanılmaz keyif veriyor. Her istatistikçinin kullanmasını şiddetle öneriyorum.



Bu kadar R övgüsünden sonra grafiği tanıtacağım. Grafiğin yorumlanması son derece basit. Her değişken bir düğüm (çember) şeklinde gösteriliyor. Her çemberin içinde değişkenin ilk dört harfi gösteriliyor. Değişkenler arasındaki korelasyon katsayısının anlamlı olması durumunda, değişkenlerin normallik durumuna ve korelasyon derecesine göre bir çizgi çekiliyor. Grafikte iki düğüm arasına, korelasyon katsayısı anlamlı olduğunda ve değişkenler normal dağılıma uyduğunda değişkenler için düz çizgi çekiliyor. Normal dağılış göstermeyen ve anlamlı korelasyon içeren değişkenler için noktalı çizgi çekiliyor. Korelasyon katsayısı 0.80 ve üzerinde ise çizgi lacivert, 0.60-0.80 arasında ise sarı, 0.60 ve altında ise turkuaz renkle gösteriliyor. Bu yazdığım lacivert, sarı ve turkuaz çizgiler sadece aynı yönlü ilişkili değişkenler için geçerli. Zıt yönlü ilişkili değişkenler kırmızı çizgi ile gösteriliyor. Çizginin kalınlığına göre korelasyonun yüksek olup olmadığını anlayabiliyorsunuz.



Yukardaki grafik korelasyon ilişkilerini net bir biçimde gösteriyor. R programının bnlearn paketinde yer alan “gaussian.test” veri seti kullanılarak, sekiz değişken arasındaki ilişki dereceleri ve yönleri gösteriliyor. Fonksiyon korgrafik(“gaussian.test”) biçiminde kullanılıyor. Fonksiyonun içerisine veri setinin adının yazılması yeterli, grafik değişken sayısına uygun bir çokgen biçiminde oluşturuluyor. Burada 7 değişken olduğu için yedigen şeklinde bir çizim görüyoruz. Kodlarını açık açık burada paylaşmadım. Bu grafiğe bakarak (C,D) ve (C,B) değişkenleri arasında aynı yönlü veya yüksek düzeyde bir ilişki olduğunu saptayabiliyoruz. (E,G) ve (C,G) değişkenleri arasında zıt yönlü ve düşük dereceli bir ilişki var. Ayrıca bu çiftler için Spearman korelasyon katsayısı kullanılmış, çünkü kesik çizgiler çizilmiş. Aşağıda bir örnek daha var. Bu örnek de R programının içerisinden bulunan "infert" isimli veri setini içeriyor. Sadece korgrafik("infert") yazmak yeterli.






24 Ağustos 2012 Cuma

SAS Programı ile Regresyon Modellerinin Karşılaştırılması

            Regresyon analizi kuşkusuz, istatistikçiler için vazgeçilmez bir yöntem. Regresyon analizi iki amaç için kullanılır:

           1. Geleceğe yönelik tahminde bulunma
           2.  Bağımlı-bağımsız değişkenler arasındaki ilişkisel yapıyı nicel olarak ifade etme.

   
İstatistikçiler için iyi bir regresyon modeli kurmak hayati önem taşımaktadır. Çünkü elde edilen modele   göre geleceğe dönük kararlar alınacaktır. Ayrıca bir değişkeni etkileyen diğer faktörlerin etki düzeyleri de regresyon analizi ile ortaya çıkarılmaktadır. Bu nedenle elde edilecek regresyon modeli doğrudan problemin yapısına göre hayatın akışını değiştirebilecek özelliğe sahiptir. Bu konuyu biraz daha açalım.



Farz edelim ki bir alışveriş merkezi içerisinde pastaneniz var. Pastaneye günlük pasta çeşitlerinden alıyorsunuz ve gün sonunda satamadığınız malları çöpe atmak zorunda kalıyorsunuz. Ancak her gün ne kadar satış yapacağınız hakkında rasgele bir karar da veremiyorsunuz. Bunun için günlük satış rakamlarını bağımlı değişken olarak alarak bir araştırmaya başlıyorsunuz. Satış rakamlarını etkileyen faktörleri tek tek ele alıyorsunuz ve bir regresyon modeli kuruyorsunuz. Örneğin hava sıcaklığı, alışveriş merkezine giren kişi sayısı, haftanın günleri vs. gibi bağımsız değişkenler seçiyorsunuz. Bu verilere dayanarak kurduğunuz regresyon modelinin mutlaka doğru sonuçlar yansıtmasını beklersiniz. Çünkü bu sonuçlara göre bir sonraki gün için ürün siparişi vereceksiniz. Eğer gereğinden düşük düzeyde bir satış rakamı tahmin ederseniz muhtemelen sipariş verdiğiniz ürünleriniz tükenecek ve gelen müşteriler pasta alamadığı için memnuniyetsiz bir şekilde ayrılacaklar. Bu da müşterine kaybına yol açabilir. Mesela çok yüksek miktarda satış olacağını tahmin ettiniz ve bu sebeple çok miktarda pasta sipariş ettiniz. Bu durumda da pastalar çöpe girecek ve zarara uğrayacaksınız. Sonuç olarak iyi bir kazanç elde etmek için doğru miktarda pasta sipariş vermeniz lazım. ( Tüm bunlara rağmen ben regresyon analizi falan yapmam, uyanık geçinip de bir önceki günün pastalarını satarım diyorsanız, kısa zamanda batacağınıza dair garanti verebilirim Çünkü o şekilde iflas eden birisini tanıyorum. )


Yukarıda aktardığım küçük bir örnek dahi regresyon analizinin ne kadar önemli olduğuna işaret etmektedir. Günümüz literatüründe birçok regresyon analizi tekniği bulunmaktadır. Bu teknikler en genel ifade ile klasik regresyon varsayımların sağlanıp sağlanmaması, bağımlı-bağımsız değişkenler arasındaki ilişkinin şekli ve bağımlı değişkenin yapısına göre farklılıklar göstermektedir. Bizim için asıl mesele, en doğru regresyon modelini kurmaktır. Doğru regresyon tekniği uygulandığında bile, doğru modeli seçmek için modeller arası karşılaştırma yapılmalıdır. Ben bu çalışmada çoklu doğrusal regresyon (Ç.D.R) modellerinin karşılaştırılması üzerinde duracağım.



Ç.D.R modellerini karşılaştırmak için kullanılan yöntemlerden bazıları şunlardır:


  •  İleriye Doğru Seçim (Forward)
  • Geriye Doğru Eleme (Backward)
  • Aşamalı Model Seçimi (Stepwise)
  • Maksimum R^2 Gelişimi (MAXR)
  • Minimum R^2 Gelişimi  (MINR)
  • R^2 Seçimi
  • Düzeltilmiş R^2 Seçimi
  • Mallow Cp Kriteri


Yukarıda saymış olduğum yöntemler dışında Akaike Bilgi Kriteri, Bayesci Bilgi Kriteri gibi çok çeşitli yöntemler mevcuttur. SAS programı ile bağımsız değişkenlerin farklı birleşimlerine (kombinasyon) göre model karşılaştırması yapılabilmektedir. Belirtmiş olduğum ilk üç yöntem diğer bir çok program kullanılarak uygulanabilir. Ancak diğer yöntemler için SAS en etkili araçtır. Model karşılaştırması için MODEL bağımlı değişken=bağımsız değişkenler / SELECTION=Yöntem şeklinde kod yazarak en uygun regresyon modeline karar verilebilir. Bahsetmiş olduğum model seçim yöntemleri üzerinde çok durmayacağım. Ancak şunu özellikle belirtmek isterim, farklı sayıda bağımsız değişkenler için R^2 seçimi uygun değildir. Çünkü serbestlik derecesi farklılığı ortaya çıkmaktadır. Bu sebeple model seçiminde R^2 ölçütünü kullanmayı önermiyorum. Onun yerine düzeltilmiş R^2 değerlerine göre model seçimi yapılabilir. Aşağıdaki tablolarda bir bağımlı üç bağımsız değişkenden oluşan bir veri seti kullanılarak elde edilen model seçimine ilişkin tabloları göstereceğim.


Son söz olarak şunu söylemeliyim: SAS uygulama konusunda diğer tüm programlardan çok daha etkili bir program. Özellikle regresyon analizi için MAXR, MINR ve Mallow Cp ölçütü gibi farklı ölçütleri kullanarak farklı modeller elde edilebilmektedir.


Bağımlı Değişken: Kilo
Bağımsız Değişkenler: Yaş, Günlük Alınan Kalori Miktarı (kcal), Günlük Spor Süresi (dakika)



                          ADJUSTED RSQUARE



Number in
Model
Adjusted
R-Square
R-Square
Variables in Model
3
0.9765
0.9882
KALORI SPOR YAS
2
0.9589
0.9726
KALORI YAS
1
0.9329
0.9441
KALORI
2
0.9180
0.9453
KALORI SPOR
2
0.4134
0.6090
SPOR YAS
1
0.1505
0.2920
SPOR
1
0.0724
0.2270
YAS




                                                               MALLOW CP



Number in
Model
C(p)
R-Square
Variables in Model
3
4.0000
0.9882
KALORI SPOR YAS
2
5.9764
0.9726
KALORI YAS
1
11.2445
0.9441
KALORI
2
12.9353
0.9453
KALORI SPOR
2
98.6536
0.6090
SPOR YAS
1
177.4135
0.2920
SPOR
1
193.9864
0.2270
YAS


                                                              

                  

                                    MAXR




Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 1 89.55495 89.55495 84.45 0.0003
Error 5 5.30219 1.06044
Corrected Total 6 94.85714

Variable Parameter
Estimate
Standard
Error
Type II SS F Value Pr > F
Intercept 53.73302 1.48022 1397.38363 1317.74 <.0001
KALORI 0.00844 0.00091799 89.55495 84.45 0.0003
Bounds on condition number: 1, 1
The above model is the best 1-variable model found.
Maximum R-Square Improvement: Step 2

Variable YAS Entered: R-Square = 0.9726 and C(p) = 5.9764
Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 2 92.26034 46.13017 71.06 0.0007
Error 4 2.59680 0.64920
Corrected Total 6 94.85714

Variable Parameter
Estimate
Standard
Error
Type II SS F Value Pr > F
Intercept 57.60197 2.22111 436.62836 672.56 <.0001
KALORI 0.00961 0.00092098 70.72680 108.94 0.0005
YAS -0.19462 0.09534 2.70539 4.17 0.1108
Bounds on condition number: 1.6441, 6.5764
The above model is the best 2-variable model found.
Maximum R-Square Improvement: Step 3

Variable SPOR Entered: R-Square = 0.9882 and C(p) = 4.0000
Analysis of Variance
Source DF Sum of
Squares
Mean
Square
F Value Pr > F
Model 3 93.74046 31.24682 83.95 0.0022
Error 3 1.11668 0.37223
Corrected Total 6 94.85714

Variable Parameter
Estimate
Standard
Error
Type II SS F Value Pr > F
Intercept 56.69597 1.74213 394.23095 1059.11 <.0001
KALORI 0.01148 0.00117 35.97705 96.65 0.0022
SPOR 0.08057 0.04041 1.48012 3.98 0.1401
YAS -0.34387 0.10399 4.07040 10.94 0.0455
Bounds on condition number: 4.6102, 32.667
The above model is the best 3-variable model found.
No further improvement in R-Square is possible.

23 Mart 2012 Cuma

Varyans Analizi Kavramı Üzerine Bir İnceleme

İstatistik açısından ortalama karşılaştırması problemi çok önemli bir kavram olarak karşımıza çıkmaktadır. Ortalama karşılaştırmaları içerisinden varyans analizi yöntemini tam anlamıyla anlayabilmek için iki temel kavramı çok iyi bilmek durumundayız: Bağımlı ve bağımsız değişken.

Bağımlı değişkenden kastımız, oran veya aralıksal ölçeğe sahip nicel (sayısal) bir değişkendir. Örneğin yaş, gelir, boy, kilo, domates üretim miktarı vs. gibi değişkenler bağımlı değişkenlerdir. Bağımsız değişkenden kastedilen, adlandırma (nominal) veya sınıflama (ordinal) ölçeğe sahip nitel bir değişkendir. Bağımsız değişken, bir anlamda grup değişkenidir. Örneğin erkek bayan şeklindeki cinsiyet değişkeni, ilköğretim, lise, lisans, yüksek lisans, doktora şeklindeki eğitim durumu değişkeni vs. gibi değişkenler bağımsız değişkenlerdir. Her bağımsız değişken kendi içinde iki veya daha fazla gruba ayrılabilir. Bu anlamda, bağımsız değişken dediğimiz kavram asıl olarak nitel yapıdaki bir grup değişkenidir. Değişken kavramı üzerinde özellikle duruyorum, çünkü bu kavramlar anlaşılmadan en basit t-testini bile gerçekleştirmek olanaksızdır. Esas olan, bir araştırmacının önüne veri seti geldiğinde değişken tiplerini doğru kavramak ve bu değişkenlere göre hipotez oluşturup uygun analiz tekniğini kullanmaktır.

Varyans analizi en genel tanımı ile bağımsız değişkenin grupları arasında, bağımlı değişkenin ortalama değerlerine göre farklılıkları ölçen bir analiz yöntemidir. Bu yöntem özellikle bağımsız örneklem t-testinin aksine, en az üç gruba sahip bağımsız değişkenin kullanıldığı durumlarda uygulanır. Bu durum, birden fazla bağımsız değişkenin kullanıldığı analizlerde olmazsa olmazlardan değildir. Örneğin iki bağımsız değişken kullanıldığından bu değişkenlerden biri iki, diğeri üç gruba sahip olabilir. Ancak şu noktayı özellikle vurgulamak istiyorum, iki gruba sahip bağımsız değişkenlerde çoklu karşılaştırma testi yapılmamaktadır, çünkü arada farklılık olduğu durumda iki grup ortalamaları doğrudan karşılaştırılabilir.

 Varyans analizi kendi arasında bağımlı değişken sayısına ve yönlere göre ikiye ayrılır. Bağımlı değişken sayısına göre bir bağımlı değişkenin kullanıldığı varyans analizi, aynı şekilde varyans analizi (Analysis of Variance,ANOVA) olarak isimlendirilir. En az iki bağımlı değişkenin kullanıldığı varyans analizi (p=>2 için) çok değişkenli varyans analizi (Multivariate Analysis of Variance, MANOVA)  olarak adlandırılır. Bağımsız değişken sayısına göre bir bağımsız değişkenin kullanıldığı varyans analizi tek yönlü, en az iki bağımsız değişkenin kullanıldığı varyans analizi çift yönlü varyans analizi olarak isimlendirilir. Bu tanımlamalar oldukça basittir ve dikkatlice okunduğunda rahatlıkla anlaşılabilir. Çeşitlerine göre varyans analizi için aşağıdaki tablodan da yararlanılabilir.

Bağımlı Değişken
Bağımsız Değişken
Analiz Türü
Analiz Yönü
SPSS Menü Girişi
1
1
ANOVA
Tek Yönlü
 Analyze-Compare Means-One Way Anova
En az 2
1
MANOVA
Tek Yönlü
Analyze-General Linear Model-Multivariate
1
En az 2
ANOVA
Çift Yönlü
Analyze-General Linear Model-Univariate
En az 2
En az 2
MANOVA
Çift Yönlü
Analyze-General Linear Model-Multivariate


Varyans analizi uygularken ilk yapılacak şey, verilerin normal dağılıma uygun olup olmadığını tespit etmektir. Bağımlı değişkenin değerleri gruplara göre normal dağılıyorsa, parametrik testler uygulanabilir. Aksi halde parametrik olmayan yöntemler uygulanır. Bu yazıda parametrik testler kullanılacağı için diğer yöntemler üzerinde durmayacağım.

Verilerin normal dağılıma uygunluğu tespit edildikten sonra, bağımlı ve bağımsız değişken sayıları incelenir ve buna göre uygun varyans analizi tekniği uygulanır. Eğer tek yönlü varyans analizi uygulamışsak, genel hatları ile tanımlayıcı istatistikler incelenir ve hemen ardından varyansların homojenliği varsayımına bakılır. Gruplar arası varyanslar homojense gruplar arası ortalamaların farklı olup olmadığını saptayabilmek için ANOVA tablosu, homojen değilse Welch ve Brown-Forsythe testleri uygulanır. Ortalamalar arası farklılık varsa, çoklu karşılaştırma testleri uygulanır. Varyansların homojenliği varsayımı sağlanmışsa Duncan veya Tukey testleri gibi çeşitli testler kullanılır. En küçük farklılıkları bile tespit etmek istiyorsak Duncan testi en ideal test olarak kullanılmaktadır. Eğer varyansların homojenliği varsayımı sağlanmamışsa çoklu karşılaştırmalar için Tamhane testi uygulanmalıdır. Çoklu karşılaştırmalar için genel anlamda bir fikir edinmek için Ortalama Grafiklerine (Means Plot)bakılır. Ancak kesin karar verebilmek için mutlaka testlerin gerçekleştirilmesi gerekmektedir. Çeşitli durumlara göre uygulanacak testler için aşağıdaki tablodan yararlanılabilir. Aşağıdaki tablodaki gruplar arası ortalamaların karşılaştırılması için kullanılacak testler ANOVA testleri için geçerlidir.

Varyansların Homojenlik Durumu
Gruplar Arası Ortalama Karşılaştırılması
Çoklu Karşılaştırma
Homojen
ANOVA
Duncan
Homojen Değil
Welch ve Brown-Forsythe
Tamhane

             Son olarak, varyans analizi uygulayacak olan araştırmacılar için genel anlamda kurulacak 4 hipotezi tekrar etmek pahasına söylemekte yarar görüyorum. Normallik, varyansların homojenliği, ortalamalar arası farklılık ve çoklu karşılaştırma hipotezlerini doğru biçimde kuran araştırmacılar, varyans analizini en doğru şekilde gerçekleştirirler. Gerek SPSS olsun, gerek diğer paket programlar olsun, test sonuçlarına ilişkin anlamlılık değerlerini hesaplamaktadır. % 5 önem seviyesinde bakacak olursak, 0,05’ten küçük anlamlılık değerine sahip olan testler için Ho hipotezi reddedilir, 0,05’ e eşit veya büyük hipotezler için Ho hipotezi reddedilemez. Bu kurala göre bütün mesele, hipotezlerin önem seviyelerine göre reddedilip reddedilemeyeceklerini tespit etmektir. Hipotezleri aşağıda tabloda tek tek belirteceğim. Tablonun alt kısmında ayrıca çalışma verileri de bulunmaktadır.

Normallik Varsayımı
Ho: Veriler normal dağılıma uygundur.
Hı: Veriler normal dağılıma uygun değildir.
Varyansların Homojenliği
Ho: Gruplar arası varyanslar homojendir
Hı: Gruplar arası varyanslar homojen değildir.
Gruplar Arası Ortalamaların Farklılığı
Ho: Gruplar arası ortalamalar arasında fark yoktur.
Hı: En az iki grup ortalaması arasında fark vardır.
Çoklu Karşılaştırma (İkili Karşılaştırmalar İçin)
Ho: İki grup ortalaması arasında fark yoktur.
Hı: İki grup ortalaması arasında fark vardır.



https://rapidshare.com/files/1326368171/ÇİFT_YÖNLÜ_ANOVA_ÇALIŞMA_VERİSİ.rar