2 Ekim 2011 Pazar

SAS PROGRAMI İLE TANIMLAYICI İSTATİSTİKLER VE ÇEŞİTLİ ÖZETEYİCİ BİLGİLERİN ELDE EDİLMESİ



Tanımlayıcı istatistikler herhangi bir veri setine ilişkin özetleyici göstergelerden oluşan değerler olarak tanımlanabilir.   İstatistiksel analiz sürecinde elimize veriler geldiğinde ilk yapacağımız şey verilere ilişkin özet bilgilere bakmak olacaktır. Bu özet bilgiler ortalama, standart sapma, mod, medyan, maksimum ve minimum değerler vb. birçok sayısal bilgiden oluşabilir. Herhangi bir paket program kullanarak bu bilgilere rahatlıkla ulaşmak mümkündür. Özellikle Türkiye’ de tüm istatistikçilerin vazgeçilmezi olan SPSS bu görevi rahatlıkla gerçekleştirmektedir. Ancak tanımlayıcı istatistikler, SPSS dışındaki daha güçlü programlar kullanılarak da elde edilebilmektedir. Bu programların başında SAS gelmektedir. SAS programı, SPSS’ ten çok daha güçlü bir programdır ve daha çok sayıda analizi uygulama olanağı tanımaktadır. Bu yazımda tanımlayıcı istatistiklerin dışında bazı gösterge ve testleri de ekleyeceğim. SAS ile ilgili yazmış olduğum ilk yazı olması sebebiyle basit bir konudan yola çıkarak bir yazı oluşturma gereği duydum. Ancak SAS kullanımına başlayacak olanlar için iyi bir başlangıç olacağını umuyorum.

                SAS programı menülerle aracılığı ile kullanılabildiği gibi, kod yazarak da kullanılabilir. SAS ile birçok karmaşık sonucu birkaç satırlık kod ile rahatlıkla elde etmek mümkündür. Tanımlayıcı istatistikler ve bazı ek göstergeler için SAS’ta iki temel komut kullanılır. Bunlar PROC MEANS ve PROC UNIVARIATE komutlarıdır. PROC MEANS komutu tek başına kullanıldığında değişkenlere ilişkin sadece gözlem sayısı, ortalama, standart sapma, maksimum ve minimum değerleri hesaplamaktadır. Bu değerlerin dışında PROC MEANS komutunun yanına eklemeler yapılarak başka göstergeler de elde edilebilir. Diğer ek göstergeler aşağıdaki tablodadır.


Komutlar
İşlevleri
VAR
Varyans
CV
Değişim Katsayısı
SKEWNESS
Çarpıklık
KURTOSIS
Basıklık
T
Ho:µ=0 için Student-t testi
CLM
%95 güvenilirlikte çift taraflı güven sınırları
LCLM
%95 güvenilirlikte tek taraflı alt güven sınırı
UCLM
%95 güvenilirlikte tek taraflı üst güven sınırı
MAXDEC=n
Virgülden sonraki maksimum sayı genişliği


Elimizde 8 kişiye ilişkin kilo,boy ve cinsiyet değişkenlerinden oluşan bir veri seti olsun. Bu veri setinin adı da “veri” olsun. Boy değişkenlerine ilişkin tek taraflı güven sınırlarını hesaplayalım. Bunun için PROC MEANS DATA=veri LCLM; RUN; PROC MEANS DATA=veri UCLM; RUN; komutlarını çalıştırmak yeterlidir. Sonuç şu şekilde olacaktır:


      MEANS Procedure

                                     Analysis Variable : boy

                                              Upper 95%
                                            CL for Mean
                                          
                                            179.5996799
                                           


           Analysis Variable : boy

                                              Lower 95%
                                            CL for Mean
                                          
                                            169.1503201
                                          



SAS programında tanımlayıcı istatistikler için kullanılan en temel komut PROC UNIVARIATE komutudur. Bu komut, aynı anda birçok farklı göstergeyi elde etmemizi sağlar. Elimizdeki veri setine ilişkin aşağıda gösterilen kod yazılarak birçok farklı gösterge elde edilebilir.

PROC UNIVARIATE DATA=veri;
VAR kilo;
RUN;

Bu kod, sadece kilo değişkenine göre düzenlenmiştir. Bunun için VAR komutu eklenmiştir. Sonuçlar aşağıdaki tablolarda gösterilmiştir.


                                            The UNIVARIATE Procedure
                                         Variable:  kilo

                                             Moments

                 N                           8    Sum Weights                  8
                 Mean                  74.7375    Sum Observations         597.9
                 Std Deviation      10.6137293    Variance             112.65125
                 Skewness           0.46014613    Kurtosis            -1.5627963
                 Uncorrected SS       45474.11    Corrected SS         788.55875
                 Coeff Variation    14.2013438    Std Error Mean      3.75251999


                                    Basic Statistical Measures

                          Location                    Variability

                      Mean     74.73750     Std Deviation           10.61373
                      Median   72.55000     Variance               112.65125
                      Mode       .          Range                   26.80000
                                            Interquartile Range     19.50000


                                    Tests for Location: Mu0=0

                         Test           -Statistic-    -----p Value------

                         Student's t    t  19.91662    Pr > |t|    <.0001
                         Sign           M         4    Pr >= |M|   0.0078
                         Signed Rank    S        18    Pr >= |S|   0.0078

            Quantiles (Definition 5)

                                      Quantile      Estimate

                                      100% Max         90.20
                                      99%              90.20
                                      95%              90.20
                                      90%              90.20
                                      75% Q3           84.55
                                      50% Median       72.55
                                      25% Q1           65.05
                                      10%              63.40
                                      5%               63.40
                                      1%               63.40
                                      0% Min           63.40

            Extreme Observations

                               ----Lowest----        ----Highest---

                               Value      Obs        Value      Obs

                                63.4        8         70.5        1
                                64.7        5         74.6        4
                                65.4        2         81.2        3
                                70.5        1         87.9        7
                          74.6        4         90.2        6

Yukarıdaki sonuçlar kilo değişkenine ait çeşitli tanımlayıcı istatistikleri, student-t, işaret ve işaretli sıra testi sonuçlarını, kartil değerlerini ve en büyük ve en küçük beş gözlem değerlerini göstermektedir. SPSS programından farklı olarak farklı yüzdeliklere göre kartil değerleri, değişim katsayısı, düzeltilmiş ve düzeltilmemiş kareler toplamı ve en büyük en küçük beş gözlem gösterilmiştir. Bu değerlerin dışında PROC UNIVARIATE komutu ile çeşitli grafikler de ayrıca gösterilebilmektedir. Görüldüğü gibi, SAS programı birkaç satırlık komutla çok sayıda sonucu hesaplayabilmektedir.Kullanıcıların SAS programını menüler aracılığı değil komutlar aracılığı ile kullanmasını öneriyorum. Kullanıcı bu sayede çok sayıda ek bilgi elde etme olanağını bulacaktır.