Tanımlayıcı istatistikler herhangi bir veri setine ilişkin özetleyici göstergelerden oluşan değerler olarak tanımlanabilir. İstatistiksel analiz sürecinde elimize veriler geldiğinde ilk yapacağımız şey verilere ilişkin özet bilgilere bakmak olacaktır. Bu özet bilgiler ortalama, standart sapma, mod, medyan, maksimum ve minimum değerler vb. birçok sayısal bilgiden oluşabilir. Herhangi bir paket program kullanarak bu bilgilere rahatlıkla ulaşmak mümkündür. Özellikle Türkiye’ de tüm istatistikçilerin vazgeçilmezi olan SPSS bu görevi rahatlıkla gerçekleştirmektedir. Ancak tanımlayıcı istatistikler, SPSS dışındaki daha güçlü programlar kullanılarak da elde edilebilmektedir. Bu programların başında SAS gelmektedir. SAS programı, SPSS’ ten çok daha güçlü bir programdır ve daha çok sayıda analizi uygulama olanağı tanımaktadır. Bu yazımda tanımlayıcı istatistiklerin dışında bazı gösterge ve testleri de ekleyeceğim. SAS ile ilgili yazmış olduğum ilk yazı olması sebebiyle basit bir konudan yola çıkarak bir yazı oluşturma gereği duydum. Ancak SAS kullanımına başlayacak olanlar için iyi bir başlangıç olacağını umuyorum.
SAS programı menülerle aracılığı ile kullanılabildiği gibi, kod yazarak da kullanılabilir. SAS ile birçok karmaşık sonucu birkaç satırlık kod ile rahatlıkla elde etmek mümkündür. Tanımlayıcı istatistikler ve bazı ek göstergeler için SAS’ta iki temel komut kullanılır. Bunlar PROC MEANS ve PROC UNIVARIATE komutlarıdır. PROC MEANS komutu tek başına kullanıldığında değişkenlere ilişkin sadece gözlem sayısı, ortalama, standart sapma, maksimum ve minimum değerleri hesaplamaktadır. Bu değerlerin dışında PROC MEANS komutunun yanına eklemeler yapılarak başka göstergeler de elde edilebilir. Diğer ek göstergeler aşağıdaki tablodadır.
Komutlar | İşlevleri |
VAR | Varyans |
CV | Değişim Katsayısı |
SKEWNESS | Çarpıklık |
KURTOSIS | Basıklık |
T | Ho:µ=0 için Student-t testi |
CLM | %95 güvenilirlikte çift taraflı güven sınırları |
LCLM | %95 güvenilirlikte tek taraflı alt güven sınırı |
UCLM | %95 güvenilirlikte tek taraflı üst güven sınırı |
MAXDEC=n | Virgülden sonraki maksimum sayı genişliği |
Elimizde 8 kişiye ilişkin kilo,boy ve cinsiyet değişkenlerinden oluşan bir veri seti olsun. Bu veri setinin adı da “veri” olsun. Boy değişkenlerine ilişkin tek taraflı güven sınırlarını hesaplayalım. Bunun için PROC MEANS DATA=veri LCLM; RUN; PROC MEANS DATA=veri UCLM; RUN; komutlarını çalıştırmak yeterlidir. Sonuç şu şekilde olacaktır:
MEANS Procedure
Analysis Variable : boy
Upper 95%
CL for Mean
179.5996799
Analysis Variable : boy
Lower 95%
CL for Mean
169.1503201
SAS programında tanımlayıcı istatistikler için kullanılan en temel komut PROC UNIVARIATE komutudur. Bu komut, aynı anda birçok farklı göstergeyi elde etmemizi sağlar. Elimizdeki veri setine ilişkin aşağıda gösterilen kod yazılarak birçok farklı gösterge elde edilebilir.
PROC UNIVARIATE DATA=veri; VAR kilo; RUN; |
Bu kod, sadece kilo değişkenine göre düzenlenmiştir. Bunun için VAR komutu eklenmiştir. Sonuçlar aşağıdaki tablolarda gösterilmiştir.
The UNIVARIATE Procedure
Variable: kilo
Moments
N 8 Sum Weights 8
Mean 74.7375 Sum Observations 597.9
Std Deviation 10.6137293 Variance 112.65125
Skewness 0.46014613 Kurtosis -1.5627963
Uncorrected SS 45474.11 Corrected SS 788.55875
Coeff Variation 14.2013438 Std Error Mean 3.75251999
Basic Statistical Measures
Location Variability
Mean 74.73750 Std Deviation 10.61373
Median 72.55000 Variance 112.65125
Mode . Range 26.80000
Interquartile Range 19.50000
Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 19.91662 Pr > |t| <.0001
Sign M 4 Pr >= |M| 0.0078
Signed Rank S 18 Pr >= |S| 0.0078
Quantiles (Definition 5)
Quantile Estimate
100% Max 90.20
99% 90.20
95% 90.20
90% 90.20
75% Q3 84.55
50% Median 72.55
25% Q1 65.05
10% 63.40
5% 63.40
1% 63.40
0% Min 63.40
Extreme Observations
----Lowest---- ----Highest---
Value Obs Value Obs
63.4 8 70.5 1
64.7 5 74.6 4
65.4 2 81.2 3
70.5 1 87.9 7
74.6 4 90.2 6
Yukarıdaki sonuçlar kilo değişkenine ait çeşitli tanımlayıcı istatistikleri, student-t, işaret ve işaretli sıra testi sonuçlarını, kartil değerlerini ve en büyük ve en küçük beş gözlem değerlerini göstermektedir. SPSS programından farklı olarak farklı yüzdeliklere göre kartil değerleri, değişim katsayısı, düzeltilmiş ve düzeltilmemiş kareler toplamı ve en büyük en küçük beş gözlem gösterilmiştir. Bu değerlerin dışında PROC UNIVARIATE komutu ile çeşitli grafikler de ayrıca gösterilebilmektedir. Görüldüğü gibi, SAS programı birkaç satırlık komutla çok sayıda sonucu hesaplayabilmektedir.Kullanıcıların SAS programını menüler aracılığı değil komutlar aracılığı ile kullanmasını öneriyorum. Kullanıcı bu sayede çok sayıda ek bilgi elde etme olanağını bulacaktır.