İstatistikçi: 5.06.2011

11 Haziran 2011 Cumartesi

Faktör Analizinde Faktör Sayısını Belirleme Kriterlerinin İncelenmesi

Faktör analizinde en çok tartışılan konulardan biri de, faktör sayısının belirlenmesidir. Uygun faktör sayısının belirlenmesi hem değişkenliğin açıklanma düzeyi, hem de değişkenlerin gruplanması konusunda son derece önemlidir. Faktör modelinin elde edilmesi sürecinde Açıklayıcı Faktör Analizi (AFA) ve Temel Bileşenler Analizi (TBA) yönteminin kullanımına göre seçim kriterleri de farklılık göstermektedir. Faktör sayısının belirlenmesinde kullanılan başlıca seçim kriterleri şunlardır:

· Kaiser Kriteri (Kaiser Criterion)

· Yamaç Eğim Testi (Cattell Scree Plot)

· Joliffe Kriteri (Joliffe Criterion)

· Açıklanan Varyans Kriteri (Variance Explained Criteria)

· Horn Paralel Analizi (Horn’s Paralel Analysis)

Kaiser kriteri, esas olarak korelasyon matrisinden elde edilmiş özdeğerler içerisinden 1’den büyük olan özdeğer sayısı kadar faktör seçilmesini öngörmektedir. Bu kriter Kaiser tarafından 1960 yılında ortaya atılmıştır. AFA için en sık kullanılan faktör belirleme kriterlerinden biridir. Ancak bu yöntemi kullanmanın çeşitli sakıncaları vardır. Bu sakıncaları 3 başlık altında toplayabiliriz:

1. Bu metot, faktör modeli için TBA yöntemi kullanıldığında, korelasyon matrisinin köşegen elemanlarından elde edilen özdeğerlere göre seçim yapmaktadır. Ancak AFA için bu yöntem uygun değildir. Çünkü AFA için korelasyon matrisinin köşegen elemanlarının ortaklık (communality) tahminlerinin özdeğerleri kullanılmaktadır.

2. Kaiser kriterinin kullanımı, kişinin isteğine bağlı olarak sübjektif kararlara yol açmaktadır. Örneğin 1,01 ve 0,99 olarak hesaplanmış iki özdeğer arasında çok az miktarda fark bulunmasına karşın 1,01 değerini almış özdeğer önemli, 0,99 değerini almış özdeğer önemsiz sayılmaktadır. Halbuki bu iki özdeğerin açıklama yüzdeleri neredeyse aynıdır.

3. Bu kriter TBA ve AFA ile yapılan çeşitli simülasyon çalışmalarında bazı durumlarda faktör sayısına olduğundan fazla derecede önem vermekte veya küçümsemektedir. Bu durum, özellikle Monte Carlo yöntemi kullanıldığı durumlarda tutarsız sonuçlara yol açmaktadır.

Yamaç eğim testi faktör bileşenleri x ekseninde, özdeğerler Y ekseninde olacak şekilde iki boyutlu bir grafiğe dayalı olarak gerçekleştirilir. Çizilen grafikte, her bileşene karşılık gelen özdeğerler noktaları birleştirilir. Elde edilen çizgi grafiğinde eğimin kaybolmaya başladığı noktaya, yani doğrusallık gözlenene kadar varolan bileşen sayısı, uygun faktör sayısı olarak belirlenir. Bu metot Catell tarafından 1966 yılında ortaya atılmıştır. Ancak bu görsel yöntem sübjektif olması nedeniyle birçok akademisyen tarafından eleştirilmekte ve kullanımı tavsiye edilmemektedir.

Joliffe kriteri, 0,7 değerinden yüksek olan özdeğer sayısı kadar faktörün seçimini öngörmektedir. Bu kriterin kullanımı ile Kaiser kriterinden daha yüksek sayıda faktör belirlenmektedir. Ancak değişken sayısı az olduğu durumlarda kullanımı tutarsız sonuçlara yol açmaktadır. Bu nedenle uzmanlar tarafından kullanımı önerilmemektedir.

Açıklanan varyans kriteri, özdeğerlerin açıkladığı kümülatif varyans oranı nispetinde özdeğer sayısı kadar faktörün belirlenmesini öngörmektedir. Kümülatif varyans oranının alması gereken değer çeşitli uzmanlara göre farklılık göstermektedir. Genel olarak bu oran minimum açıklanan varyansın 2/3’ ü kadar, yani yaklaşık %67 oranında olmalıdır. Bu değer çeşitli uzmanlara göre %75, %80 veya %90’ın üzerinde olmalıdır. Burada seçim araştırmacının tercihine göre değişmektedir ancak %67den daha düşük oranda açıklayıcılık, faktör seçimi için uygun görülmemektedir.

Şu ana dek açıklamış olduğum tüm seçim kriterleri birçok kaynakta yer alan ve sıkça kullanılan kriterlerdir. Ancak şimdi açıklayacağım Horn Paralel Analizi, diğer seçim kriterlerinden daha üstün bir yöntem olarak kabul görmektedir. Horn paralel analizi, 1965 yılında Horn tarafından ortaya atılmıştır. Bu yöntem, uygun faktör sayısını belirlemek için rasgele değişkenler üretmeye dayanmaktadır. Rasgele değişkenler mevcut veriler ile aynı boyutlara sahip olacak şekide Monte Carlo metodu kullanılarak üretilir. Rasgele üretilen değişkenler ve mevcut değişkenlere göre özdeğerler ayrı ayrı hesaplanır. Mevcut veri setine ilişkin özdeğerler, rasgele değişkenlerden elde edilen özdeğerlerin beklenen değerinden büyük olacak şekilde seçim yapılır. Seçilen özdeğer sayısı kadar faktör belirlenmelidir. Bu yöntem hem TBA hem AFA için yaklaşık olarak aynı sonucu vermektedir. Horn Paralel Analizi farklı faktörlere karşı minimum düzeyde duyarlılık ve değişkenlik gösterdiği için son derece etkin ve tutarlı bir seçim kriteridir.

8 Haziran 2011 Çarşamba

Kümeleme Analizinde Kullanılan Bazı Farklılık ve Benzerlik Ölçülerinin İncelenmesi

Kümeleme analizi, gözlemlerin benzerlik veya farklılıklarını göz önüne alarak gözlemleri homojen gruplara ayırmaktadır. Gözlemler arasındaki benzerlik veya farklılıklar genel olarak yakınlık (proximity) ölçüleri olarak isimlendirilir. Yakınlık ölçüleri 2 temel başlık altında toplanabilir:

· Farklılık ölçüleri

· Benzerlik ölçüleri

Tercih edilecek kümeleme yöntemini uygulamadan önce verinin yapısına uygun olacak şekilde yakınlık ölçüsü seçilmelidir. En uygun seçim geçmişte yapılan çalışmalardan elde edilen deneyimler, araştırılacak konu hakkında edinilen bilgi ve veri yapısı gibi etmenlerden oluşmaktadır. Gerçekleştirilen kümeleme analizinin performansı, seçilecek yakınlık ölçüsünün uygunluğuna bağlıdır.

Sayısal veriler için gözlemler arası kullanılacak yakınlık ölçüleri verilerin sürekli veya kategorik olmasına göre değişmektedir. Bu ölçüler farklılık (dissimilarity) ve uzaklık (distance) ölçüleri olarak adlandırılmaktadır. Sürekli veriler için kullanılan başlıca farklılık ölçüleri şunlardır:

· Minkowski Uzaklığı

· Öklid Uzaklığı

· Manhattan Uzaklığı (Şehir Blok Tasarımı)

· Mahalanobis Uzaklığı

· Ortalama Uzaklık

· Maksimum Uzaklık

· Canberra Uzaklığı

· Pearson Korelasyon Katsayısı

· Açısal Ayırma

Bu uzaklık ölçüleri dışında kullanılan birçok farklılık ölçüsü bulunmaktadır. Bu ölçülerin bazıları Sorensen uzaklığı, ortalama karakter farkı, ilişki indeksi, Czekanowski katsayısı, ıraksama katsayısı gibi ölçülerdir. Uygulamada en sık kullanılan ölçü Öklid uzaklığıdır. Öklid uzaklığı, Minkowski uzaklığının özel bir halidir. Eğer kullanılan veri seti yeterince sıkıştırılmış ve yalıtılmış kümelere sahip ise, Minkowski uzaklığının kullanımı son derece elverişlidir. Ancak burada Öklid uzaklığının bir sakıncasından da bahsetmek gerekir. Aynı niteliğe sahip bir gözlem çiftleri için birinin uzaklığı diğerine göre farklı ise, Öklid uzaklığı başarılı sonuç vermez. Bu durumda, ortalama uzaklık yöntemi ikame edilmelidir. Tüm bu ölçüler dışında ayrı bir başlıkta incelenecek iki uzaklık ölçüsü vardır. Bunlar Burrows Delta ölçüsü ve Gower uzaklığıdır.

Burrows Delta ölçüsü 2001 yılında John F. Burrows tarafından ortaya atılmıştır. Bu ölçü, gözlemler arası standardize değerlerin ortalaması olarak ifade edilebilir. Burrows Delta ölçüsü yalnızca değerler arasındaki uzaklığa değil, tüm veri setine bağlı olarak değişim gösterir. Gower uzaklığı 1971 yılında Gower tarafından önerilmişti. Gower uzaklığının en temel özelliği, hem kategorik hem de sürekli verilerin bulunduğu veri setinde kullanılabilmesidir. Gower uzaklığı standardize edilmiş veriler kullanılarak hesaplanır. Gower uzaklığı sadece sürekli veriler kullanıldığı zaman ayrı bir formül ile hesaplanmaktadır. Hem kategorik hem de sürekli verilerin bulunduğu veri seti için kullanılan uzaklık Gower genel benzerlik ölçüsü olarak adlandırılır.

Kümeleme analizinde, farklılık ölçüleri içerisinde kullanılan bir yöntem de Pearson korelasyon katsayısıdır. Ancak bu yöntem sürekli verilerin farklılığının ölçülmesi için elverişli değildir. Korelasyon katsayısı ile oluşturulan kümeler örneklere göre değil, değişkenlere göre oluşturulur. Bazı veriler için değişkenler arası benzerlik oldukça yüksek olabilirken, gözlemler arası uzaklıklar oldukça farklı olabilir. Örneğin 1,2,3 ve 10000,20000,30000 değerlerinden oluşan iki ayrı gözlem kümesi arasında korelasyon katsayısı 1’dir. Ancak gözlemler arasındaki uzaklık son derece yüksektir. Bu durumda gözlemler arasında uzaklık açısından bakıldığında önemli düzeyde farklılık bulunurken, korelasyon açısından birebir ve mükemmel bir ilişki gözlenmektedir. Bu durumda gözlemleri kümeleyebilmek için korelasyon katsayısı kullanıldığında gözlemler arasındaki önemli düzeydeki farklılıklar gözardı edildiği için Pearson korelasyon katsayısı, yakınlık ölçüsü açısından elverişli değildir.