İstatistikçi: Kümeleme Analizinde Kullanılan Bazı Farklılık ve Benzerlik Ölçülerinin İncelenmesi

Kümeleme analizi, gözlemlerin benzerlik veya farklılıklarını göz önüne alarak gözlemleri homojen gruplara ayırmaktadır. Gözlemler arasındaki benzerlik veya farklılıklar genel olarak yakınlık (proximity) ölçüleri olarak isimlendirilir. Yakınlık ölçüleri 2 temel başlık altında toplanabilir:

· Farklılık ölçüleri

· Benzerlik ölçüleri

Tercih edilecek kümeleme yöntemini uygulamadan önce verinin yapısına uygun olacak şekilde yakınlık ölçüsü seçilmelidir. En uygun seçim geçmişte yapılan çalışmalardan elde edilen deneyimler, araştırılacak konu hakkında edinilen bilgi ve veri yapısı gibi etmenlerden oluşmaktadır. Gerçekleştirilen kümeleme analizinin performansı, seçilecek yakınlık ölçüsünün uygunluğuna bağlıdır.

Sayısal veriler için gözlemler arası kullanılacak yakınlık ölçüleri verilerin sürekli veya kategorik olmasına göre değişmektedir. Bu ölçüler farklılık (dissimilarity) ve uzaklık (distance) ölçüleri olarak adlandırılmaktadır. Sürekli veriler için kullanılan başlıca farklılık ölçüleri şunlardır:

· Minkowski Uzaklığı

· Öklid Uzaklığı

· Manhattan Uzaklığı (Şehir Blok Tasarımı)

· Mahalanobis Uzaklığı

· Ortalama Uzaklık

· Maksimum Uzaklık

· Canberra Uzaklığı

· Pearson Korelasyon Katsayısı

· Açısal Ayırma

Bu uzaklık ölçüleri dışında kullanılan birçok farklılık ölçüsü bulunmaktadır. Bu ölçülerin bazıları Sorensen uzaklığı, ortalama karakter farkı, ilişki indeksi, Czekanowski katsayısı, ıraksama katsayısı gibi ölçülerdir. Uygulamada en sık kullanılan ölçü Öklid uzaklığıdır. Öklid uzaklığı, Minkowski uzaklığının özel bir halidir. Eğer kullanılan veri seti yeterince sıkıştırılmış ve yalıtılmış kümelere sahip ise, Minkowski uzaklığının kullanımı son derece elverişlidir. Ancak burada Öklid uzaklığının bir sakıncasından da bahsetmek gerekir. Aynı niteliğe sahip bir gözlem çiftleri için birinin uzaklığı diğerine göre farklı ise, Öklid uzaklığı başarılı sonuç vermez. Bu durumda, ortalama uzaklık yöntemi ikame edilmelidir. Tüm bu ölçüler dışında ayrı bir başlıkta incelenecek iki uzaklık ölçüsü vardır. Bunlar Burrows Delta ölçüsü ve Gower uzaklığıdır.

Burrows Delta ölçüsü 2001 yılında John F. Burrows tarafından ortaya atılmıştır. Bu ölçü, gözlemler arası standardize değerlerin ortalaması olarak ifade edilebilir. Burrows Delta ölçüsü yalnızca değerler arasındaki uzaklığa değil, tüm veri setine bağlı olarak değişim gösterir. Gower uzaklığı 1971 yılında Gower tarafından önerilmişti. Gower uzaklığının en temel özelliği, hem kategorik hem de sürekli verilerin bulunduğu veri setinde kullanılabilmesidir. Gower uzaklığı standardize edilmiş veriler kullanılarak hesaplanır. Gower uzaklığı sadece sürekli veriler kullanıldığı zaman ayrı bir formül ile hesaplanmaktadır. Hem kategorik hem de sürekli verilerin bulunduğu veri seti için kullanılan uzaklık Gower genel benzerlik ölçüsü olarak adlandırılır.

Kümeleme analizinde, farklılık ölçüleri içerisinde kullanılan bir yöntem de Pearson korelasyon katsayısıdır. Ancak bu yöntem sürekli verilerin farklılığının ölçülmesi için elverişli değildir. Korelasyon katsayısı ile oluşturulan kümeler örneklere göre değil, değişkenlere göre oluşturulur. Bazı veriler için değişkenler arası benzerlik oldukça yüksek olabilirken, gözlemler arası uzaklıklar oldukça farklı olabilir. Örneğin 1,2,3 ve 10000,20000,30000 değerlerinden oluşan iki ayrı gözlem kümesi arasında korelasyon katsayısı 1’dir. Ancak gözlemler arasındaki uzaklık son derece yüksektir. Bu durumda gözlemler arasında uzaklık açısından bakıldığında önemli düzeyde farklılık bulunurken, korelasyon açısından birebir ve mükemmel bir ilişki gözlenmektedir. Bu durumda gözlemleri kümeleyebilmek için korelasyon katsayısı kullanıldığında gözlemler arasındaki önemli düzeydeki farklılıklar gözardı edildiği için Pearson korelasyon katsayısı, yakınlık ölçüsü açısından elverişli değildir.

İstatistikçi

8 Haziran 2011 Çarşamba

Kümeleme Analizinde Kullanılan Bazı Farklılık ve Benzerlik Ölçülerinin İncelenmesi

Hiç yorum yok: