Küme Analizi Nedir? Yöntemleri
Kümeleme veya küme analizi, farklı grupların özelliklerinin profilini çıkarmaya yardımcı olmak için benzer veri noktalarının tanımlandığı ve birlikte gruplandırıldığı denetimsiz öğrenme sürecidir. Kümelemenin genel amacı, kümeler arası benzerliği en aza indirirken küme içi benzerliği en üst düzeye çıkarmaktır. Başka bir deyişle, belirli bir küme içindeki veri noktaları mümkün olduğunca birbirine benzerken kümelerin kendileri mümkün olduğunca birbirinden farklı olacak şekilde kümeleri bulmaktır.
Küme Analizi
Küme analizi, farklı müşteri gruplarını, satış işlemlerini veya diğer davranış ve şeyleri tanımlaması gereken herhangi bir kuruluş için güçlü bir veri madenciliği aracı olabilir. Örneğin, sigorta sağlayıcıları hileli talepleri tespit etmek için küme analizini kullanır ve bankalar bunu kredi puanlaması için kullanır.
Küme Analizinin Tanımı
Küme analizi, verilerin işlenmesi için istatistiksel bir yöntemdir. Öğeleri ne kadar yakından ilişkili olduklarına göre gruplar veya kümeler halinde düzenleyerek çalışır. Küme analizi, azaltılmış alan analizi (faktör analizi) gibi, değişkenlerin önceden ölçüt ve tahmin edici alt kümelerine bölünmediği veri matrisleriyle ilgilidir.
Kümeleme analizinin amacı, her bir denek çifti arasındaki “benzerliğin”, tüm özellikler kümesi üzerinde bir küresel ölçü anlamına geldiği, benzer denek gruplarını bulmaktır. Küme analizi, denetimsiz bir öğrenme algoritmasıdır; bu, modeli çalıştırmadan önce verilerde kaç küme bulunduğunu bilmediğiniz anlamına gelir.
Diğer birçok istatistiksel yöntemin aksine, küme analizi tipik olarak veriler içindeki olası ilişkiler hakkında herhangi bir varsayım yapılmadığında kullanılır. Verilerdeki ilişkilendirmelerin ve kalıpların nerede olduğu hakkında bilgi sağlar, ancak bunların ne olabileceği veya ne anlama geldikleri hakkında bilgi vermez.
Kümeleme Analizi Nasıl Yapılır?
Kümeleme analizinin en yaygın kullanımı sınıflandırmadır. Denekler gruplara ayrılır, böylece her bir konu, grup dışındaki konulardan ziyade grubundaki diğer konulara daha benzer olur. Bir pazar araştırması bağlamında bu, yaş grupları, kazanç dilimleri, kentsel, kırsal veya banliyö konumu gibi kategorileri belirlemek için kullanılabilir.
Pazarlamada, farklı müşteri gruplarının en alakalı mesajlarla hedeflenebilmesi için kitle segmentasyonu için küme analizi kullanılabilir. Sağlık araştırmacıları, farklı coğrafi alanların belirli hastalıkların yüksek veya düşük seviyeleriyle bağlantılı olup olmadığını öğrenmek için küme analizini kullanabilir, böylece sağlık sorunlarına katkıda bulunan olası yerel faktörleri araştırabilirler.
Kümeleme, küme içi ve kümeler arası mesafe kullanılarak ölçülür.
- Küme içi mesafe, küme içindeki veri noktaları arasındaki mesafedir. Güçlü bir kümelenme etkisi varsa, bu küçük (daha homojen) olmalıdır.
- Kümeler arası mesafe, farklı kümelerdeki veri noktaları arasındaki mesafedir. Güçlü kümelenmenin olduğu yerlerde, bunlar büyük (daha heterojen) olmalıdır.
Kümeler arasındaki bağlantı, iki kümenin birbirinden ne kadar farklı veya benzer olduğunu ifade eder.
Küme Analizinde Temel Sorular
Kümeleme prosedürlerine girişte, her konuyu yalnızca bir sınıfa atayan yöntemlere odaklanmak mantıklıdır. Bir sınıf içindeki konuların genellikle birbirinden ayırt edilemez olduğu varsayılır.
Verilerin altında yatan yapının sırasız bir dizi ayrık sınıf içerdiğini varsayıyoruz. Hepsi farklı ve hiçbiri diğerinden daha fazla ağırlığa sahip değil. Bazı durumlarda, bu sınıfları, bazı sınıfların alt sınıflara ayrıldığı, doğası gereği hiyerarşik olarak da görebiliriz.
Kümeleme prosedürleri, araştırmacının konuları (veri matrisinin satırları) bölmek için önceden yargı kullanmadığı anlamında “ön sınıflandırma” olarak görülebilir. Ancak, bazı amaçların heterojen olduğu varsayılmaktadır; yani, “kümeler” var.
Farklı grupların bu ön varsayımı, algoritmadaki girdiler kümesindeki ortak noktalara veya kümeleme değişkenlerine dayanır. Bu varsayım, bağımlı değişkenin resmi olarak nesne gruplarını tanımlamak için kullanıldığı ve ayrımın veri matrisinin kendisindeki profil benzerliği temelinde yapılmadığı diskriminant analizi veya otomatik etkileşim tespiti durumunda yapılandan farklıdır.
Bu nedenle, grup tanımına ilişkin hiçbir bilginin önceden resmi olarak değerlendirilmediği göz önüne alındığında, kümeleme analizinin zorunlu soruları şunlar olacaktır:
- Hangi denekler arası benzerlik ölçüsü kullanılacak ve böyle bir özet ölçünün oluşturulmasında her bir değişken nasıl “ağırlıklandırılacak”?
- Konular arası benzerlikler elde edildikten sonra sınıflar nasıl oluşturulacak?
- Sınıflar oluşturulduktan sonra, betimsel anlamda her bir kümenin hangi özet ölçülerinin uygun olduğu; yani, kümeler nasıl tanımlanacak?
- Kümelerin yeterli tanımlarının elde edilebileceğini varsayarsak, bunların istatistiksel önemine ilişkin ne gibi çıkarımlar yapılabilir?
Referanslar
- https://www.qualtrics.com/experience-management/research/cluster-analysis/
- https://golden.com/wiki/Clustering