Veri Madenciliğinde Kümeleme için Açıklayıcı Kılavuz – Tanım, Uygulamalar ve Algoritmalar

Yayınlanan: 2021-02-25

İçindekiler

Giriş – Veri Madenciliği ve Kümeleme Nedir?

Çeşitli kuruluşların elinde devasa veriler vardır ve bu kuruluşların bunları depolamayı seçmelerinin bir nedeni vardır. Bu verileri, kârlılıklarını artırmalarına yardımcı olabilecek verilerden bazı içgörüler çıkarmak için kullanırlar. Ham veri kümesinden içgörüleri ve temeldeki kalıpları çıkarma süreci Veri Madenciliği olarak bilinir. Bu anlayışlı kalıpları çıkarmanın yollarından biri Kümelemedir.

Kümeleme, ortak özellikler sergileyen veri noktalarının gruplandırılmasını ifade eder. Başka bir deyişle, veri setini analiz eden ve veri noktalarının kümelerini oluşturan bir süreçtir. Bir küme, bu tür benzer veri noktalarının bir gruplandırılmasından başka bir şey değildir. Kümeleme işleminde, veri noktaları önce bir araya getirilerek kümeler oluşturulur ve daha sonra bu kümelere etiketler atanır.

Veri seti üzerinde kümeleme yapmak için veri setinde çıktı etiketleri bilinmediği için genellikle denetimsiz öğrenme algoritmaları kullanırız. Kümeleme, keşifsel veri analizinin bir parçası olarak kullanılabilir ve anlayışlı kümeler elde etmek için modelleme için kullanılabilir. Kümeler, bir küme içindeki veri noktaları arasındaki mesafe minimum olacak ve farklı kümeler arasındaki mesafe mümkün olduğunca uzak olacak şekilde optimize edilmelidir.

Neden Kümeleme kullanılır? – Kümelemenin kullanımları

  1. Verilerin daha iyi yorumlanması – Kümeleme kullanılarak, veri setinden çıkarılan örüntüler sıradan insanlar tarafından kolayca anlaşılabilir ve dolayısıyla kolayca yorumlanabilir.
  2. Yüksek boyutlu verilerden içgörüler – Yüksek boyutlu veri kümelerini yalnızca özelliklerine bakarak analiz etmek kolay değildir. Kümelemeyi kullanmak, bazı içgörüler sağlamaya ve devasa verilerden bazı kalıpları çıkarmaya yardımcı olabilir. Bazı soruların çözümünde faydalı olabilecek bazı özetler sağlayabilir.
  3. Rastgele kümeleri keşfetme – Farklı kümeleme yöntemlerinin yardımıyla herhangi bir rastgele şekil alabilen kümeleri bulabiliriz. Bu, veri setinin temel özelliklerini elde etmede yardımcı olabilir.

Kümelemenin gerçek hayattaki kullanım örnekleri – Uygulamalar

  1. Şirketiniz yeni bir ürün piyasaya sürdü ve şirketinizin maksimum kârlılığa ulaşması için ürünün doğru insan grubuna ulaşmasını sağlamaktan siz sorumlusunuz. Bu durumda, eldeki sorun doğru insan tipini belirlemektir. Satın alma modellerini analiz ederek doğru insan grubunu belirlemek için müşteri veritabanında kümeleme gerçekleştirebilirsiniz.
  2. Şirketinizde kategorize edilmemiş tonlarca resim var ve amiriniz bunları resimlerin içeriğine göre gruplandırmanızı istiyor. Bu görüntülerde görüntü segmentasyonu gerçekleştirmek için kümelemeyi kullanabilirsiniz. Mevcut verilerden bazı kalıpları çıkarmanızı isterlerse, kümelemeyi de kullanabilirsiniz.

Farklı Kümeleme yöntemleri türleri – Algoritmalar

1. Hiyerarşik Kümeleme Yöntemi

Bu yöntem, kümeleri, Öklid mesafesi, Manhattan mesafesi vb. gibi seçilen mesafe ölçümüne dayalı olarak gruplar veya böler. Genellikle bir dendrogram kullanılarak temsil edilir. Tüm kümeler arasında, aralarındaki mesafeyi gösteren bir mesafe matrisi oluşturur. Bu mesafe ölçüsü kullanılarak, kümeler arasındaki bağlantı, bağlantı türüne göre yapılır.

Bir kümede çok sayıda veri noktası olabileceğinden, bir kümeden diğer kümedeki tüm noktalara olan tüm noktalar arasındaki mesafeler farklı olacaktır. Bu, kümelerin birleştirilmesine karar verecek olan mesafenin dikkate alınması gerektiğine karar vermeyi zorlaştırır. Bunun üstesinden gelmek için, hangi kümelerin bağlanması gerektiğini belirlemek için bağlantı kriterlerini kullanırız. Üç yaygın bağlantı türü vardır: –

  • Tek Bağlantı – İki küme arasındaki mesafe, bu iki kümedeki noktalar arasındaki en kısa mesafe ile temsil edilir.
  • Tam Bağlantı – İki küme arasındaki mesafe, bu iki kümedeki noktalar arasındaki maksimum mesafe ile temsil edilir.
  • Ortalama Bağlantı – İki küme arasındaki mesafe, bu iki kümedeki noktalar arasındaki ortalama mesafenin hesaplanmasıyla temsil edilir.

Aglomeratif Yaklaşım – Aynı zamanda Aşağıdan Yukarıya yaklaşım olarak da adlandırılır. Burada her veri noktası ilk aşamada bir küme olarak kabul edilir ve daha sonra bu kümeleri tek tek birleştirir.

Bölücü Yaklaşım – Yukarıdan Aşağıya yaklaşım olarak da adlandırılır. Burada, ilk aşamada tüm veri noktaları tek bir küme olarak kabul edilir ve daha sonra bu veri noktaları daha fazla küme oluşturmak için bölünür.

2. Bölümleme Kümeleme Yöntemi

Bu yöntem, veri noktaları arasındaki özelliklere ve benzerliklere dayalı olarak kümeler oluşturur. Bu metodolojiyi kullanan algoritmalar, girdi olarak oluşturulacak küme sayısını gerektirir. Bu algoritmalar daha sonra bu sayıda kümeyi oluşturmak için yinelemeli bir yaklaşım izler. Bu metodolojiyi takip eden algoritmalardan bazıları şunlardır: –

  • K-Ortalamalar Kümeleme

K-Means, belirtilen küme sayısını oluşturmak için Manhattan mesafesi, Öklid mesafesi vb. gibi mesafe ölçümlerini kullanır. Veri noktaları ile kümelerin ağırlık merkezi arasındaki mesafeyi hesaplar. Veri noktaları daha sonra en yakın kümelere atanır ve kümenin merkezi yeniden hesaplanır. Bu tür yinelemeler, önceden tanımlanmış sayıda yineleme tamamlanana veya yinelemeden sonra kümelerin ağırlık merkezi değişmeyene kadar tekrarlanır.

  • PAM (Medoidlerin Etrafında Bölümleme)

K-Medoid algoritması olarak da bilinen bu algoritmanın bu çalışması K-Means'inkine benzer. Kümenin merkezinin nasıl atandığı açısından K-Ortalamalarından farklıdır. PAM'de kümenin orta noktası gerçek bir veri noktası iken K-Ortalamalarda gerçek bir veri noktasının koordinatları olmayabilecek veri noktalarının ağırlık merkezini hesaplar. PAM'de, kümelerin medoidleri olarak k adet veri noktası rastgele seçilir ve tüm veri noktaları ile kümelerin medoidleri arasındaki mesafe hesaplanır.

Okuyun: Veri Analitiği ve Veri Bilimi

3. Yoğunluğa Dayalı Kümeleme Yöntemi

Bu yöntem, veri noktalarının yoğunluğuna dayalı olarak kümeler oluşturur. Aynı bölgede daha fazla veri noktası bulunduğundan bölgeler yoğunlaşır ve bu bölgeler kümeler olarak kabul edilir. Yoğun bölgelerden uzakta bulunan veri noktaları veya veri noktalarının sayıca çok az olduğu alanlar aykırı veya gürültü olarak kabul edilir. Aşağıdaki algoritmalar bu metodolojiye dayanmaktadır: –

  • DBSCAN (Gürültü ile Uygulamaların Yoğunluk Tabanlı Uzamsal Kümelenmesi) : – DBSCAN, veri noktalarının mesafesine dayalı olarak kümeler oluşturur. Aynı komşuluktaki veri noktalarını gruplandırır. Bir küme olarak kabul edilmek için, o bölgede belirli sayıda veri noktası bulunmalıdır. İki parametre alır - eps ve minimum noktalar - eps, veri noktalarının komşu olarak kabul edilmesi için ne kadar yakın olması gerektiğini belirtir ve minimum noktalar, bir küme olarak kabul edilmesi için o bölgede bulunması gereken veri noktalarının sayısıdır.
  • OPTİK (Kümeleme Yapısını Tanımlamak için Sipariş Noktaları) : – DBSCAN algoritmasının bir modifikasyonudur. DBSCAN algoritmasının sınırlamalarından biri, veri noktaları veri alanında eşit olarak dağıldığında anlamlı kümeler oluşturamamasıdır. Bu sınırlamanın üstesinden gelmek için, OPTICS algoritması iki parametre daha alır - çekirdek mesafesi ve erişilebilirlik mesafesi. Çekirdek mesafesi, veri noktasının bir çekirdek nokta olup olmadığını ona bir değer tanımlayarak gösterir. Ulaşılabilirlik mesafesi, maksimum çekirdek mesafesi ve iki veri noktası arasındaki mesafeyi hesaplamak için kullanılan mesafe metriğinin değeri olarak tanımlanır.

4. Izgara Tabanlı Kümeleme Yöntemi

Bu yöntemin ideolojisi, yaygın olarak kullanılan diğer yöntemlerden farklıdır. Bu yöntem, tüm veri alanını bir ızgara yapısı olarak temsil eder ve birden çok ızgara veya hücre içerir. Veri odaklı bir yaklaşımdan ziyade daha çok alan odaklı bir yaklaşımı takip eder. Başka bir deyişle, veri noktalarının kendisinden ziyade veri noktalarını çevreleyen alanla daha fazla ilgilenir.

Bu nedenle algoritma daha hızlı yakınsar ve hesaplama karmaşıklığında büyük bir azalma sağlar. Genel olarak, algoritmalar veri alanını hücre sayısına bölerek kümelemeyi başlatır ve böylece bir ızgara yapısı oluşturur. Daha sonra bu hücrelerin yoğunluğunu hesaplar ve yoğunluklarına göre sıralar. STING (Statistical Information Grid Approach), WaveCluster, CLIQUE (Clustering in Quest) gibi algoritmalar bu kategoriye girer.

5. Model Tabanlı Kümeleme Yöntemi

Bu yöntem, verilerin bir olasılık dağılımları karışımı tarafından üretildiğini varsayar. Bu dağılımların her biri bir küme olarak kabul edilebilir. Veri ve model arasındaki uyumu optimize etmeye çalışır. Modellerin parametreleri, Beklenti-Maksimizasyon, Kavramsal Kümeleme vb. algoritmalar kullanılarak tahmin edilebilir.

6. Kısıtlamaya Dayalı Kümeleme Yöntemi

Bu yöntem, kullanıcı odaklı kısıtlamaları karşılayan kümeleri bulmaya çalışır. Yarı denetimli metodoloji sınıfına girer. Bu metodoloji, kullanıcıların tercihlerine göre kümeler oluşturmasına olanak tanır. Bu, belirli özelliklere sahip bazı kümeler ararken işe yarar.

Ancak bu süreçte oluşan kümeler kullanıcı tercihlerine odaklandığından bazı altta yatan özellikler ve anlayışlı kümeler oluşturulamayabilir. Bu yaklaşımı takip eden algoritmalar, COP K-Ortalamalar, PCKMeans (İkili Kısıtlı K-Ortalamalar) ve CMWK-Ortalamalar (Sınırlı Minkowski Ağırlıklı K-Ortalamalar) şeklindedir.

Ayrıca Okuyun: Veri Bilimi Proje Fikirleri

Dünyanın en iyi Üniversitelerinden çevrimiçi veri bilimi kurslarını öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Çözüm

Kümeleme algoritmalarının, iş üretkenliği için verilerden içgörü sağlamada çok etkili olduğu kanıtlanmıştır. Çeşitli organizasyonlarda kullanılan yaygın algoritmalar size beklenen sonuçları verebilir, ancak alışılmışın dışında olanlar da denemeye değer. Bu makale, kümelemenin ne olduğuna ve veri madenciliğinin bir parçası olarak nasıl kullanılabileceğine odaklanmıştır. Ayrıca, kümelemenin kullanımlarından birkaçını, kümelemenin gerçek hayatta nasıl kullanılabileceğini ve kümelemede farklı yöntem türlerini listeledi.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan Veri Biliminde Yönetici PG'sine göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Aglomeratif Kümelemenin avantajları ve dezavantajları nelerdir?

AGNES, her veri noktasının kendi kümesine sahip olacağını ve n veri satırı olsa bile algoritmanın n küme ile başlayacağını kabul ederek başlar. Ardından, DIANA'da ölçülen mesafelere bağlı olarak, yinelemeli olarak, en benzer kümeler birleştirilir ve daha büyük bir küme oluşturulur. Yinelemeler, tüm veri noktalarını içeren tek bir büyük küme elde edene kadar gerçekleştirilir.
Avantajlar:
1. Kullanıcının bir bölme eşiği tanımlaması gerekse de, kümelerin sayısı hakkında önceden bilgi sahibi olması gerekmez.
2. Çeşitli veri türleri arasında uygulanması kolaydır ve çeşitli kaynaklardan elde edilen veriler için güvenilir sonuçlar ürettiği bilinmektedir. Sonuç olarak, geniş bir uygulama yelpazesine sahiptir.
Dezavantajları:
1. Küme bölümü (DIANA) veya kombinasyonu (AGNES) oldukça titizdir ve bir kez yapıldıktan sonra geri alınamaz veya sonraki iterasyonlarda veya yeniden çalıştırmalarda yeniden atanamaz.
2. Tüm n veri noktaları için O(n^2logn) sırasında yüksek bir zamansal karmaşıklığa sahiptir ve bu nedenle daha büyük veri kümeleri için kullanılamaz.
3. Aykırı değerler ve gürültü ile başa çıkamamak

GMM'de Beklenen Maksimizasyon Nedir?

Veri noktalarının, önceki yaklaşımlardaki kısıtlamalara kıyasla hiçbir zaman bir kısıtlama olmayan Gauss Karışık Modellerinde bir Gauss dağılımıyla eşleştiğini varsayıyoruz. Ayrıca, bu hipotez kritik küme şekli seçim kriterlerine yol açabilir - yani küme formları artık ölçülebilir. Verileri ölçmek için en sık kullanılan ve en kolay iki metrik – ortalama ve varyans – kullanılır.
Bir tür optimizasyon fonksiyonu olan Beklenti-Maksimizasyon, ortalama ve varyansı belirlemek için kullanılır. Bu işlev, gibi bir dizi rastgele Gauss parametresiyle başlar ve Hipotezin bir örneğin küme c'ye ait olduğunu doğrulayıp doğrulamadığını kontrol eder. Bundan sonra, kümeye tahsis edilen noktalara uyacak şekilde Gauss parametrelerinin güncellenmesini içeren maksimize etme adımına geçiyoruz. Maksimizasyon aşamasının amacı, örneğin küme dağılımına ait olma olasılığını arttırmaktır.

Kümeleme uygulamaları nelerdir?

Kümelemenin bazı ticari kullanımlarına ve Veri Madenciliğine nasıl uyduğuna bir göz atalım.
1. Birbirine benzeyen nesnelerin birlikte verilmesini ve farklı nesnelerin yok sayılmasını gerektiren arama motoru algoritmalarının temelidir.
2. Kümeleme algoritmaları, biyoinformatikte görüntü segmentasyonu kullanarak çeşitli tıbbi görüntülemelerden kötü huylu hücreleri tespit etmede, insan hatalarını ve diğer önyargıları ortadan kaldırmada etkinliklerini göstermiştir.
3. Kümeleme, Netflix tarafından izleyicilerine film önerileri oluşturmak için kullanılmıştır.
4. Haberleri özetlemek için makaleleri ilgili konulara ayıran küme analizi kullanılabilir.
5. İş arayanların özgeçmişleri, beceri setleri, deneyim, güçlü yönler, proje türleri, uzmanlık vb. gibi çeşitli değişkenlere bağlı olarak kategorilere ayrılabilir ve potansiyel işverenlerin doğru insanlarla bağlantı kurmasına olanak tanır.