Veri Analizinde Hiyerarşik Kümeleme Kavramını Anlamak: İşlevler, Türler ve Adımlar

Yayınlanan: 2023-04-08

Kümeleme, veri analizinde benzer verilerin gruplar veya kümeler halinde gruplandırılmasını ifade eder. Bu kümeler, veri analistlerinin benzer veri noktalarını bir grupta düzenlemesine ve aynı zamanda onları benzer olmayan diğer verilerden ayırmasına yardımcı olur.

Verilerin hiyerarşik kümelenmesi, verileri bir küme ağacında gruplandırmak için kullanılan yöntemlerden biridir. Veri gruplandırmaya yönelik en popüler ve yararlı yaklaşımlardan biridir. Büyüyen veri bilimi ve veri analizi alanının bir parçası olmak istiyorsanız , hiyerarşik kümeleme öğrenilmesi gereken en önemli şeylerden biridir.

Bu makale, hiyerarşik kümelemenin doğasını, işlevini, türlerini ve avantajlarını anlamanıza yardımcı olacaktır.

İçindekiler

Hiyerarşik Kümeleme Nedir?

Adından da anlaşılacağı gibi, hiyerarşik kümeleme, farklı verileri hiyerarşik veya ağaç biçiminde kümeler halinde gruplandırır. Bu yöntemde her veri noktası ayrı bir küme olarak ele alınır. Hiyerarşik küme analizi, verileri analiz edilmesi daha kolay olan yönetilebilir bir küme hiyerarşisinde özetlediği için veri bilimcileri ve veri analistleri arasında çok popülerdir.

Hiyerarşik kümeleme algoritmaları, birden fazla farklı veri noktası alır ve bir küme oluşturmak için ikisinden en yakınını alır. Tüm veri noktaları tek bir kümeye dönüşene kadar bu adımları tekrar eder. İşlem, tek bir birleştirilmiş kümeyi farklı daha küçük kümelere ve nihayetinde veri noktalarına bölmek için tersine çevrilebilir.

Hiyerarşik kümeleme yöntemi görsel olarak ağaç benzeri bir diyagram olan bir dendrogram olarak temsil edilebilir. İstenen sayıda küme yapıldığında, kümeleme işlemi sırasında herhangi bir noktada bir dendrogram kesilebilir. Bu da verileri analiz etme sürecini kolaylaştırır.

Hiyerarşik Kümeleme nasıl çalışır?

Hiyerarşik kümeleme sürecini anlamak oldukça basittir. Hiyerarşik bir kümeleme algoritması, mevcut tüm veri kümelerini farklı kümeler olarak ele alır. Daha sonra birbirine en çok benzeyen iki veri setini tanımlar ve bunları bir kümede birleştirir. Bundan sonra sistem, tüm veri noktaları tek bir büyük kümede birleşene kadar bu adımları tekrarlamaya devam eder. İşlem, analiz için gerekli sayıda küme mevcut olduğunda da durdurulabilir.

Hiyerarşik bir kümeleme sürecinin ilerlemesi ve çıktısı, farklı kümeler arasındaki ilişkiyi ve bunların doğası gereği ne kadar benzer veya farklı olduklarını belirlemenize yardımcı olabilecek bir dendrogram olarak görselleştirilebilir.

Hiyerarşik Kümeleme Türleri

Hiyerarşik bir kümeleme algoritması iki farklı şekilde kullanılabilir. İşte kullanabileceğiniz iki tür hiyerarşik kümelemenin özellikleri.

1. Toplayıcı Hiyerarşik Kümeleme

Aglomeratif yöntem, verileri hiyerarşik olarak kümelemenin daha popüler bir yoludur. Bu yöntemde, algoritma, her biri kendi kümesi olarak ele alınan birden çok farklı veri kümesiyle sunulur. Ardından algoritma, birbirlerine ne kadar benzer olduklarına bağlı olarak ikili kümeler halinde birleştirmeye başlar. Gerekli küme sayısına ulaşılana kadar bu adımları tekrar eder. Bu yöntem daha çok hiyerarşik küme analizinde kullanılır .

2. Bölücü Hiyerarşik Kümeleme

Hiyerarşik kümelemenin bölücü yöntemi, kümeleme yönteminin tersidir. Bu yöntemde, algoritma, eşitsizliklerine göre adım adım farklılaştırdığı çok sayıda veri noktasından oluşan tek bir büyük küme ile sunulur. Bu, farklı özelliklere sahip birden çok veri kümesiyle sonuçlanır. Bölme yöntemi pratikte pek kullanılmaz.

Dünyanın en iyi Üniversitelerinden çevrimiçi olarak veri bilimi kursları öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Hiyerarşik Kümelemede Adımlar

Daha önce de belirtildiği gibi, verilerin hiyerarşik kümelenmesinde üç ana adım vardır.

  1. İki farklı veri noktası arasındaki benzerliklerin belirlenmesi.
  2. Bunları tek bir kümede birleştirmek.
  3. Büyük bir veri kümesinde birleştirilinceye kadar tüm veri noktaları için bu adımları tekrarlamak.

Bununla birlikte, hiyerarşik kümelemede benzer noktaların nasıl belirleneceğini hatırlamak da çok önemlidir. Bir algoritma tarafından üretilen bir dendrogramı incelerseniz, her bir farklı kümenin merkezi noktalarını kolayca belirleyebilirsiniz. Dendrogramda birbirinden en az uzaklığa sahip olan kümeler birbirine en çok benzeyenlerdir. Mesafe tabanlı algoritma olarak da anılmasının nedeni budur. Bir dendrogramdaki bir küme ile diğer tüm kümeler arasındaki benzerliğe yakınlık matrisi denir.

Hiyerarşik kümelemeyi kullanırken doğru mesafe ölçüsünü de seçmeniz gerekir. Örneğin, mesafe ölçümünüzü cinsiyet veya eğitim durumu olarak seçmenize bağlı olarak, aynı kişiler hakkında bilgi içeren bir veri seti farklı dendrogramlar üretecektir.

Popüler Veri Bilimi Makalelerimizi okuyun

Veri Bilimi Kariyer Yolu: Kapsamlı Bir Kariyer Rehberi Veri Bilimi Kariyer Gelişimi: İşin Geleceği burada Veri Bilimi Neden Önemli? Veri Biliminin İşletmeye Değer Getirmesinin 8 Yolu
Veri Biliminin Yöneticiler İçin Uygunluğu Her Veri Bilimcinin Sahip Olması Gereken Nihai Veri Bilimi Hile Sayfası Veri Bilimcisi Olmanız İçin En Önemli 6 Neden
Veri Bilimcisinin Hayatından Bir Gün: Ne yapıyorlar? Efsane Yıkıldı: Veri Biliminin Kodlamaya İhtiyacı Yok İş Zekası ve Veri Bilimi: Farklar nelerdir?

Hiyerarşik Kümeleme Python

Artık hiyerarşik kümeleme hakkında net bir anlayışa sahip olduğunuza göre, Python hiyerarşik kümelemeyi nasıl gerçekleştireceğimize bakalım . İşte Python'un'scikit-learn' kitaplığı kullanıldığında hiyerarşik kümeleme gerçekleştirmenin nasıl görüneceği .

Altı gözlem içeren bir veri setinde iki değişken ( x ve y) olduğunu varsayalım :

gözlemler X y
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

Dağılım grafiği olarak, bu gözlemler şu şekilde görselleştirilir:

Piton

numpy'yi farklı içe aktar

np

matplotlib.pyplot'u plt olarak içe aktar

# Veri kümesini tanımlayın

X = np.dizi([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

# Verileri çiz

plt.scatter(X[:, 0], X[:,1])

plt.show()

Bu çizimde iki gözlem kümesi vardır - biri daha düşük x ve ydeğerlerini içerir , diğeri daha yüksekxveydeğerlerini içerir .

Bu veri kümesinde hiyerarşik kümeleme yapmak için'scikit learning'i kullanabilirsiniz .

Arsadaki iki gözlem kümesi farklı değerlere sahiptir. Biri daha yüksek x ve ydeğerlerinden , diğeri daha düşük değerlerden oluşur.

Rekabette avantaj elde etmek içinücretsiz veri bilimi kurslarımızagöz atın.

Daha önce tartıştığımız iki ana hiyerarşik kümeleme yönteminden, aglomeratif kümeleme yöntemini 'ward ' bağlantı yöntemiyle kullanacağız.'Koğuş' yöntemi, bir araya getirilen kümelerin varyasyonlarını en aza indirir, dolayısıyla boyut ve şekil bakımından benzer kümeler üretir.

Popüler Veri Bilimi Kurslarımızı keşfedin

IIITB'den Veri Biliminde Yönetici Yüksek Lisans Programı İş Kararları Verme için Veri Biliminde Profesyonel Sertifika Programı Arizona Üniversitesi'nden Veri Biliminde Bilim Ustası
IIITB'den Veri Biliminde Gelişmiş Sertifika Programı Maryland Üniversitesi'nden Veri Bilimi ve İş Analitiği Alanında Profesyonel Sertifika Programı Veri Bilimi Kursları

Piton

sklearn.cluster'dan AgglomerativeClustering'iiçeaktarın

# Hiyerarşik kümeleme gerçekleştirin

kümeleme AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

'n-clusters ' parametresi burada iki küme istediğimizi belirtmek için kullanıldı.

Çizdiğimizde her küme için farklı renkler kullanabiliriz:

Piton

# Kümeleri çiz

renkler= np.array([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=renkler [kümeleme.etiketler_])

plt.show()

Verilerdeki iki küme, kümeleme algoritması tarafından doğru bir şekilde tanımlanmıştır. Kümeleme algoritmasının her bir gözleme atadığı etiketi de kullanabilirsiniz:

Piton

yazdır (kümeleme.etiketler_)

csharp

[ 0 0 1 1 1 1]

Son dört gözlem küme 1'e atanırken, ilk ikisi küme 0'a atandı.

Bu kümelerin hiyerarşik yapısını görselleştirmek istiyorsanız, bunu yapmak için bir dendrogram oluşturabilirsiniz:

Piton

scipy.cluster.hierarchy'den dendrogramı, bağlantıyı içeaktarın

# Bağlantı matrisini hesapla

Z = bağlantı(X, ' koğuş')

# Dendrogramı çiz

dendrogram(Z)

plt.show()

Dendrogram, birleştirilmiş kümelerin hiyerarşisini görselleştirmemize yardımcı olabilir.

Öğrenilecek En İyi Veri Bilimi Becerileri

Öğrenilecek En İyi Veri Bilimi Becerileri
1 Veri Analizi Kursu Çıkarımsal İstatistik Kursları
2 Hipotez Test Programları Lojistik Regresyon Kursları
3 Lineer Regresyon Kursları Analiz için Doğrusal Cebir

Çözüm

Veri kümeleme, veri bilimi ve veri analizinin çok önemli bir parçasıdır. Farklı kümeleme yöntemlerini öğrenmek istiyorsanız, upGrad öğrenme yolculuğunuza başlamanıza yardımcı olabilir! Ustalık sınıfları, endüstri oturumları, mentorluk oturumları, Python Programlama Eğitim Kampı ve canlı öğrenme oturumlarının yardımıyla, upGrad'ın Veri Biliminde Yüksek Lisans derecesi , profesyonellerin rakiplerine karşı avantaj elde etmesi için tasarlanmış bir kurstur.

Arizona Üniversitesi'nin rehberliğinde sunulan bu kurs, veri bilimi kariyerinizi son teknoloji bir müfredat, endüstri uzmanlarıyla sürükleyici öğrenme deneyimi ve iş fırsatları ile güçlendiriyor.

S. Veri biliminde neden hiyerarşik kümeleme yapıyoruz?

Hiyerarşik kümeleme, verileri çeşitli benzer niteliklere göre gruplandırmak için kullanılır. Veri yönlerini görsel olarak anlaşılır gruplara dağıtmak, dendrograma kolayca bakarak pratik uygulamasını basitleştirir.

S. Hiyerarşik kümeleme nelerde kullanılır?

Hiyerarşik kümeleme, sosyal ağ siteleri aracılığıyla oluşturulan verilerin gruplandırılmasında yaygın olarak kullanılan bir biçimdir. Analistler bu verileri kullanarak iş süreçlerini geliştirmek ve geliri üretken bir şekilde artırmak için değerli içgörüler elde edebilirler.

S. Hiyerarşik kümelemenin sınırlamaları nelerdir?

Hiyerarşik kümeleme, karışık türlere veya eksik verilere uymaz. Hiyerarşik kümelemenin bir başka sınırlaması, çok büyük bir veri kümesiyle iyi performans göstermemesidir.