數據挖掘中的聚類解釋指南——定義、應用和算法

已發表: 2021-02-25

簡介 – 什麼是數據挖掘和聚類？

各種組織手頭都有大量數據，這些組織選擇存儲這些數據是有原因的。他們使用這些數據從數據中提取一些見解，這可以幫助他們提高盈利能力。從原始數據集中提取洞察力和潛在模式的過程稱為數據挖掘。提取這些有見地的模式的方法之一是聚類。

聚類是指對錶現出共同特徵的數據點進行分組。換句話說，它是一個分析數據集並創建數據點集群的過程。集群只不過是一組類似的數據點。在聚類處理中，首先將數據點組合在一起形成聚類，然後為這些聚類分配標籤。

為了對數據集進行聚類，我們通常使用無監督學習算法，因為輸出標籤在數據集中是未知的。聚類可用作探索性數據分析的一部分，並可用於建模以獲得有洞察力的聚類。應該以這樣的方式優化集群，即集群內的數據點之間的距離應該最小，並且不同集群之間的距離應該盡可能遠。

為什麼要使用集群？ – 集群的使用

更好地解釋數據——使用聚類，從數據集中提取的模式可以很容易地被外行人理解，因此可以很容易地解釋它們。
來自高維數據的洞察——高維數據集並不容易僅通過查看其特徵來分析。使用聚類有助於提供一些見解並從海量數據中提取一些模式。它可以提供一些總結，可能有助於解決一些問題。
發現任意聚類——借助不同的聚類方法，我們可以找到可以採用任意隨機形狀的聚類。這有助於獲得數據集的基本特徵。

集群的實際用例 - 應用程序

貴公司推出了一種新產品，您負責確保該產品能夠接觸到合適的人群，以便您的公司能夠實現最大的盈利能力。在這種情況下，識別正確類型的人是手頭的問題。您可以在客戶數據庫上執行聚類，通過分析他們的購買模式來識別正確的人群。
您的公司有大量未分類的圖像，您的主管要求您根據圖像的內容對它們進行分組。您可以使用聚類對這些圖像執行圖像分割。如果他們要求您從現有數據中提取一些模式，您也可以使用聚類。

不同類型的聚類方法——算法

1.層次聚類法

該方法根據選擇的距離度量（如歐幾里得距離、曼哈頓距離等）對集群進行分組或劃分。通常使用樹狀圖表示。它在所有簇之間創建一個距離矩陣，指示它們之間的距離。使用這個距離度量，集群之間的鏈接是基於鏈接的類型來完成的。

由於一個簇中可能有許多數據點，因此一個簇中的所有點與另一簇中的所有點之間的距離會有所不同。這使得很難決定應該考慮哪個距離來決定集群的合併。為了解決這個問題，我們使用鏈接標準來確定應該鏈接哪些集群。共有三種常見的鏈接類型：-

Single Linkage –兩個集群之間的距離由這兩個集群中的點之間的最短距離表示。
Complete Linkage –兩個集群之間的距離由這兩個集群中的點之間的最大距離表示。
平均鏈接——兩個集群之間的距離通過計算這兩個集群中點之間的平均距離來表示。

凝聚法——也稱為自下而上法。在這裡，每個數據點在初始階段都被認為是一個集群，然後將這些集群一一合併。

分裂方法——也稱為自上而下的方法。在這裡，所有數據點在初始階段被視為一個集群，然後將這些數據點劃分以創建更多集群。

2.分區聚類方法

該方法根據數據點之間的特徵和相似性創建聚類。使用這種方法的算法需要創建集群的數量作為輸入。然後，這些算法遵循迭代方法來創建這些數量的集群。遵循這種方法的一些算法如下： –

K-Means 聚類

K-Means 使用曼哈頓距離、歐幾里得距離等距離度量來創建指定的集群數量。它計算數據點和聚類質心之間的距離。然後將數據點分配給最近的集群，並重新計算集群的質心。重複這樣的迭代，直到完成預定義的迭代次數或迭代後集群的質心不改變。

PAM（圍繞 Medoids 分區）

也稱為 K-Medoid 算法，該算法的這種工作方式類似於 K-Means 的工作方式。它與 K-Means 的區別在於如何分配集群的中心。在 PAM 中，集群的中心點是實際數據點，而在 K-Means 中，它計算數據點的質心，可能不是實際數據點的坐標。在 PAM 中，隨機選擇 k 個數據點作為簇的中心點，併計算所有數據點與簇中心點之間的距離。

閱讀：數據分析與數據科學

3. 基於密度的聚類方法

此方法基於數據點的密度創建集群。隨著越來越多的數據點位於同一區域中，這些區域變得密集，並且這些區域被視為集群。遠離密集區域或數據點數量非常少的區域的數據點被視為異常值或噪聲。以下算法基於此方法： –

DBSCAN（基於密度的噪聲應用空間聚類）： – DBSCAN 根據數據點的距離創建聚類。 它將同一鄰域中的數據點組合在一起。要被視為一個集群，特定數量的數據點必須位於該區域中。它需要兩個參數——eps 和最小點——eps 表示數據點應該被視為鄰居的接近程度，最小點是必須位於該區域內才能被視為集群的數據點的數量。
OPTICS（識別聚類結構的排序點）： – 它是 DBSCAN 算法的修改。 DBSCAN 算法的局限性之一是當數據點在數據空間中均勻分佈時，它無法創建有意義的集群。為了克服這個限制，OPTICS 算法採用了另外兩個參數——核心距離和可達距離。核心距離通過為其定義一個值來指示數據點是否為核心點。可達距離定義為核心距離的最大值和用於計算兩個數據點之間距離的距離度量值。

4. 基於網格的聚類方法

這種方法的思想與其他常用方法不同。該方法將整個數據空間表示為一個網格結構，它包含多個網格或單元格。它更多地遵循空間驅動的方法，而不是數據驅動的方法。換句話說，它更關心數據點周圍的空間，而不是數據點本身。

因此，該算法收斂速度更快，並大大降低了計算複雜度。通常，算法通過將數據空間劃分為多個單元格來初始化聚類，從而創建網格結構。然後它計算這些細胞的密度並根據它們的密度對它們進行分類。 STING（統計信息網格方法）、WaveCluster、CLIQUE（Quest 中的聚類）等算法都屬於這一類。

5. 基於模型的聚類方法

此方法假設數據是由概率分佈的混合生成的。這些分佈中的每一個都可以被視為一個集群。它試圖優化數據和模型之間的擬合。可以使用期望最大化、概念聚類等算法來估計模型的參數。

6. 基於約束的聚類方法

該方法試圖找到滿足面向用戶的約束的集群。它屬於半監督方法。這種方法允許用戶根據自己的喜好創建集群。當我們正在尋找一些具有特定特徵的集群時，這會派上用場。

但在這個過程中，由於形成的聚類集中在用戶偏好上，一些潛在的特徵和有洞察力的聚類可能無法形成。遵循這種方法的算法是 COP K-Means、PCKMeans（成對約束 K-Means）和 CMWK-Means（約束 Minkowski 加權 K-Means）。

另請閱讀：數據科學項目理念

從世界頂級大學在線學習數據科學課程。獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

結論

事實證明，聚類算法在從數據中提供洞察力以提高業務生產力方面非常有效。各種組織中使用的通用算法可能會為您提供預期的結果，但非正統的也值得一試。本文重點介紹什麼是聚類以及如何將其用作數據挖掘的一部分。它還列出了集群的一些用途，集群如何在現實生活中使用，以及集群中不同類型的方法。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG，它是為在職專業人士創建的，提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流，400 多個小時的學習和頂級公司的工作協助。

凝聚聚類的優缺點是什麼？

AGNES 首先認識到每個數據點都有自己的集群，即使有 n 個數據行，算法也會從 n 個集群開始。然後，根據在 DIANA 中測量的距離，迭代地連接最相似的集群以形成更大的集群。進行迭代，直到我們得到一個包含所有數據點的大型集群。
優點：
1. 雖然用戶必須定義一個劃分閾值，但不需要事先知道集群的數量。
2. 可以簡單地應用於各種數據類型，並且可以為從各種來源獲得的數據產生可靠的結果。因此，它具有廣泛的應用。
缺點：
1.集群劃分（DIANA）或組合（AGNES）是相當嚴格的，一旦完成，在後續的迭代或重新運行中不能逆轉或重新分配。
2. 它對所有 n 個數據點具有很高的時間複雜度，大約為 O(n^2logn)，因此不能用於更大的數據集。
3. 無法處理異常值和噪聲

GMM 中的期望最大化是什麼？

我們假設數據點與高斯混合模型中的高斯分佈相匹配，與先前方法中的限制相比，這絕不是一個約束。此外，這個假設可以導致關鍵的集群形狀選擇標準——也就是說，現在可以測量集群形式。兩個最常見和最簡單的指標——均值和方差——用於量化數據。
期望最大化，一種優化函數，用於確定均值和方差。該函數從一組隨機高斯參數開始，例如，並檢查假設是否確認樣本屬於集群 c。之後，我們繼續進行最大化步驟，其中包括更新高斯參數以適應分配給集群的點。最大化階段的目標是增加樣本屬於聚類分佈的概率。

聚類有哪些應用？

讓我們看一下集群的一些業務用途以及它如何適合數據挖掘。
1.它是搜索引擎算法的基礎，要求將相似的對象放在一起，不相似的對象忽略。
2. 聚類算法已經證明了它們在使用生物信息學中的圖像分割從各種醫學成像中檢測惡性細胞、消除人為錯誤和其他偏差方面的有效性。
3. Netflix 已利用聚類為其觀眾創建電影推薦。
4. 聚類分析，將文章分成一組相關的主題，可以用來總結新聞。
5. 求職者的簡歷可以根據技能組合、經驗、優勢、項目類型、專長等多種變量進行分類，讓潛在雇主與合適的人建立聯繫。