データマイニングにおけるクラスタリングの説明ガイド–定義、アプリケーション、およびアルゴリズム

公開: 2021-02-25

目次

はじめに–データマイニングとクラスタリングとは何ですか?

さまざまな組織が膨大なデータを手元に持っており、これらの組織がそれを保存することを選択する理由があります。 彼らはこのデータを使用して、データからいくつかの洞察を抽出し、収益性の向上に役立てることができます。 生データセットから洞察と基礎となるパターンを抽出するプロセスは、データマイニングとして知られています。 これらの洞察に満ちたパターンを抽出する方法の1つは、クラスタリングです。

クラスタリングとは、共通の特性を示すデータポイントのグループ化を指します。 つまり、データセットを分析し、データポイントのクラスターを作成するプロセスです。 クラスターは、そのような類似したデータポイントのグループに他なりません。 クラスタリングの処理では、最初にデータポイントがグループ化されてクラスターが形成され、次にこれらのクラスターにラベルが割り当てられます。

データセットでクラスタリングを実行するには、出力ラベルがデータセットで認識されていないため、通常、教師なし学習アルゴリズムを使用します。 クラスタリングは、探索的データ分析の一部として使用でき、洞察に満ちたクラスターを取得するためのモデリングに使用できます。 クラスターは、クラスター内のデータポイント間の距離が最小になり、異なるクラスター間の距離が可能な限り遠くなるように最適化する必要があります。

なぜクラスタリングを使用するのですか? –クラスタリングの使用

  1. データのより良い解釈–クラスタリングを使用すると、データセットから抽出されたパターンは素人の人々が簡単に理解できるため、簡単に解釈できます。
  2. 高次元データからの洞察–高次元データセットは、その特徴を見ただけでは分析が容易ではありません。 クラスタリングを使用すると、いくつかの洞察を提供し、巨大なデータからいくつかのパターンを抽出するのに役立ちます。 それはいくつかの質問を解決するのに役立つかもしれないいくつかの要約を提供することができます。
  3. 任意のクラスターの発見–さまざまなクラスタリング手法を使用して、任意のランダムな形状をとることができるクラスターを見つけることができます。 これは、データセットの基本的な特性を取得するのに役立ちます。

クラスタリングの実際のユースケース–アプリケーション

  1. あなたの会社は新製品を発売しました、そしてあなたはあなたの会社が最大の収益性を達成することができるように製品が適切な人々のグループに届くことを確実にする責任があります。 この場合、適切なタイプの人々を特定することが当面の問題です。 顧客データベースでクラスタリングを実行して、購入パターンを分析することにより、適切なグループの人々を特定できます。
  2. あなたの会社には分類されていない画像がたくさんあり、上司から画像の内容に従ってそれらをグループ化するように求められます。 クラスタリングを使用して、これらの画像の画像セグメンテーションを実行できます。 既存のデータからいくつかのパターンを抽出するように求められた場合は、クラスタリングを使用することもできます。

さまざまなタイプのクラスタリング手法–アルゴリズム

1.階層的クラスタリング手法

この方法では、ユークリッド距離、マンハッタン距離など、選択した距離メトリックに基づいてクラスターをグループ化または分割します。通常、樹状図を使用して表されます。 すべてのクラスター間に距離行列を作成し、クラスター間の距離を示します。 この距離メトリックを使用して、クラスター間のリンクは、リンクのタイプに基づいて行われます。

クラスタ内には多くのデータポイントが存在する可能性があるため、あるクラスタから別のクラスタ内のすべてのポイントまでのすべてのポイント間の距離は異なります。 これにより、クラスターのマージを決定する距離を検討する必要があるかどうかを判断することが困難になります。 これに取り組むために、リンク基準を使用して、リンクするクラスターを決定します。 リンケージには3つの一般的なタイプがあります。–

  • シングルリンケージ– 2つのクラスター間の距離は、これら2つのクラスター内のポイント間の最短距離で表されます。
  • 完全なリンケージ– 2つのクラスター間の距離は、これら2つのクラスター内のポイント間の最大距離で表されます。
  • 平均リンケージ– 2つのクラスター間の距離は、これら2つのクラスター内のポイント間の平均距離を計算することによって表されます。

凝集的アプローチ–ボトムアップアプローチとも呼ばれます。 ここでは、すべてのデータポイントが初期段階でクラスターと見なされ、次にこれらのクラスターを1つずつマージします。

分割アプローチ–トップダウンアプローチとも呼ばれます。 ここでは、すべてのデータポイントが初期段階で1つのクラスターと見なされ、次にこれらのデータポイントが分割されてさらにクラスターが作成されます。

2.パーティショニングクラスタリング手法

この方法では、データポイント間の特性と類似性に基づいてクラスターを作成します。 この方法を使用するアルゴリズムでは、入力として作成されるクラスターの数が必要です。 次に、これらのアルゴリズムは反復アプローチに従って、これらの数のクラスターを作成します。 この方法論に従うアルゴリズムのいくつかは次のとおりです。–

  • K-Meansクラスタリング

K-Meansは、マンハッタン距離、ユークリッド距離などの距離メトリックを使用して、指定されたクラスターの数を作成します。 データポイントとクラスターの重心の間の距離を計算します。 次に、データポイントが最も近いクラスターに割り当てられ、クラスターの重心が再計算されます。 このような反復は、事前定義された反復回数が完了するか、反復後にクラスターの重心が変化しなくなるまで繰り返されます。

  • PAM(メドイド周辺のパーティショニング)

K-Medoidアルゴリズムとも呼ばれ、このアルゴリズムの動作はK-Meansの動作と似ています。 これは、クラスターの中心がどのように割り当てられるかという点でK-Meansとは異なります。 PAMでは、クラスターのメドイドは実際のデータポイントですが、K-Meansでは、実際のデータポイントの座標ではない可能性のあるデータポイントの重心を計算します。 PAMでは、k個のデータポイントがクラスターのメドイドとしてランダムに選択され、すべてのデータポイントとクラスターのメドイドの間の距離が計算されます。

読む:データ分析とデータサイエンス

3.密度ベースのクラスタリング手法

この方法では、データポイントの密度に基づいてクラスターを作成します。 同じ領域内に存在するデータポイントが増えるにつれて、領域は密になり、これらの領域はクラスターと見なされます。 密集した領域またはデータポイントの数が非常に少ない領域から遠く離れたデータポイントは、外れ値またはノイズと見なされます。 次のアルゴリズムは、この方法論に基づいています。–

  • DBSCAN(ノイズのあるアプリケーションの密度ベースの空間クラスタリング) :– DBSCANは、データポイントの距離に基づいてクラスターを作成します。 これは、同じ近隣にあるデータポイントをグループ化します。 クラスタと見なされるには、特定の数のデータポイントがその領域に存在する必要があります。 epsと最小ポイントの2つのパラメーターが必要です。epsは、データポイントが隣接ノードと見なされる距離を示し、最小ポイントは、クラスターと見なされるためにその領域内に存在する必要があるデータポイントの数です。
  • OPTICS(クラスタリング構造を識別するための順序付けポイント) :–これはDBSCANアルゴリズムの変更です。 DBSCANアルゴリズムの制限の1つは、データポイントがデータスペースに均等に分散している場合に意味のあるクラスターを作成できないことです。 この制限を克服するために、OPTICSアルゴリズムはコア距離と到達可能距離の2つのパラメーターを取ります。 コア距離は、データポイントの値を定義することにより、データポイントがコアポイントであるかどうかを示します。 到達可能距離は、コア距離の最大値と、2つのデータポイント間の距離を計算するために使用される距離メトリックの値として定義されます。

4.グリッドベースのクラスタリング手法

この方法のイデオロギーは、一般的に使用される他の方法とは異なります。 この方法は、データ空間全体をグリッド構造として表し、複数のグリッドまたはセルで構成されます。 これは、データ駆動型のアプローチではなく、スペース駆動型のアプローチに準拠しています。 つまり、データポイント自体ではなく、データポイントの周囲のスペースに関心があります。

このため、アルゴリズムはより速く収束し、計算の複雑さを大幅に軽減します。 一般に、アルゴリズムは、データスペースをセルの数に分割し、それによってグリッド構造を作成することによって、クラスタリングを初期化します。 次に、これらのセルの密度を計算し、密度に従って並べ替えます。 STING(統計情報グリッドアプローチ)、WaveCluster、CLIQUE(クエスト内のクラスタリング)などのアルゴリズムは、このカテゴリに分類されます。

5.モデルベースのクラスタリング手法

この方法は、データが確率分布の混合によって生成されることを前提としています。 これらの各分布は、クラスターと見なすことができます。 データとモデル間の適合を最適化しようとします。 モデルのパラメーターは、期待値最大化、概念クラスタリングなどのアルゴリズムを使用して推定できます。

6.制約ベースのクラスタリング手法

このメソッドは、ユーザー指向の制約を満たすクラスターを見つけようとします。 これは、半教師あり方法論のクラスに分類されます。 この方法により、ユーザーは好みに基づいてクラスターを作成できます。 これは、特定の特性を持つクラスターを探すときに便利です。

ただし、このプロセスでは、形成されるクラスターがユーザーの好みに焦点を合わせているため、一部の基本的な特性と洞察に満ちたクラスターが形成されない場合があります。 このアプローチに従うアルゴリズムは、COP K-Means、PCKMeans(Pairwise Constrained K-Means)、およびCMWK-Means(Constrained Minkowski Weighted K-Means)です。

また読む:データサイエンスプロジェクトのアイデア

世界のトップ大学からオンラインでデータサイエンスコースを学びましょうエグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

結論

クラスタリングアルゴリズムは、ビジネスの生産性に関するデータからの洞察を提供するのに非常に効果的であることが証明されています。 さまざまな組織で使用されている一般的なアルゴリズムは、期待される結果を提供する可能性がありますが、非正統的なアルゴリズムも試してみる価値があります。 この記事では、クラスタリングとは何か、およびデータマイニングの一部としてどのように使用できるかに焦点を当てました。 また、クラスタリングのいくつかの使用法、実際の生活でのクラスタリングの使用方法、およびクラスタリングのさまざまなタイプの方法についても説明しました。

データサイエンスについて知りたい場合は、IIIT-BとupGradのデータサイエンスのエグゼクティブPGをご覧ください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、1- on-1業界のメンター、400時間以上の学習、トップ企業との仕事の支援。

凝集的クラスタリングの長所と短所は何ですか?

AGNESは、すべてのデータポイントに独自のクラスターがあることを認識することから始まります。データ行がn個ある場合でも、アルゴリズムはn個のクラスターから始まります。 次に、DIANAで測定された距離に応じて、最も類似しているクラスターが結合されて、より大きなクラスターが形成されます。 すべてのデータポイントを含む単一の大きなクラスターが得られるまで、反復が実行されます。
利点:
1.ユーザーは除算のしきい値を定義する必要がありますが、クラスターの数に関する事前の知識は必要ありません。
2.さまざまなデータタイプに簡単に適用でき、さまざまなソースから取得したデータに対して信頼できる結果を生成することが知られています。 その結果、それは幅広い用途を持っています。
短所:
1.クラスター分割(DIANA)または組み合わせ(AGNES)は非常に厳密であり、一度実行すると、後続の反復または再実行で元に戻したり、再割り当てしたりすることはできません。
2.これは、O(n ^ 2logn)のオーダーで、n個のデータポイントすべてに対して時間計算量が高いため、より大きなデータセットには利用できません。
3.外れ値とノイズに対処できません

GMMで期待される最大化とは何ですか?

データポイントは、ガウス混合モデルのガウス分布と一致すると想定します。これは、以前のアプローチの制限と比較して、制約になることはありません。 さらに、この仮説は、重要なクラスター形状の選択基準につながる可能性があります。つまり、クラスターの形状を測定できるようになりました。 データを定量化するために、最も頻繁で簡単な2つのメトリック(平均と分散)が使用されます。
期待値-最適化関数の一種である最大化は、平均と分散を決定するために使用されます。 この関数は、などのランダムなガウスパラメーターのセットで始まり、仮説がサンプルがクラスターcに属していることを確認するかどうかをチェックします。 その後、クラスターに割り当てられたポイントに合うようにガウスパラメーターを更新する最大化ステップに進みます。 最大化段階の目標は、サンプルがクラスター分布に属する確率を高めることです。

クラスタリングのアプリケーションは何ですか?

クラスタリングのビジネス用途のいくつかと、それがデータマイニングにどのように適合するかを見てみましょう。
1.これは検索エンジンアルゴリズムの基盤であり、互いに類似しているオブジェクトを一緒に指定し、類似していないオブジェクトを無視する必要があります。
2.クラスタリングアルゴリズムは、バイオインフォマティクスの画像セグメンテーションを使用してさまざまな医用画像から悪性細胞を検出し、人為的エラーやその他のバイアスを取り除く効果を実証しています。
3.クラスタリングは、視聴者向けの映画の提案を作成するためにNetflixによって利用されています。
4.記事を関連する主題のグループに分割するクラスター分析は、ニュースを要約するために使用できます。
5.求職者の履歴書は、スキルセット、経験、強み、プロジェクトタイプ、専門知識などのさまざまな変数に応じてカテゴリに分類でき、潜在的な雇用主が適切な人々とつながることができます。