데이터 마이닝의 클러스터링에 대한 설명 가이드 – 정의, 응용 프로그램 및 알고리즘

게시 됨: 2021-02-25

목차

소개 – 데이터 마이닝 및 클러스터링이란 무엇입니까?

다양한 조직이 엄청난 양의 데이터를 보유하고 있으며 이러한 조직이 데이터를 저장하기로 선택한 데는 이유가 있습니다. 그들은 이 데이터를 사용하여 수익성을 높이는 데 도움이 될 수 있는 데이터에서 통찰력을 추출합니다. 원시 데이터 세트에서 통찰력과 기본 패턴을 추출하는 프로세스를 데이터 마이닝이라고 합니다. 이러한 통찰력 있는 패턴을 추출하는 방법 중 하나는 클러스터링입니다.

클러스터링은 공통 특성을 나타내는 데이터 포인트의 그룹화를 나타냅니다. 즉, 데이터 세트를 분석하고 데이터 포인트의 클러스터를 생성하는 프로세스입니다. 클러스터는 유사한 데이터 포인트의 그룹일 뿐입니다. 클러스터링 처리에서 데이터 포인트는 먼저 그룹화되어 클러스터를 형성한 다음 레이블이 이러한 클러스터에 할당됩니다.

데이터 세트에서 클러스터링을 수행하기 위해 일반적으로 데이터 세트에서 출력 레이블을 알 수 없기 때문에 비지도 학습 알고리즘을 사용합니다. 클러스터링은 탐색적 데이터 분석의 일부로 사용할 수 있으며 통찰력 있는 클러스터를 얻기 위한 모델링에 사용할 수 있습니다. 클러스터는 클러스터 내부의 데이터 포인트 사이의 거리가 최소화되고 다른 클러스터 간의 거리가 가능한 한 멀어야 하는 방식으로 클러스터를 최적화해야 합니다.

클러스터링을 사용하는 이유 – 클러스터링 사용

  1. 데이터의 더 나은 해석 – 클러스터링을 사용하여 데이터 세트에서 추출된 패턴은 일반인이 쉽게 이해할 수 있으므로 쉽게 해석할 수 있습니다.
  2. 고차원 데이터에서 얻은 인사이트 – 고차원 데이터 집합은 특성만 보고 분석하기가 쉽지 않습니다. 클러스터링을 사용하면 통찰력을 제공하고 방대한 데이터에서 일부 패턴을 추출하는 데 도움이 될 수 있습니다. 그것은 몇 가지 질문을 해결하는 데 유용할 수 있는 몇 가지 요약을 제공할 수 있습니다.
  3. 임의의 클러스터 발견 – 다양한 클러스터링 방법의 도움으로 임의의 모양을 취할 수 있는 클러스터를 찾을 수 있습니다. 이것은 데이터 세트의 기본 특성을 얻는 데 도움이 될 수 있습니다.

클러스터링의 실제 사용 사례 – 애플리케이션

  1. 귀하의 회사는 신제품을 출시했으며 귀하는 회사가 최대의 수익성을 달성할 수 있도록 제품이 올바른 그룹에 도달하도록 하는 책임이 있습니다. 이 경우 올바른 유형의 사람들을 식별하는 것이 당면한 문제입니다. 고객 데이터베이스에서 클러스터링을 수행하여 구매 패턴을 분석하여 올바른 그룹의 사람들을 식별할 수 있습니다.
  2. 회사에는 분류되지 않은 이미지가 많이 있으며 상사는 이미지의 내용에 따라 그룹화하도록 요청합니다. 클러스터링을 사용하여 이러한 이미지에서 이미지 분할을 수행할 수 있습니다. 기존 데이터에서 일부 패턴을 추출하도록 요청하는 경우 클러스터링을 사용할 수도 있습니다.

다양한 유형의 클러스터링 방법 – 알고리즘

1. 계층적 클러스터링 방법

이 방법은 유클리드 거리, 맨해튼 거리 등과 같은 선택된 거리 메트릭을 기반으로 클러스터를 그룹화하거나 나눕니다. 일반적으로 덴드로그램을 사용하여 표현됩니다. 모든 클러스터 사이의 거리를 나타내는 거리 매트릭스를 생성합니다. 이 거리 메트릭을 사용하여 클러스터 간의 연결은 연결 유형에 따라 수행됩니다.

클러스터에는 많은 데이터 포인트가 있을 수 있으므로 한 클러스터에서 다른 클러스터의 모든 포인트까지의 모든 포인트 사이의 거리는 다릅니다. 이로 인해 클러스터 병합을 결정할 거리를 결정하기가 어렵습니다. 이를 해결하기 위해 연결 기준을 사용하여 연결해야 하는 클러스터를 결정합니다. 연결에는 세 가지 일반적인 유형이 있습니다. –

  • 단일 연결 – 두 군집 사이의 거리는 두 군집에 있는 점 사이의 최단 거리로 표시됩니다.
  • 완전한 연결 – 두 군집 사이의 거리는 두 군집에 있는 점 사이의 최대 거리로 표시됩니다.
  • Average Linkage – 두 군집 사이의 거리는 두 군집에 있는 점 사이의 평균 거리를 계산하여 나타냅니다.

응집적 접근 - 상향식 접근이라고도 합니다. 여기서 모든 데이터 포인트는 초기 단계에서 클러스터로 간주되고 이러한 클러스터를 하나씩 병합합니다.

분할 접근 방식 – 하향식 접근 방식이라고도 합니다. 여기서 모든 데이터 포인트는 초기 단계에서 하나의 클러스터로 간주되고 이러한 데이터 포인트를 분할하여 더 많은 클러스터를 생성합니다.

2. 클러스터링 분할 방법

이 방법은 데이터 포인트 간의 특성 및 유사성을 기반으로 클러스터를 생성합니다. 이 방법론을 사용하는 알고리즘은 입력으로 생성할 클러스터의 수를 요구합니다. 그런 다음 이러한 알고리즘은 반복적인 접근 방식을 따라 해당 수의 클러스터를 생성합니다. 이 방법론을 따르는 알고리즘 중 일부는 다음과 같습니다.

  • K-평균 클러스터링

K-Means는 맨해튼 거리, 유클리드 거리 등과 같은 거리 메트릭을 사용하여 지정된 클러스터 수를 생성합니다. 데이터 포인트와 클러스터의 중심 사이의 거리를 계산합니다. 그런 다음 데이터 포인트가 가장 가까운 클러스터에 할당되고 클러스터의 중심이 다시 계산됩니다. 이러한 반복은 미리 정의된 반복 횟수가 완료되거나 반복 후에 클러스터의 중심이 변경되지 않을 때까지 반복됩니다.

  • PAM(메도이드 주변 분할)

K-Medoid 알고리즘이라고도 하는 이 알고리즘의 작업은 K-Means의 작업과 유사합니다. 클러스터의 중심이 할당되는 방식이 K-Means와 다릅니다. PAM에서 클러스터의 medoid는 실제 데이터 포인트인 반면 K-Means에서는 실제 데이터 포인트의 좌표가 아닐 수 있는 데이터 포인트의 중심을 계산합니다. PAM에서는 k개의 데이터 포인트를 클러스터의 메디아로 무작위로 선택하고 모든 데이터 포인트와 클러스터의 메도이드 사이의 거리를 계산합니다.

읽기: 데이터 분석과 데이터 과학

3. 밀도 기반 클러스터링 방법

이 방법은 데이터 포인트의 밀도를 기반으로 클러스터를 생성합니다. 더 많은 데이터 포인트가 동일한 영역에 있고 이러한 영역이 클러스터로 간주됨에 따라 영역이 조밀해집니다. 조밀한 영역에서 멀리 떨어져 있는 데이터 요소 또는 데이터 요소 수가 매우 적은 영역은 이상값 또는 노이즈로 간주됩니다. 다음 알고리즘은 이 방법론을 기반으로 합니다.

  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise) : – DBSCAN은 데이터 포인트의 거리를 기반으로 클러스터를 생성합니다. 동일한 이웃에 있는 데이터 포인트를 함께 그룹화합니다. 클러스터로 간주되려면 특정 수의 데이터 포인트가 해당 지역에 있어야 합니다. 두 개의 매개변수(eps 및 minimum points)가 필요합니다. eps는 데이터 포인트가 이웃으로 간주되어야 하는 거리를 나타내고 최소 포인트는 클러스터로 간주되기 위해 해당 영역 내에 있어야 하는 데이터 포인트의 수를 나타냅니다.
  • OPTICS(Ordering Points to 식별 클러스터링 구조) : – DBSCAN 알고리즘의 수정입니다. DBSCAN 알고리즘의 한계 중 하나는 데이터 포인트가 데이터 공간에 균등하게 분산되어 있을 때 의미 있는 클러스터를 생성할 수 없다는 것입니다. 이 한계를 극복하기 위해 OPTICS 알고리즘은 코어 거리와 도달 가능성 거리라는 두 가지 매개변수를 더 사용합니다. 코어 거리는 데이터 포인트에 대한 값을 정의하여 데이터 포인트가 코어 포인트인지 여부를 나타냅니다. 도달 거리는 코어 거리의 최대값과 두 데이터 포인트 사이의 거리를 계산하는 데 사용되는 거리 메트릭 값으로 정의됩니다.

4. 그리드 기반 클러스터링 방법

이 방법의 이데올로기는 일반적으로 사용되는 나머지 방법과 다릅니다. 이 방법은 전체 데이터 공간을 그리드 구조로 나타내며 여러 그리드 또는 셀로 구성됩니다. 데이터 중심 접근 방식보다는 공간 중심 접근 방식을 따릅니다. 즉, 데이터 포인트 자체보다 데이터 포인트를 둘러싼 공간에 더 관심이 있습니다.

이로 인해 알고리즘은 더 빠르게 수렴되고 계산 복잡성이 크게 감소합니다. 일반적으로 알고리즘은 데이터 공간을 셀 수로 분할하여 그리드 구조를 생성하여 클러스터링을 초기화합니다. 그런 다음 이러한 셀의 밀도를 계산하고 밀도에 따라 정렬합니다. STING(Statistical Information Grid Approach), WaveCluster, CLIQUE(Clustering in Quest)와 같은 알고리즘이 이 범주에 속합니다.

5. 모델 기반 클러스터링 방법

이 방법은 데이터가 확률 분포의 혼합에 의해 생성된다고 가정합니다. 이러한 각 분포는 클러스터로 간주될 수 있습니다. 데이터와 모델 간의 적합성을 최적화하려고 시도합니다. 모델의 매개변수는 Expectation-Maximization, Conceptual Clustering 등과 같은 알고리즘을 사용하여 추정할 수 있습니다.

6. 제약 기반 클러스터링 방법

이 방법은 사용자 지향 제약 조건을 만족하는 클러스터를 찾으려고 합니다. 그것은 반 감독 방법론의 클래스에 속합니다. 이 방법론을 통해 사용자는 기본 설정에 따라 클러스터를 만들 수 있습니다. 이것은 특정 특성을 가진 일부 클러스터를 찾을 때 유용합니다.

그러나 이 과정에서 형성된 클러스터는 사용자 선호도에 초점을 맞추기 때문에 일부 기본 특성과 통찰력 있는 클러스터가 형성되지 않을 수 있습니다. 이 접근 방식을 따르는 알고리즘은 COP K-Means, PCKMeans(Pairwise Constrained K-Means) 및 CMWK-Means(Constrained Minkowski Weighted K-Means)입니다.

더 읽어보기: 데이터 과학 프로젝트 아이디어

세계 최고의 대학에서 온라인으로 데이터 과학 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

결론

클러스터링 알고리즘은 비즈니스 생산성을 위해 데이터에서 통찰력을 제공하는 데 매우 효과적인 것으로 입증되었습니다. 다양한 조직에서 사용되는 공통 알고리즘은 예상한 결과를 제공할 수 있지만 정통적이지 않은 알고리즘도 시도해 볼 가치가 있습니다. 이 기사에서는 클러스터링이 무엇이며 데이터 마이닝의 일부로 클러스터링을 사용하는 방법에 중점을 두었습니다. 또한 클러스터링의 몇 가지 용도, 실제 생활에서 클러스터링을 사용할 수 있는 방법, 클러스터링에서 다양한 유형의 방법에 대해서도 설명했습니다.

데이터 과학에 대해 궁금한 점이 있으면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

응집 클러스터링의 장점과 단점은 무엇입니까?

AGNES는 모든 데이터 포인트에 자체 클러스터가 있음을 인식하는 것으로 시작하며, n개의 데이터 행이 있더라도 알고리즘은 n개의 클러스터로 시작합니다. 그런 다음 DIANA에서 측정한 거리에 따라 가장 유사한 클러스터를 반복적으로 결합하여 더 큰 클러스터를 형성합니다. 모든 데이터 포인트를 포함하는 하나의 큰 클러스터를 얻을 때까지 반복이 수행됩니다.
장점:
1. 사용자가 분할 임계값을 정의해야 하지만 클러스터 수에 대한 사전 지식이 필요하지 않습니다.
2. 다양한 데이터 유형에 적용하기 쉽고 다양한 소스에서 얻은 데이터에 대해 신뢰할 수 있는 결과를 생성하는 것으로 알려져 있습니다. 결과적으로 광범위한 응용 프로그램이 있습니다.
단점:
1. 클러스터 분할(DIANA) 또는 조합(AGNES)은 매우 엄격하며 일단 완료되면 후속 반복 또는 재실행에서 되돌리거나 재할당할 수 없습니다.
2. n개의 모든 데이터 포인트에 대해 O(n^2logn) 정도의 높은 시간 복잡도를 가지므로 더 큰 데이터 세트에는 사용할 수 없습니다.
3. 이상치와 노이즈에 대처할 수 없음

GMM에서 예상되는 최대화란 무엇입니까?

데이터 포인트가 Gaussian Mixed Models의 Gaussian 분포와 일치한다고 가정합니다. 이는 이전 접근 방식의 제한 사항과 비교할 때 결코 제한 사항이 아닙니다. 게다가, 이 가설은 중요한 군집 모양 선택 기준으로 이어질 수 있습니다. 즉, 이제 군집 형태를 측정할 수 있습니다. 가장 빈번하고 쉬운 두 가지 측정항목인 평균과 분산은 데이터를 수량화하는 데 사용됩니다.
평균과 분산을 결정하기 위해 최적화 함수의 일종인 기대치-최대화(Expectation-Maximization)가 사용됩니다. 이 함수는 다음과 같은 임의의 가우스 매개변수 세트로 시작하고 가설이 샘플이 클러스터 c에 속한다는 것을 확인하는지 확인합니다. 그런 다음 클러스터에 할당된 포인트에 맞게 가우스 매개변수를 업데이트하는 최대화 단계로 이동합니다. 최대화 단계의 목표는 표본이 군집 분포에 속할 확률을 높이는 것입니다.

클러스터링의 응용 프로그램은 무엇입니까?

클러스터링의 비즈니스 용도와 데이터 마이닝에 어떻게 적용되는지 살펴보겠습니다.
1. 검색 엔진 알고리즘의 기초로, 유사한 객체는 함께 제공하고 유사하지 않은 객체는 무시하도록 요구합니다.
2. 클러스터링 알고리즘은 생물 정보학에서 이미지 분할을 사용하여 다양한 의료 영상에서 악성 세포를 감지하고 인적 오류 및 기타 편견을 제거하는 효과를 입증했습니다.
3. Netflix는 시청자를 위한 영화 제안을 생성하기 위해 클러스터링을 활용했습니다.
4. 기사를 관련 주제 그룹으로 나누는 클러스터 분석을 사용하여 뉴스를 요약할 수 있습니다.
5. 구직자의 이력서는 기술, 경험, 강점, 프로젝트 유형, 전문성 등과 같은 다양한 변수에 따라 범주로 나눌 수 있으므로 잠재적 고용주가 적합한 사람과 연결할 수 있습니다.