Пояснительное руководство по кластеризации в интеллектуальном анализе данных — определение, приложения и алгоритмы

Опубликовано: 2021-02-25

Оглавление

Введение. Что такое интеллектуальный анализ данных и кластеризация?
Зачем использовать кластеризацию? – Использование кластеризации
- Реальные примеры использования кластеризации — приложения
Различные типы методов кластеризации — алгоритмы
- 1. Метод иерархической кластеризации
- 2. Метод разделения на кластеры
- 3. Метод кластеризации на основе плотности
- 4. Метод кластеризации на основе сетки
- 5. Метод кластеризации на основе моделей
- 6. Метод кластеризации на основе ограничений
Заключение
- Каковы преимущества и недостатки агломерационной кластеризации?
- Что такое ожидаемая максимизация в GMM?
- Каковы приложения кластеризации?

Введение. Что такое интеллектуальный анализ данных и кластеризация?

Различные организации имеют огромные данные под рукой, и есть причина, по которой эти организации предпочитают их хранить. Они используют эти данные, чтобы извлечь некоторые идеи из данных, которые могут помочь им в повышении их прибыльности. Процесс извлечения информации и базовых шаблонов из набора необработанных данных известен как интеллектуальный анализ данных. Один из способов извлечения этих проницательных паттернов — кластеризация.

Кластеризация относится к группированию точек данных, которые демонстрируют общие характеристики. Другими словами, это процесс, который анализирует набор данных и создает кластеры точек данных. Кластер — это не что иное, как группировка таких похожих точек данных. При обработке кластеризации точки данных сначала группируются вместе для формирования кластеров, а затем этим кластерам присваиваются метки.

Чтобы выполнить кластеризацию набора данных, мы обычно используем алгоритмы обучения без учителя, поскольку выходные метки в наборе данных неизвестны. Кластеризация может использоваться как часть исследовательского анализа данных и может использоваться для моделирования для получения проницательных кластеров. Кластеры должны быть оптимизированы таким образом, чтобы расстояние между точками данных внутри кластера было минимальным, а расстояние между различными кластерами — как можно большим.

Зачем использовать кластеризацию? – Использование кластеризации

Лучшая интерпретация данных. Используя кластеризацию, шаблоны, извлеченные из набора данных, могут быть легко поняты неспециалистами и, следовательно, их можно легко интерпретировать.
Понимание многомерных данных. Многомерные наборы данных нелегко анализировать, просто взглянув на их функции. Использование кластеризации может помочь в предоставлении некоторой информации и извлечении некоторых шаблонов из огромных данных. Он может предоставить некоторое резюме, которое может быть полезно при решении некоторых вопросов.
Обнаружение произвольных кластеров. С помощью различных методов кластеризации мы можем найти кластеры, которые могут принимать любую случайную форму. Это может помочь в получении основных характеристик набора данных.

Реальные примеры использования кластеризации — приложения

Ваша компания запустила новый продукт, и вы отвечаете за то, чтобы этот продукт был доступен нужной группе людей, чтобы ваша компания могла достичь максимальной прибыльности. В этом случае определение правильного типа людей является проблемой. Вы можете выполнить кластеризацию в базе данных клиентов, чтобы определить нужную группу людей, анализируя их схемы покупок.
В вашей компании есть множество неклассифицированных изображений, и ваш руководитель просит вас сгруппировать их в соответствии с содержанием изображений. Вы можете использовать кластеризацию для выполнения сегментации изображений на этих изображениях. Вы также можете использовать кластеризацию, если вас попросят извлечь некоторые шаблоны из существующих данных.

Различные типы методов кластеризации — алгоритмы

1. Метод иерархической кластеризации

Этот метод группирует или разделяет кластеры на основе выбранной метрики расстояния, такой как евклидово расстояние, манхэттенское расстояние и т. д. Обычно он представляется с помощью дендрограммы. Он создает матрицу расстояний между всеми кластерами, которая указывает расстояние между ними. Используя эту метрику расстояния, связь между кластерами осуществляется на основе типа связи.

Поскольку в кластере может быть много точек данных, расстояния между всеми точками из одного кластера и всеми точками в другом кластере будут разными. Это затрудняет принятие решения о том, какое расстояние следует учитывать при слиянии кластеров. Чтобы решить эту проблему, мы используем критерии связи, чтобы определить, какие кластеры должны быть связаны. Существует три распространенных типа связей:

Одиночная связь — расстояние между двумя кластерами представлено кратчайшим расстоянием между точками в этих двух кластерах.
Полная связь — расстояние между двумя кластерами представлено максимальным расстоянием между точками в этих двух кластерах.
Средняя связь — расстояние между двумя кластерами представлено путем расчета среднего расстояния между точками в этих двух кластерах.

Агломеративный подход — его также называют подходом «снизу вверх». Здесь каждая точка данных считается кластером на начальном этапе, а затем объединяет эти кластеры один за другим.

Разделительный подход — его также называют подходом «сверху вниз». Здесь все точки данных рассматриваются как один кластер на начальном этапе, а затем эти точки данных делятся для создания большего количества кластеров.

2. Метод разделения на кластеры

Этот метод создает кластеры на основе характеристик и сходств между точками данных. Алгоритмы, использующие эту методологию, требуют создания количества кластеров в качестве входных данных. Затем эти алгоритмы следуют итеративному подходу для создания такого количества кластеров. Вот некоторые из алгоритмов, следующих этой методологии:

Кластеризация K-средних

K-Means использует метрики расстояния, такие как манхэттенское расстояние, евклидово расстояние и т. д., для создания указанного количества кластеров. Он вычисляет расстояние между точками данных и центроидом кластеров. Затем точки данных назначаются ближайшим кластерам, и повторно вычисляется центр тяжести кластера. Такие итерации повторяются до тех пор, пока не будет выполнено заданное количество итераций или центроиды кластеров не изменятся после итерации.

PAM (разделение вокруг медоидов)

Также известный как алгоритм K-Medoid, работа этого алгоритма аналогична работе K-Means. Он отличается от K-средних тем, как назначается центр кластера. В PAM медоид кластера является фактической точкой данных, тогда как в K-Means он вычисляет центр тяжести точек данных, которые могут не быть координатами фактической точки данных. В PAM k точек данных выбираются случайным образом в качестве медоидов кластеров, и вычисляется расстояние между всеми точками данных и медоидами кластеров.

Читайте: Аналитика данных против науки о данных

3. Метод кластеризации на основе плотности

Этот метод создает кластеры на основе плотности точек данных. Области становятся плотными по мере того, как все больше и больше точек данных находятся в одной и той же области, и эти области считаются кластерами. Точки данных, которые находятся далеко от плотных областей или областей, где количество точек данных очень мало, считаются выбросами или шумом. Следующие алгоритмы основаны на этой методологии:

DBSCAN (Пространственная кластеризация приложений с шумом на основе плотности) : – DBSCAN создает кластеры на основе расстояния между точками данных. Он группирует точки данных, которые находятся в одном районе. Чтобы считаться кластером, в этом регионе должно находиться определенное количество точек данных. Он принимает два параметра — eps и минимальное количество точек — eps указывает, насколько близко должны быть точки данных, чтобы их можно было рассматривать как соседние, а минимальные точки — это количество точек данных, которые должны находиться в этом регионе, чтобы его можно было рассматривать как кластер.
ОПТИКА (Точки заказа для определения структуры кластеризации) : – Это модификация алгоритма DBSCAN. Одним из ограничений алгоритма DBSCAN является его неспособность создавать значимые кластеры, когда точки данных равномерно распределены в пространстве данных. Чтобы преодолеть это ограничение, алгоритм OPTICS принимает еще два параметра — расстояние до ядра и расстояние досягаемости. Базовое расстояние указывает, является ли точка данных центральной точкой, определяя для нее значение. Расстояние достижимости определяется как максимальное расстояние ядра и значение показателя расстояния, используемого для расчета расстояния между двумя точками данных.

4. Метод кластеризации на основе сетки

Идеология этого метода отличается от остальных широко используемых методов. Этот метод представляет все пространство данных в виде сетки, состоящей из нескольких сеток или ячеек. Он следует больше подходу, основанному на пространстве, чем на подходе, управляемом данными. Другими словами, его больше заботит пространство, окружающее точки данных, а не сами точки данных.

Благодаря этому алгоритм сходится быстрее и обеспечивает значительное снижение вычислительной сложности. Как правило, алгоритмы инициализируют кластеризацию, разделяя пространство данных на количество ячеек, тем самым создавая сетчатую структуру. Затем он вычисляет плотность этих ячеек и сортирует их в соответствии с их плотностью. К этой категории относятся такие алгоритмы, как STING (подход статистической информационной сетки), WaveCluster, CLIQUE (кластеризация в поиске).

5. Метод кластеризации на основе моделей

Этот метод предполагает, что данные генерируются смесью вероятностных распределений. Каждое из этих распределений можно рассматривать как кластер. Он пытается оптимизировать соответствие между данными и моделью. Параметры моделей можно оценить с помощью таких алгоритмов, как максимизация ожиданий, концептуальная кластеризация и т. д.

6. Метод кластеризации на основе ограничений

Этот метод пытается найти кластеры, которые удовлетворяют ограничениям, ориентированным на пользователя. Он относится к классу полуконтролируемой методологии. Эта методология позволяет пользователям создавать кластеры на основе своих предпочтений. Это удобно, когда мы ищем кластеры с определенными характеристиками.

Но во время этого процесса, поскольку сформированные кластеры ориентированы на пользовательские предпочтения, некоторые основные характеристики и важные кластеры могут не сформироваться. Алгоритмы, которые следуют этому подходу, — это COP K-средние, PCKMeans (попарно ограниченные K-средние) и CMWK-Means (ограниченные взвешенные K-средние Минковского).

Читайте также: Идеи проекта Data Science

Изучайте онлайн- курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Заключение

Алгоритмы кластеризации оказались очень эффективными в предоставлении информации из данных для повышения производительности бизнеса. Общие алгоритмы, используемые в различных организациях, могут дать ожидаемые результаты, но стоит попробовать и нестандартные. В этой статье основное внимание уделялось тому, что такое кластеризация и как ее можно использовать как часть интеллектуального анализа данных. Он также перечислил несколько применений кластеризации, как кластеризацию можно использовать в реальной жизни и различные типы методов кластеризации.

Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Каковы преимущества и недостатки агломерационной кластеризации?

AGNES начинает с признания того, что каждая точка данных будет иметь свой собственный кластер, и даже если имеется n строк данных, алгоритм будет начинаться с n кластеров. Затем итеративно наиболее похожие кластеры объединяются в более крупный кластер в зависимости от расстояний, измеренных в DIANA. Итерации выполняются до тех пор, пока мы не получим один большой кластер, содержащий все точки данных.
Преимущества:
1. Хотя пользователь должен определить порог разделения, предварительное знание количества кластеров не требуется.
2. Прост в применении к различным типам данных и известен тем, что дает надежные результаты для данных, полученных из различных источников. В результате он имеет широкий спектр применения.
Недостатки:
1. Кластерное разделение (DIANA) или объединение (AGNES) является довольно строгим, и после его выполнения его нельзя отменить или переназначить в последующих итерациях или повторных запусках.
2. Он имеет высокую временную сложность для всех n точек данных порядка O(n^2logn), поэтому его нельзя использовать для больших наборов данных.
3. Невозможно справиться с выбросами и шумом

Что такое ожидаемая максимизация в GMM?

Мы предполагаем, что точки данных соответствуют распределению Гаусса в смешанных моделях Гаусса, что никогда не является ограничением по сравнению с ограничениями в предыдущих подходах. Кроме того, эта гипотеза может привести к критическим критериям выбора формы кластера, то есть формы кластеров теперь можно измерить. Две наиболее частые и простые метрики — среднее значение и дисперсия — используются для количественной оценки данных.
Максимизация ожидания, тип функции оптимизации, используется для определения среднего значения и дисперсии. Эта функция начинается с набора случайных гауссовых параметров, например, и проверяет, подтверждает ли Гипотеза принадлежность выборки к кластеру c. После этого мы переходим к шагу максимизации, который включает в себя обновление параметров Гаусса в соответствии с точками, выделенными для кластера. Цель этапа максимизации — увеличить вероятность того, что выборка принадлежит кластерному распределению.

Каковы приложения кластеризации?

Давайте рассмотрим некоторые бизнес-применения кластеризации и то, как она вписывается в интеллектуальный анализ данных.
1. Это основа алгоритмов поисковых систем, требующих, чтобы объекты, похожие друг на друга, давались вместе, а объекты, отличающиеся друг от друга, игнорировались.
2. Алгоритмы кластеризации продемонстрировали свою эффективность в обнаружении злокачественных клеток на различных медицинских изображениях с использованием сегментации изображений в биоинформатике, устранении человеческих ошибок и других предубеждений.
3. Netflix использовал кластеризацию для создания предложений фильмов для своих зрителей.
4. Для обобщения новостей можно использовать кластерный анализ, который делит статьи на группы по родственной тематике.
5. Резюме соискателей можно разделить на категории в зависимости от множества переменных, таких как набор навыков, опыт, сильные стороны, типы проектов, знания и т. д., что позволяет потенциальным работодателям связаться с нужными людьми.