Процесс науки о данных: понимание, сбор данных, моделирование, развертывание и проверка

Опубликовано: 2021-02-09

Проекты Data Science в отрасли обычно имеют четко определенный жизненный цикл, который добавляет структуру проекту и определяет четкие цели для каждого шага. Доступно множество таких методологий, таких как CRISP-DM, OSEMN, TDSP и т. д. В процессе обработки и анализа данных есть несколько этапов, относящихся к конкретным задачам, которые выполняют разные члены команды.

Всякий раз, когда проблема науки о данных поступает от клиента, ее необходимо решить и представить клиенту в структурированном виде. Эта структура гарантирует, что весь процесс будет проходить беспрепятственно, поскольку в нем участвуют несколько человек, выполняющих свои конкретные роли, такие как архитектор решений, менеджер проекта, руководитель продукта, инженер данных, специалист по данным, руководитель DevOps и т. д. Следование процессу обработки данных также делает Убедитесь, что качество конечного продукта хорошее, а проекты завершены вовремя.

К концу этого урока вы будете знать следующее:

  • Понимание бизнеса
  • Сбор информации
  • Моделирование
  • Развертывание
  • Проверка клиента

Оглавление

Понимание бизнеса

Знание бизнеса и данных имеет первостепенное значение. Нам нужно решить, какие цели нам нужно предсказать, чтобы решить насущную проблему. Нам также необходимо понять, из каких источников мы можем получить данные и нужно ли создавать новые источники.

Целями модели могут быть цены на жилье, возраст клиентов, прогноз продаж и т. д. Эти цели необходимо определять, работая с клиентом, который полностью знает свой продукт и проблему. Вторая по важности задача — знать, какой тип предсказания по цели.

Будь то регрессия, классификация, кластеризация или даже рекомендация. Необходимо определить роли участников, а также всех и сколько людей потребуется для завершения проекта. Показатели успеха также определяются, чтобы убедиться, что решение дает результаты, которые являются по крайней мере приемлемыми.

Необходимо определить источники данных, которые могут предоставить данные, необходимые для прогнозирования целей, определенных выше. Также может возникнуть необходимость в создании конвейеров для сбора данных из определенных источников, что может стать важным фактором успеха проекта.

Сбор информации

После того, как данные идентифицированы, нам нужны системы для эффективного приема данных и использования их для дальнейшей обработки и исследования путем настройки конвейеров. Первым шагом является определение типа источника. Если это локально или в облаке. Нам нужно ввести эти данные в аналитическую среду, где мы будем выполнять дальнейшие процессы с ними.

После того, как данные получены, мы переходим к наиболее важному этапу процесса обработки данных — исследовательскому анализу данных (EDA). EDA — это процесс анализа и визуализации данных, чтобы увидеть все проблемы с форматированием и отсутствующие данные.

Все несоответствия должны быть нормализованы, прежде чем приступить к исследованию данных для выявления закономерностей и другой соответствующей информации. Это итеративный процесс, который также включает в себя построение различных типов диаграмм и графиков, чтобы увидеть взаимосвязь между функциями и функциями с целью.

Необходимо настроить конвейеры для регулярной потоковой передачи новых данных в вашу среду и обновления существующих баз данных. Перед настройкой трубопроводов необходимо проверить другие факторы. Например, должны ли данные передаваться пакетно или онлайн, будут ли они высокочастотными или низкочастотными.

Моделирование и оценка

Процесс моделирования является основным этапом, на котором происходит машинное обучение. Необходимо определить правильный набор функций и обучить модель на них с использованием правильных алгоритмов. Затем обученную модель необходимо оценить, чтобы проверить ее эффективность и производительность на реальных данных.

Первый шаг называется Feature Engineering, где мы используем знания из предыдущего этапа, чтобы определить важные функции, которые улучшают работу нашей модели. Разработка функций — это процесс преобразования функций в новые формы и даже объединения функций для формирования новых функций.

Это нужно делать осторожно, чтобы не использовать слишком много функций, которые могут ухудшить производительность, а не улучшить ее. Сравнение показателей, если каждая модель может помочь определить этот фактор, а также важность функций по отношению к цели.

После того, как набор функций готов, модель необходимо обучить нескольким типам алгоритмов, чтобы увидеть, какой из них работает лучше всего. Это также называется алгоритмами выборочной проверки. Затем алгоритмы с наилучшей производительностью дорабатываются, чтобы настроить их параметры для еще большей производительности. Метрики сравниваются для каждого алгоритма и каждой конфигурации параметров, чтобы определить, какая модель является лучшей из всех.

Развертывание

Модель, которая была завершена после предыдущего этапа, теперь необходимо развернуть в производственной среде, чтобы ее можно было использовать и протестировать на реальных данных. Модель должна быть реализована либо в форме мобильных/веб-приложений, либо в виде информационных панелей, либо внутреннего программного обеспечения компании.

Модели могут быть развернуты в облаке (AWS, GCP, Azure) или на локальных серверах в зависимости от ожидаемой нагрузки и приложений. Производительность модели необходимо постоянно контролировать, чтобы предотвратить все проблемы.

Модель также необходимо переобучать на новых данных всякий раз, когда они поступают через конвейеры, установленные на более раннем этапе. Эта переподготовка может быть как офлайн, так и онлайн. В автономном режиме приложение отключается, модель переобучается, а затем повторно развертывается на сервере.

Различные типы веб-фреймворков используются для разработки внутреннего приложения, которое получает данные из внешнего приложения и передает их модели на сервере. Затем этот API отправляет прогнозы из модели обратно во внешнее приложение. Некоторыми примерами веб-фреймворков являются Flask, Django и FastAPI.

Проверка клиента

Это заключительный этап процесса обработки данных, на котором проект наконец передается клиенту для использования. Клиент должен пройтись по приложению, его деталям и параметрам. Он также может включать выходной отчет, содержащий все технические аспекты модели и параметры ее оценки. Клиент должен подтвердить приемку производительности и точности, достигнутых моделью.

Самый важный момент, который следует иметь в виду, заключается в том, что клиент или заказчик могут не обладать техническими знаниями в области науки о данных. Таким образом, обязанность команды состоит в том, чтобы предоставить им все детали таким образом и на языке, который может быть легко понят клиентом.

Прежде чем ты уйдешь

Процесс науки о данных варьируется от одной организации к другой, но его можно обобщить на 5 основных этапов, которые мы обсуждали. Между этими этапами может быть больше этапов для учета более конкретных задач, таких как очистка данных и создание отчетов. В целом, любой проект Data Science должен позаботиться об этих 5 этапах и обязательно придерживаться их для всех проектов. Следование этому процессу является важным шагом в обеспечении успеха всех проектов Data Science.

Структура программы по науке о данных призвана помочь вам стать настоящим талантом в области науки о данных, что облегчает поиск лучшего работодателя на рынке. Зарегистрируйтесь сегодня, чтобы начать свой путь обучения с upGrad!

Что является первым шагом в процессе науки о данных?

Самым первым шагом в процессе обработки данных является определение вашей цели. Перед сбором данных, моделированием, развертыванием или любым другим шагом вы должны установить цель своего исследования.
Вы должны тщательно изучить «3W» вашего проекта — что, почему и как. «Каковы ожидания вашего клиента? Почему ваша компания ценит ваши исследования? И как ты собираешься продолжать свои исследования?»
Если вы сможете ответить на все эти вопросы, вы готовы к следующему этапу вашего исследования. Чтобы ответить на эти вопросы, ваши нетехнические навыки, такие как деловая хватка, более важны, чем ваши технические навыки.

Как вы моделируете свой процесс?

Процесс моделирования является важным шагом в процессе обработки данных, и для этого мы используем машинное обучение. Мы снабжаем нашу модель нужным набором данных и обучаем ее соответствующим алгоритмам. При моделировании процесса учитываются следующие шаги:
1. Самый первый шаг — разработка функций. На этом этапе учитывается ранее собранная информация, определяются основные функции модели и объединяются для формирования новых и более совершенных функций.
2. Этот шаг следует выполнять с осторожностью, так как слишком много функций может привести к ухудшению нашей модели, а не к ее развитию.
3. Затем определяем алгоритмы выборочной проверки. Именно на этих алгоритмах необходимо обучать модель после приобретения новых функций.
4. Из них мы выбираем наиболее эффективные алгоритмы и настраиваем их, чтобы даже улучшить их возможности. Чтобы сравнить и найти лучшую модель, рассмотрим метрику разных алгоритмов.

Каким должен быть подход к презентации проекта клиенту?

Это последний этап жизненного цикла проекта по науке о данных. К этому шагу нужно подойти внимательно, иначе все ваши усилия могут оказаться напрасными. Клиент должен тщательно пройтись по каждому аспекту вашего проекта. Презентация PowerPoint по вашей модели может быть плюсом для вас.
Следует иметь в виду, что ваш клиент может быть или не быть из технической области. Таким образом, вы не должны использовать основные технические слова. Постарайтесь представить приложения и параметры вашего проекта доступным языком, чтобы он был понятен вашим клиентам.