데이터 과학 프로세스: 이해, 데이터 수집, 모델링, 배포 및 검증

게시 됨: 2021-02-09

업계의 데이터 과학 프로젝트는 일반적으로 프로젝트에 구조를 추가하고 각 단계에 대한 명확한 목표를 정의하는 잘 정의된 수명 주기를 따릅니다. CRISP-DM, OSEMN, TDSP 등과 같은 많은 방법론을 사용할 수 있습니다. 팀의 다른 구성원이 수행하는 특정 작업과 관련된 데이터 과학 프로세스에는 여러 단계가 있습니다.

데이터 과학 문제가 클라이언트에서 올 때마다 구조화된 방식으로 클라이언트에게 해결되고 생성되어야 합니다. 이 구조는 솔루션 아키텍트, 프로젝트 관리자, 제품 책임자, 데이터 엔지니어, 데이터 과학자, DevOps 책임자 등과 같은 특정 역할을 수행하는 여러 사람을 포함하기 때문에 전체 프로세스가 원활하게 진행되도록 합니다. 데이터 과학 프로세스를 따르면 또한 최종 제품의 품질이 좋고 프로젝트가 정시에 완료되는지 확인하십시오.

이 튜토리얼을 마치면 다음을 알게 될 것입니다.

  • 비즈니스 이해
  • 데이터 수집
  • 모델링
  • 전개
  • 클라이언트 검증

목차

비즈니스 이해

비즈니스와 데이터에 대한 지식을 갖는 것이 가장 중요합니다. 당면한 문제를 해결하기 위해 예측해야 하는 대상을 결정해야 합니다. 또한 우리는 데이터를 얻을 수 있는 모든 소스와 새로운 소스를 구축해야 하는지 이해해야 합니다.

모델 목표는 주택 가격, 고객 연령, 판매 예측 등이 ​​될 수 있습니다. 이러한 목표는 제품 및 문제에 대한 완전한 지식을 가진 고객과 협력하여 결정해야 합니다. 두 번째로 중요한 작업은 대상에 대한 예측 유형을 아는 것입니다.

회귀인지 분류인지 클러스터링인지 또는 권장 사항인지. 구성원의 역할이 결정되어야 하며 프로젝트를 완료하는 데 필요한 모든 사람의 수와 인원도 결정해야 합니다. 또한 솔루션이 최소한 수용 가능한 결과를 생성하는지 확인하기 위해 성공 메트릭이 결정됩니다.

위에서 결정한 목표를 예측하는 데 필요한 데이터를 제공할 수 있는 데이터 소스를 식별해야 합니다. 프로젝트의 성공에 중요한 요소가 될 수 있는 특정 소스에서 데이터를 수집하기 위해 파이프라인을 구축해야 할 수도 있습니다.

데이터 수집

데이터가 식별되면 다음으로 데이터를 효과적으로 수집하고 파이프라인을 설정하여 추가 처리 및 탐색에 사용할 시스템이 필요합니다. 첫 번째 단계는 소스 유형을 식별하는 것입니다. 온프레미스 또는 클라우드인 경우. 이 데이터를 추가 프로세스를 수행할 분석 환경으로 수집해야 합니다.

데이터가 수집되면 데이터 과학 프로세스의 가장 중요한 단계인 탐색적 데이터 분석(EDA)으로 넘어갑니다. EDA는 데이터를 분석하고 시각화하여 모든 형식 문제와 누락된 데이터가 무엇인지 확인하는 프로세스입니다.

패턴 및 기타 관련 정보를 찾기 위해 데이터 탐색을 진행하기 전에 모든 불일치를 정규화해야 합니다. 이것은 반복적인 프로세스이며 또한 기능 간의 관계 및 대상과의 기능을 보기 위해 다양한 유형의 차트 및 그래프를 그리는 작업을 포함합니다.

정기적으로 새 데이터를 환경으로 스트리밍하고 기존 데이터베이스를 업데이트하려면 파이프라인을 설정해야 합니다. 파이프라인을 설정하기 전에 다른 요소를 확인해야 합니다. 데이터가 배치 방식으로 스트리밍되어야 하는지 아니면 온라인으로 스트리밍되어야 하는지, 고주파수 또는 저주파인지 여부와 같은.

모델링 및 평가

모델링 프로세스는 머신 러닝이 발생하는 핵심 단계입니다. 올바른 기능 세트를 결정하고 올바른 알고리즘을 사용하여 모델을 교육해야 합니다. 그런 다음 훈련된 모델을 평가하여 실제 데이터에 대한 효율성과 성능을 확인해야 합니다.

첫 번째 단계는 기능 엔지니어링이라고 하며 이전 단계의 지식을 사용하여 모델 성능을 향상시키는 중요한 기능을 결정합니다. 피쳐 엔지니어링은 피쳐를 새로운 형태로 변환하고 피쳐를 결합하여 새로운 피쳐를 형성하는 프로세스입니다.

성능을 향상시키기보다는 저하시킬 수 있는 기능을 너무 많이 사용하지 않도록 주의해서 수행해야 합니다. 각 모델이 대상과 관련된 기능 중요도와 함께 이 요소를 결정하는 데 도움이 될 수 있는 경우 메트릭을 비교합니다.

기능 세트가 준비되면 어떤 알고리즘이 가장 잘 수행되는지 확인하기 위해 여러 유형의 알고리즘에 대해 모델을 학습해야 합니다. 이를 스폿 검사 알고리즘이라고도 합니다. 그런 다음 최고 성능의 알고리즘이 더 나은 성능을 위해 매개변수를 조정하기 위해 추가로 사용됩니다. 각 알고리즘과 각 매개변수 구성에 대한 메트릭을 비교하여 가장 좋은 모델을 결정합니다.

전개

이전 단계 이후에 완성된 모델은 이제 실제 데이터를 사용하여 테스트할 수 있도록 프로덕션 환경에 배포해야 합니다. 이 모델은 모바일/웹 애플리케이션 또는 대시보드 또는 회사 내부 소프트웨어의 형태로 운영되어야 합니다.

모델은 예상 부하와 애플리케이션에 따라 클라우드(AWS, GCP, Azure) 또는 온프레미스 서버에 배포할 수 있습니다. 모든 문제가 방지되도록 모델 성능을 지속적으로 모니터링해야 합니다.

또한 모델은 이전 단계에서 설정된 파이프라인을 통해 들어올 때마다 새 데이터에 대해 다시 학습해야 합니다. 이 재교육은 오프라인 또는 온라인일 수 있습니다. 오프라인 모드에서는 애플리케이션이 중단되고 모델이 다시 학습된 다음 서버에 다시 배포됩니다.

다양한 유형의 웹 프레임워크가 프론트 엔드 애플리케이션에서 데이터를 가져와 서버의 모델에 공급하는 백엔드 애플리케이션을 개발하는 데 사용됩니다. 그런 다음 이 API는 모델의 예측을 다시 프런트 엔드 애플리케이션으로 보냅니다. 웹 프레임워크의 몇 가지 예는 Flask, Django 및 FastAPI입니다.

클라이언트 검증

이것은 프로젝트가 최종적으로 사용을 위해 클라이언트에게 전달되는 데이터 과학 프로세스의 마지막 단계입니다. 클라이언트는 응용 프로그램, 세부 정보 및 매개 변수를 살펴봐야 합니다. 여기에는 모델의 모든 기술적 측면과 평가 매개변수가 포함된 종료 보고서가 포함될 수도 있습니다. 클라이언트는 모델이 달성한 성능과 정확성의 수용을 확인해야 합니다.

명심해야 할 가장 중요한 점은 클라이언트 또는 고객이 데이터 과학에 대한 기술적 지식이 없을 수 있다는 것입니다. 따라서 고객이 쉽게 이해할 수 있는 방식과 언어로 모든 세부 사항을 제공하는 것이 팀의 의무입니다.

가기 전에

데이터 과학 프로세스는 조직마다 다르지만 우리가 논의한 5가지 주요 단계로 일반화할 수 있습니다. 데이터 정리 및 보고와 같은 보다 구체적인 작업을 설명하기 위해 이러한 단계 사이에 더 많은 단계가 있을 수 있습니다. 전반적으로 모든 데이터 과학 프로젝트는 이 5단계를 처리하고 모든 프로젝트에서 이를 준수해야 합니다. 이 프로세스를 따르는 것은 모든 데이터 과학 프로젝트의 성공을 보장하는 주요 단계입니다.

데이터 과학 프로그램의 구조는 시장에서 최고의 고용주를 쉽게 찾을 수 있도록 데이터 과학 분야에서 진정한 인재가 될 수 있도록 설계되었습니다. upGrad와 함께 학습 경로 여정을 시작하려면 지금 등록하십시오!

데이터 과학 프로세스의 첫 번째 단계는 무엇입니까?

데이터 과학 프로세스의 첫 번째 단계는 목표를 정의하는 것입니다. 데이터 수집, 모델링, 배포 또는 기타 단계를 수행하기 전에 연구 목표를 설정해야 합니다.
무엇을, 왜, 어떻게 프로젝트의 "3W"에 대해 철저해야 합니다. “고객의 기대는 무엇입니까? 회사에서 귀하의 연구를 평가하는 이유는 무엇입니까? 그리고 어떻게 연구를 진행하시겠습니까?”
이 모든 질문에 답할 수 있다면 연구의 다음 단계를 위한 준비가 모두 완료된 것입니다. 이러한 질문에 답하려면 비즈니스 통찰력과 같은 비기술적 기술이 기술적인 기술보다 더 중요합니다.

프로세스를 어떻게 모델링합니까?

모델링 프로세스는 데이터 과학 프로세스의 중요한 단계이며 이를 위해 기계 학습을 사용합니다. 우리는 모델에 올바른 데이터 세트를 제공하고 적절한 알고리즘으로 훈련시킵니다. 프로세스를 모델링하는 동안 다음 단계가 고려됩니다.
1. 첫 번째 단계는 Feature Engineering입니다. 이 단계는 이전에 수집된 정보를 고려하여 모델의 필수 기능을 결정하고 결합하여 새롭고 더 발전된 기능을 형성합니다.
2, 이 단계는 너무 많은 기능이 모델을 발전시키는 것이 아니라 악화시켜 종료될 수 있으므로 주의해서 수행해야 합니다.
3. 그런 다음 현장 검사 알고리즘을 결정합니다. 이러한 알고리즘은 새로운 기능을 획득한 후 모델을 훈련해야 하는 알고리즘입니다.
4. 그 중에서 가장 성능이 좋은 알고리즘을 선택하고 조정하여 능력을 향상시킵니다. 최상의 모델을 비교하고 찾기 위해 다양한 알고리즘의 메트릭을 고려합니다.

클라이언트에게 프로젝트를 제시하기 위한 접근 방식은 무엇입니까?

이것은 데이터 과학 프로젝트의 수명 주기의 마지막 단계입니다. 이 단계는 신중하게 처리해야 합니다. 그렇지 않으면 모든 노력이 수포로 돌아갈 수 있습니다. 클라이언트는 프로젝트의 모든 측면을 철저하게 살펴보아야 합니다. 모델에 대한 PowerPoint 프레젠테이션은 장점이 될 수 있습니다.
명심해야 할 한 가지는 고객이 기술 분야 출신일 수도 있고 아닐 수도 있다는 것입니다. 따라서 핵심 기술 단어를 사용해서는 안됩니다. 프로젝트의 애플리케이션과 매개변수를 일반 언어로 표현하여 고객에게 명확하게 보이도록 하십시오.