모든 데이터 과학자가 가지고 있어야 하는 궁극의 데이터 과학 치트 시트
게시 됨: 2021-01-29데이터 과학의 급성장하는 세계로 뛰어들 생각을 하고 있는 모든 신진 전문가와 초보자를 위해 이 분야에 밑줄을 긋는 기본 및 방법론을 익힐 수 있도록 빠른 치트 시트를 작성했습니다.
목차
데이터 과학 - 기초
우리 세계에서 생성되는 데이터는 숫자, 코드, 단어, 문장 등과 같은 원시 형식입니다. 데이터 과학은 이 원시 데이터를 과학적 방법으로 처리하여 지식과 통찰력을 얻기 위해 의미 있는 형식으로 변환합니다. .
데이터
데이터 과학의 신조를 살펴보기 전에 데이터, 데이터 유형 및 데이터 처리에 대해 조금 이야기해 보겠습니다.
데이터 유형
구조화 – 데이터베이스에 표 형식으로 저장된 데이터입니다. 숫자 또는 텍스트일 수 있습니다.
비정형 – 말할 수 있는 명확한 구조로 표로 만들 수 없는 데이터를 비정형 데이터라고 합니다.
반정형 – 정형 데이터와 비정형 데이터의 특성을 모두 가진 혼합 데이터
정량적 – 정량화할 수 있는 명확한 숫자 값이 있는 데이터
빅 데이터 – 여러 컴퓨터 또는 서버 팜에 걸쳐 있는 거대한 데이터베이스에 저장된 데이터를 빅 데이터라고 합니다. 생체 데이터, 소셜 미디어 데이터 등은 빅 데이터로 간주됩니다. 빅 데이터의 특징은 4V입니다.
데이터 전처리
데이터 분류 – 데이터를 숫자, 텍스트 또는 이미지, 텍스트, 비디오 등과 같은 클래스로 분류하거나 레이블을 지정하는 프로세스입니다.
데이터 정리 – 누락된/일관되지 않는/호환되지 않는 데이터를 제거하거나 다음 방법 중 하나를 사용하여 데이터를 교체하는 것으로 구성됩니다.
- 보간
- 휴리스틱
- 무작위 할당
- 가장 가까운 이웃
데이터 마스킹 – 기밀 데이터를 숨기거나 마스킹하여 민감한 정보를 처리할 수 있으면서도 민감한 정보의 프라이버시를 유지합니다.
데이터 과학은 무엇으로 구성되어 있습니까?
통계의 개념
회귀
선형 회귀
선형 회귀는 수요와 공급, 가격과 소비 등과 같은 두 변수 간의 관계를 설정하는 데 사용됩니다. 다음과 같이 한 변수 x를 다른 변수 y의 선형 함수로 관련시킵니다.
Y = f(x) 또는 Y =mx + c, 여기서 m = 계수
로지스틱 회귀
로지스틱 회귀는 변수 간의 선형 관계가 아니라 확률적 관계를 설정합니다. 결과 답은 0 또는 1이고 우리는 확률을 찾고 곡선은 S자 모양입니다.
p < 0.5이면 0, 그렇지 않으면 1
공식:
Y = e^ (b0 + b1x) / (1 + e^ (b0 +b1x))
여기서 b0 = 바이어스 및 b1 = 계수
개연성
확률은 사건의 발생 가능성을 예측하는 데 도움이 됩니다. 일부 용어:
샘플: 가능한 결과 집합
이벤트: 표본 공간의 하위 집합입니다.
랜덤 변수: 랜덤 변수는 가능한 결과를 샘플 공간의 숫자나 선에 매핑하거나 수량화하는 데 도움이 됩니다.
확률 분포
이산 분포: 확률을 이산 값 집합(정수)으로 제공
P[X=x] = p(x)
이미지 소스
연속 분포: 이산 값 대신 여러 연속 점 또는 간격에 대한 확률을 제공합니다. 공식:
P[a ≤ x ≤ b] = a∫bf(x) dx, 여기서 a, b는 점
이미지 소스
상관 및 공분산
표준 편차: 평균 값에서 주어진 데이터 세트의 변동 또는 편차
σ = √ {(Σi=1N ( xi – x ) ) / (N -1)}
공분산
데이터 세트의 평균으로 확률 변수 X 및 Y의 편차 범위를 정의합니다.
Cov(X,Y) = σ2XY = E[(X−μX)(Y−μY)] = E[XY]−μXμY
상관 관계
상관 관계는 방향, +ve 또는 -ve와 함께 변수 간의 선형 관계 범위를 정의합니다.
ρXY= σ2XY/ σX * *σY
인공 지능
지식을 획득하고 입력을 기반으로 결정을 내리는 기계의 능력을 인공 지능 또는 간단히 AI라고 합니다.
유형
- Reactive Machines: Reactive Machine AI는 가장 빠르고 최상의 옵션으로 범위를 좁혀 사전 정의된 시나리오에 반응하는 방법을 학습하여 작동합니다. 메모리가 부족하고 정의된 매개변수 집합이 있는 작업에 가장 적합합니다. 신뢰성이 높고 일관성이 있습니다.
- 제한된 메모리: 이 AI에는 실제 관찰 및 레거시 데이터가 제공됩니다. 주어진 데이터를 기반으로 학습하고 의사 결정을 내릴 수 있지만 새로운 경험을 얻을 수는 없습니다.
- 마음 이론: 주변 개체의 행동을 기반으로 결정을 내릴 수 있는 대화형 AI입니다.
- 자기 인식: 이 AI는 주변 환경과 별개로 자신의 존재와 기능을 인식합니다. 인지 능력을 개발하고 자신의 행동이 주변 환경에 미치는 영향을 이해하고 평가할 수 있습니다.
AI 용어
신경망
신경망은 시스템에서 데이터와 정보를 중계하는 상호 연결된 노드의 묶음 또는 네트워크입니다. 신경망은 우리 뇌의 뉴런을 모방하도록 모델링되었으며 학습 및 예측을 통해 결정을 내릴 수 있습니다.
휴리스틱
휴리스틱은 사용 가능한 정보가 고르지 못한 상황에서 이전 경험을 사용하여 신속하게 근사치 및 추정치를 기반으로 예측하는 기능입니다. 빠르지만 정확하거나 정확하지 않습니다.

사례 기반 추론
이전 문제 해결 사례에서 배우고 현재 상황에 적용하여 수용 가능한 솔루션에 도달하는 능력
자연어 처리
그것은 단순히 인간의 말이나 텍스트를 이해하고 직접 상호 작용하는 기계의 능력입니다. 예를 들어 자동차의 음성 명령
기계 학습
머신 러닝은 단순히 문제를 예측하고 해결하기 위해 다양한 모델과 알고리즘을 사용하는 AI의 응용 프로그램입니다.
유형
감독
이 방법은 출력 데이터와 관련된 입력 데이터에 의존합니다. 기계에는 목표 변수 Y 세트가 제공되며 최적화 알고리즘의 감독하에 입력 변수 X 세트를 통해 목표 변수에 도달해야 합니다. 지도 학습의 예로는 신경망, 랜덤 포레스트, 딥 러닝, 지원 벡터 머신 등이 있습니다.
감독되지 않음
이 방법에서 입력 변수에는 레이블이나 연관이 없으며 알고리즘은 패턴과 클러스터를 찾기 위해 작동하여 새로운 지식과 통찰력을 얻습니다.
강화
강화 학습은 학습 행동을 날카롭게 하거나 연마하기 위한 즉흥 연주 기술에 중점을 둡니다. 기계가 목표 보상을 얻기 위해 기술을 점진적으로 향상시키는 보상 기반 방법입니다.
모델링 방법
회귀
회귀 모델은 연속 데이터의 보간 또는 외삽을 통해 항상 숫자를 출력으로 제공합니다.
분류
분류 모델은 출력을 클래스 또는 레이블로 제시하고 '어떤 종류'와 같은 개별 결과를 더 잘 예측합니다.
회귀와 분류는 모두 지도 모델입니다.
클러스터링
클러스터링은 특성, 속성, 기능 등을 기반으로 클러스터를 식별하는 비지도 모델입니다.
ML 알고리즘
의사결정나무
의사 결정 트리는 결과가 '예' 또는 '아니오'와 같은 두 가지 가능한 질문 중 하나가 되도록 각 단계에서 연속적인 질문을 기반으로 솔루션에 도달하기 위해 이진 접근 방식을 사용합니다. 의사 결정 트리는 구현 및 해석이 간단합니다.
랜덤 포레스트 또는 배깅
랜덤 포레스트는 의사 결정 트리의 고급 알고리즘입니다. 많은 수의 의사 결정 트리를 사용하여 구조를 숲처럼 조밀하고 복잡하게 만듭니다. 여러 결과를 생성하므로 보다 정확한 결과와 성능을 얻을 수 있습니다.
K-최근접 이웃(KNN)
kNN은 새로운 데이터 포인트에 대한 플롯에서 가장 가까운 데이터 포인트의 근접성을 사용하여 그것이 속하는 카테고리를 예측합니다. 새로운 데이터 포인트는 더 많은 수의 이웃이 있는 카테고리에 할당됩니다.
k = 최근접이웃의 수
나이브 베이즈
Naive Bayes는 데이터 포인트의 모든 기능이 독립적이고 서로 관련이 없다는 두 가지 기둥, 즉 고유하고 조건이나 가설을 기반으로 결과를 예측하는 Bayes 정리를 기반으로 합니다.
베이즈 정리:
P(X|Y) = {P(Y|X) * P(X)} / P(Y)
여기서 P(X|Y) = Y가 발생했을 때 X의 조건부 확률
P(Y|X) = X의 발생이 주어진 Y의 조건부 확률
P(X), P(Y) = X 및 Y 개별 확률
서포트 벡터 머신
이 알고리즘은 선 또는 평면이 될 수 있는 경계를 기반으로 공간에서 데이터를 분리하려고 합니다. 이 경계를 '초평면(hyperplane)'이라고 하며 각 클래스의 가장 가까운 데이터 포인트로 정의되며 이를 '지지 벡터'라고 합니다. 양쪽 지지 벡터 사이의 최대 거리를 마진이라고 합니다.
신경망
퍼셉트론
기본 신경망은 임계값을 기반으로 가중 입력 및 출력을 취하여 작동합니다.
피드포워드 신경망
FFN은 한 방향으로만 데이터를 전송하는 가장 간단한 네트워크입니다. 숨겨진 레이어가 있을 수도 있고 없을 수도 있습니다.
컨볼루션 신경망
CNN은 컨볼루션 레이어를 사용하여 입력 데이터의 특정 부분을 일괄 처리한 다음 풀링 레이어를 사용하여 출력을 완료합니다.
순환 신경망
RNN은 '과거' 데이터를 저장할 수 있는 I/O 레이어 사이의 몇 가지 반복 레이어로 구성됩니다. 데이터 흐름은 양방향이며 예측을 개선하기 위해 반복 계층에 공급됩니다.
심층 신경망 및 심층 학습
DNN은 I/O 레이어 사이에 여러 개의 은닉 레이어가 있는 네트워크입니다. 은닉층은 데이터를 출력층으로 보내기 전에 데이터에 연속적인 변환을 적용합니다.
'딥 러닝'은 DNN을 통해 촉진 되며, 다중 은닉층으로 인해 방대한 양의 복잡한 데이터를 처리하고 높은 정확도를 달성할 수 있습니다.
세계 최고의 대학에서 데이터 과학 인증 을 받으십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 통해 경력을 빠르게 추적하십시오.
결론
데이터 과학은 다양한 흐름을 거치지만 우리에게 혁명과 계시로 다가오는 광대한 분야입니다. 데이터 과학은 급성장하고 있으며 미래에 시스템이 작동하고 느끼는 방식을 바꿀 것입니다.
데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
데이터 과학에 가장 적합한 프로그래밍 언어와 그 이유는 무엇입니까?
데이터 과학을 위한 수십 가지 프로그래밍 언어가 있지만 데이터 과학 커뮤니티의 대다수는 데이터 과학에서 탁월해지고 싶다면 Python이 올바른 선택이라고 믿습니다. 이 믿음을 뒷받침하는 몇 가지 이유는 다음과 같습니다.
1. Python에는 TensorFlow 및 PyTorch와 같은 광범위한 모듈과 라이브러리가 있어 데이터 과학 개념을 쉽게 다룰 수 있습니다.
2. 방대한 Python 개발자 커뮤니티는 초보자가 데이터 과학 여정의 다음 단계로 나아갈 수 있도록 지속적으로 돕습니다.
3. 이 언어는 가독성을 향상시키는 깔끔한 구문으로 가장 편리하고 쓰기 쉬운 언어 중 하나입니다.
데이터 과학을 완성하는 개념은 무엇입니까?
데이터 과학은 다양한 기타 중요한 영역의 우산 역할을 하는 광대한 영역입니다. 다음은 데이터 과학을 구성하는 가장 두드러진 개념입니다.
통계
통계는 데이터 과학에서 앞서 나가기 위해 탁월해야 하는 중요한 개념입니다. 또한 몇 가지 하위 주제가 있습니다.
1. 선형 회귀
2. 확률
3. 확률 분포
인공 지능
기계에게 뇌를 제공하고 입력을 기반으로 스스로 결정을 내리도록 하는 과학을 인공 지능이라고 합니다. 반응 기계, 제한된 기억력, 마음 이론 및 자기 인식은 인공 지능 유형의 일부입니다.
기계 학습
기계 학습은 제공된 데이터를 기반으로 미래 결과를 예측하기 위해 기계를 가르치는 데이터 과학의 또 다른 중요한 구성 요소입니다. 기계 학습에는 클러스터링, 회귀 및 분류의 세 가지 주요 모델링 방법이 있습니다.
머신 러닝의 유형을 설명하시겠습니까?
기계 학습 또는 단순 ML에는 작업 방법에 따라 세 가지 주요 유형이 있습니다. 이러한 유형은 다음과 같습니다.
1. 지도 학습
이것은 입력 데이터에 레이블이 지정되는 가장 원시적인 유형의 ML입니다. 기계는 기계에게 문제에 대한 통찰력을 제공하고 그것에 대해 훈련되는 더 작은 데이터 세트를 제공받습니다.
2. 비지도 학습
이 유형의 가장 큰 장점은 데이터에 레이블이 지정되지 않고 사람의 노동력이 거의 무시할 수 있다는 것입니다. 이렇게 하면 훨씬 더 큰 데이터 세트가 모델에 도입될 수 있습니다.
3. Reinforced Learning 인간의 삶에서 영감을 얻은 가장 발전된 유형의 ML입니다. 원하는 출력은 강화되고 쓸모없는 출력은 억제됩니다.