기술 통계란 무엇입니까? 정의, 유형 설명
게시 됨: 2021-08-13기술 통계는 데이터 세트의 특성을 구성하고 요약합니다. 전체 모집단 또는 표본에서 수집한 관측치를 데이터 세트라고 합니다. 데이터 수집 후 첫 번째 단계는 한 변수의 평균이나 두 변수 간의 관계와 같은 특성의 응답을 설명하는 것입니다. 예를 들어, 나이와 창의성 사이의 연관성을 찾는 것은 통계적 분석을 제공합니다.
다음 단계는 데이터가 가설을 반박하거나 확인하는지 여부를 나타내는 추론 통계를 찾는 것입니다. 또한 일반 인구가 영향을 미치는지 여부를 결정하는 데 도움이 됩니다. 요즘 연구원들은 데이터 과학과 빅 데이터를 매우 중요하게 여기며 이 데이터를 최대한 정밀하게 처리합니다. 여기서 기술 통계가 시작됩니다.
기술 통계를 분석하기 위한 필수 단계 중 하나는 설명을 제공하고 데이터 포인트를 건설적으로 보여주며 통찰력 있는 데이터 정보를 제공하는 것입니다. 또한 데이터 분포에 대한 결론을 제공하고 이상값을 감지하는 데 도움이 되며 변수 간의 유사성을 식별할 수 있습니다.
목차
기술 통계의 유형
빈도 분포
빈도 분포는 샘플 또는 데이터 세트에서 다양한 결과의 개수 또는 빈도를 보여줍니다. 정성적 데이터와 정량적 데이터 모두에 사용되며 일반적으로 그래프 또는 표 형식으로 표시됩니다. 그래프 또는 표의 각 항목에는 범위, 간격 또는 특정 그룹에서 값이 발생하는 빈도 또는 수가 수반됩니다.
명확히 하기 위해 배타적 클래스를 기반으로 분류된 그룹화된 데이터의 요약 또는 표시입니다. 또한 각 범주의 발생 횟수를 나타냅니다. 따라서 원시 데이터를 표시하는 보다 조직적이고 구조화된 방법을 나타냅니다.
빈도 분포 데이터의 일부 예는 빈도 표시에 사용되는 그래프 또는 차트입니다. 또한 파이 차트, 막대 차트, 꺾은선형 차트 및 히스토그램도 빈도 분포의 지표입니다.
중심 경향
중심 경향은 일반적으로 데이터 분포의 중심을 반영하는 단일 값을 사용하여 기술적인 데이터 집합 요약을 나타냅니다. 따라서 중심경향의 측정은 일반적으로 중심위치의 측정으로 알려져 있다. 중심 경향의 세 가지 핵심 측면은 다음과 같습니다.
평균
평균은 가장 인기 있는 중심 경향으로 간주됩니다. 데이터 세트의 평균 또는 가장 일반적인 값입니다. 평균을 정의하려면 두 개 이상의 숫자에 대한 가장 간단한 수학적 평균입니다. 평균은 여러 가지 방법으로 계산할 수 있는 데이터의 숫자 집합으로 제공됩니다. 평균에는 산술 평균과 기하 평균의 두 가지 유형이 있습니다.
예를 들어, 다음 데이터 세트의 평균을 찾으려면 2,3,4,5,6. 그런 다음 이 데이터의 평균은 단순히 데이터 집합을 더하고 데이터 집합의 값 수로 나누어 4입니다.
중앙값
중앙값은 오름차순 또는 내림차순으로 정렬된 데이터 세트의 중간 점수입니다. 따라서 숫자 목록은 평균보다 데이터 세트에서 더 설명적입니다.
예를 들어 {3, 13, 2, 34, 11, 26,47}인 홀수 데이터 세트의 경우 먼저 {2,3,11,13,26,34,47 데이터를 정렬해야 합니다. }, 여기서 중앙값은 13입니다. 급수의 양쪽에 같은 숫자가 있기 때문입니다. 반면, 데이터 집합이 짝수 {3, 13, 2, 34, 11, 17, 27, 47}인 경우에는 먼저 {2,3,11,13, 17,26,34,47}, 여기서 중앙값은 계열 중간에 있는 두 자리의 합을 2로 나눈 값입니다. 따라서 중앙값은 13+17/2가 되며 이는 15와 같습니다.
방법
모드는 데이터에서 가장 빈번한 점수 값을 나타냅니다. 데이터 세트에는 하나의 모드, 둘 이상의 모드가 있고 모드가 전혀 없을 수 있습니다.
예를 들어 숫자가 {3,5,6,6,6,8,9}인 데이터 세트의 경우 모드는 6이고 데이터 세트에 동일한 숫자가 없는 경우 해당 데이터는 모드가 없는 것으로 간주됩니다. .
가변성
변동성은 표본의 분산 정도를 반영하는 요약 통계의 척도입니다. 또한 데이터 포인트가 중심에서 얼마나 멀리 떨어져 있는지를 결정하는 변동성을 측정합니다.
산포, 산포 및 변동성은 데이터에서 분포 값의 폭과 범위를 나타냅니다. 표준 편차, 분산 및 범위는 스프레드의 다양한 측면과 구성 요소를 나타내는 데 사용됩니다.
값 집합의 범위는 데이터 내에서 가장 낮은 값과 가장 높은 값 사이의 분산 정도 또는 이상적인 거리를 나타냅니다. 표준 편차는 데이터 집합의 평균 분산을 설정하는 데 사용됩니다. 또한 데이터 세트의 값 간의 차이 또는 거리에 대한 통찰력을 제공합니다. 데이터의 평균값도 나타냅니다. 마지막으로 확산 정도를 반영한다.
기술 통계의 중요성
경계 데이터
기술통계를 위해 수집된 데이터는 높은 수준의 객관성을 가져야 합니다. 따라서 통계가 추출한 데이터의 다른 특성을 보여주고 추세와 일치하지 않으면 아무 소용이 없기 때문에 각별한 주의가 필요합니다.
폭넓은 접근
기술통계는 정량적 방법보다 더 방대하게 측정된다. 현상이나 사건에 대한 더 넓은 그림을 제공하는 것을 목표로 합니다. 이것은 연구를 수행하기 위해 단일 수의 변수 또는 임의의 수의 변수를 사용할 수 있습니다.
자연 관계
이 통계 데이터는 자연스럽고 있는 그대로의 세계를 보여주기 때문에 정보 수집에 더 나은 방법으로 간주됩니다. 추출된 추세의 정확성을 보장하기 위해 데이터의 실제 동작을 조사합니다.
유연한
기술 통계는 연구에 새로운 방법을 제공합니다. 예를 들어, 연구자는 기술 통계의 현상을 설명하기 위해 상관 관계와 정성적 사례 연구를 사용할 수 있습니다. 사례 연구를 사용하여 사건, 사람 및 기관을 설명할 수 있습니다. 이를 통해 연구자는 데이터 패턴과 행동을 이해할 수 있습니다.
세계 최고의 대학에서 온라인으로 데이터 과학 인증 을 받으십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.
변수 및 가설 식별
기술 통계는 실험 및 추론 연구를 통해 추가로 분석할 수 있는 새로운 가설과 변수를 식별하는 동안 유용합니다. 또한 오차 범위가 상대적으로 작고 추세를 데이터 속성에서 직접 가져오기 때문에 매우 유용합니다.
결론적으로
기술 통계는 데이터 전문가가 결과를 의미 있게 제시하여 기술적 이해 관계자와 비기술적 이해 관계자 모두가 이해할 수 있도록 하기 때문에 데이터 시각화에 매우 중요합니다. 적절한 그래픽 표현을 통해 복잡한 양적 데이터를 요약함으로써 기술 통계는 데이터 해석 프로세스를 단순화하여 기업이 데이터 기반 의사 결정을 더 쉽게 내릴 수 있도록 합니다.
데이터 과학에 사용되는 다양한 통계 개념과 방법에 대해 자세히 알아보려면 데이터 과학 과정에서 upGrad의 이그 제 큐 티브 PG 프로그램 을 확인하십시오 . 국내외 유수의 대학 교수진이 가르치는 이 코스는 산업 관련 기술과 지식을 갖추게 합니다.