Ce este Statistica Descriptivă? Definiție, tipuri explicate

Publicat: 2021-08-13

Statisticile descriptive sunt organizate și rezumate caracteristicile setului de date. Colectarea de observații de la întreaga populație sau eșantion este cunoscută ca un set de date. Primul pas după colectarea datelor este de a descrie răspunsurile caracteristicilor, cum ar fi media unei variabile sau relația dintre două variabile. De exemplu, găsirea unei legături între vârstă și creativitate ne oferă o analiză statistică.

Următorul pas este să găsiți statistici inferențiale, care indică dacă datele dvs. infirmă sau confirmă ipoteza. De asemenea, ne ajută să decidem dacă o populație generalizată o influențează. În zilele noastre, cercetătorii acordă o mare importanță științei datelor și datelor mari, făcând ca aceste date să fie procesate cu cea mai mare atenție. Aici intervine statisticile descriptive.

Unul dintre pașii esențiali pentru analiza statisticii descriptive este acela că oferă descrieri, arată în mod constructiv punctele de date și oferă informații detaliate despre date. În plus, vă oferă o concluzie a distribuției datelor, vă ajută să detectați valori aberante și vă permite să identificați asemănările dintre variabile.

Cuprins

Tipuri de statistici descriptive

  • Distribuția de frecvență

O distribuție de frecvență arată numărul sau frecvența diferitelor rezultate dintr-un eșantion sau un set de date. Este folosit atât pentru date calitative, cât și pentru datele cantitative și este prezentat de obicei într-un format grafic sau tabel. Fiecare intrare din grafic sau tabel este însoțită de frecvența sau numărul de apariții ale valorilor într-un interval, interval sau grup specific.

Pentru a fi clar, este un rezumat sau o prezentare a datelor grupate clasificate pe baza unor clase exclusive. De asemenea, prezintă numărul de apariții în fiecare categorie respectivă. Astfel, indică o modalitate mai organizată și mai structurată de a prezenta datele brute.

Unele dintre exemplele de date de distribuție a frecvenței sunt grafice sau diagrame utilizate în prezentarea frecvenței. În plus, diagramele circulare, diagramele cu bare, diagramele cu linii și histogramele sunt, de asemenea, un indicator al distribuției frecvenței.

  • Tendința centrală

Tendința centrală se referă în general la rezumatul setului de date descriptive, folosind o singură valoare care reflectă centrul de distribuție a datelor. Astfel, măsurile de tendință centrală sunt cunoscute în mod popular ca măsuri de locație centrală. Cele trei aspecte de bază ale tendinței centrale sunt:

    • Rău

Media este considerată a fi cea mai populară tendință centrală. Este o valoare medie sau cea mai comună a setului de date. Pentru a defini media, este cea mai simplă medie matematică a două sau mai multe numere. Media este dată de setul de numere din date, care pot fi calculate în mai multe moduri. Există două tipuri de medie - media aritmetică și media geometrică.

De exemplu, pentru a găsi media următorului set de date; 2,3,4,5,6. Apoi, media acestor date este de patru prin simpla adăugare a setului de date și împărțirea acestuia la numărul de valori din setul de date.

    • Median

Mediana este scorul mediu al oricărui set de date în ordine crescătoare sau descrescătoare. Astfel, lista de numere este mai descriptivă în setul de date decât media.

De exemplu, în cazul unui set de date impar care este {3, 13, 2, 34, 11, 26,47}, trebuie mai întâi să aranjați datele {2,3,11,13,26,34,47 }, aici mediana este 13 deoarece există numere egale de fiecare parte a seriei. Pe de altă parte, în cazul unui set de date par care este {3, 13, 2, 34, 11, 17, 27, 47}, trebuie mai întâi să aranjați datele într-o ordine {2,3,11,13, 17,26,34,47}, aici Mediana ar fi suma a două cifre care se află în mijlocul seriei împărțite la 2. Prin urmare, Mediana ar fi 13+17/2, care este egal cu 15.

    • Modul

Modul se referă la valoarea scorului care este cea mai frecventă în date. Setul de date poate avea un mod, mai multe moduri și nici un mod.

De exemplu, setul de date având numere {3,5,6,6,6,8,9}, modul ar fi 6, iar în cazul în care setul de date nu are aceleași numere, atunci se consideră că datele respective nu au nici un mod .

  • Variabilitate

Variabilitatea este o măsură a statisticilor rezumative care reflectă gradul de dispersie dintr-un eșantion. De asemenea, măsoară variabilitatea care determină cât de departe apar punctele de date față de centru.

Răspândirea, dispersia și variabilitatea se referă la lățimea și intervalul valorilor de distribuție dintr-o dată. Abaterea standard, varianța și intervalul sunt utilizate pentru a descrie diferite aspecte și componente ale răspândirii.

Intervalul din setul de valori descrie gradul de dispersie sau o distanță ideală între cele mai mici și cele mai mari valori dintr-o dată. Abaterea standard este utilizată pentru a stabili varianța medie într-un set de date. De asemenea, oferă o perspectivă asupra diferenței sau distanței dintre valorile din setul de date. Acesta descrie și valoarea medie a datelor. În cele din urmă, reflectă gradul de răspândire.

Importanța statisticii descriptive

  • Date vigilente

Datele colectate pentru statistica descriptivă trebuie să posede un grad ridicat de obiectivitate. Prin urmare, trebuie să fiți foarte vigilenți, deoarece dacă statisticile arată caracteristici diferite ale datelor extrase și nu se potrivesc cu tendințele, nu va fi de niciun folos.

  • Abordare mai largă

Statistica descriptivă este măsurată a fi mai vastă decât metoda cantitativă. Acesta își propune să ofere o imagine mai amplă a fenomenului sau evenimentului. Aceasta poate folosi un singur număr de variabile sau orice număr de variabile pentru a face cercetare.

  • Relația naturală

Aceste date statistice sunt considerate o metodă mai bună de colectare a informațiilor, deoarece sunt naturale și prezintă lumea așa cum există. Cercetează comportamentul real al datelor pentru a asigura acuratețea tendințelor extrase.

  • Flexibil

Statisticile descriptive oferă studiului o nouă modalitate de a învăța lucruri. De exemplu, cercetătorii pot folosi un studiu de caz care este atât corelativ, cât și calitativ pentru a descrie fenomenele statisticii descriptive. Se pot folosi studii de caz pentru a descrie evenimente, oameni și instituții. Acest lucru va permite cercetătorilor să înțeleagă tiparele și comportamentul datelor.

Obțineți certificare online în știința datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

  • Identificați variabile și ipoteze

Statisticile descriptive sunt utile în timp ce identifică noi ipoteze și variabile care pot fi analizate în continuare prin studii experimentale și inferențiale. Mai mult decât atât, este foarte util, deoarece marja de eroare este relativ mică, iar tendințele sunt obținute direct din proprietățile datelor.

A concluziona

Statisticile descriptive sunt esențiale pentru vizualizarea datelor, deoarece le permite experților în date să își prezinte concluziile în mod semnificativ, astfel încât părțile interesate tehnice și non-tehnice să le poată înțelege. Prin rezumarea datelor cantitative complexe prin reprezentări grafice adecvate, statisticile descriptive simplifică procesul de interpretare a datelor, facilitând pentru companii să ia decizii bazate pe date.

Dacă sunteți interesat să aflați mai multe despre diferitele concepte și metode statistice utilizate în știința datelor, asigurați-vă că consultați programul Executive PG în cursurile de știința datelor de la upGrad . Predate de membri ai facultății de la universități naționale și străine de top, aceste cursuri vă vor dota cu abilități și cunoștințe relevante pentru industrie.

Pregătiți-vă pentru o carieră a viitorului

Începeți-vă cariera în știința datelor cu IIIT - Bangalore
Aplicați pentru programul de certificat avansat în știința datelor