Procesul științei datelor: înțelegere, colectare a datelor, modelare, implementare și verificare

Publicat: 2021-02-09

Proiectele Data Science din industrie sunt de obicei urmate ca un ciclu de viață bine definit care adaugă structură proiectului și definește obiective clare pentru fiecare pas. Există multe astfel de metodologii disponibile, cum ar fi CRISP-DM, OSEMN, TDSP, etc. Există mai multe etape într-un proces de știință a datelor referitoare la sarcini specifice pe care diferiții membri ai unei echipe le îndeplinesc.

Ori de câte ori o problemă de Data Science vine de la client, aceasta trebuie să fie rezolvată și produsă clientului într-un mod structurat. Această structură asigură că întregul proces se desfășoară fără probleme, deoarece implică mai multe persoane care lucrează pe rolurile lor specifice, cum ar fi arhitect de soluții, manager de proiect, lider de produs, inginer de date, om de știință de date, lider DevOps etc. Urmărirea unui proces de știință a datelor face, de asemenea, asigurați-vă că calitatea produsului final este bună și proiectele sunt finalizate la timp.

Până la sfârșitul acestui tutorial, veți ști următoarele:

  • Înțelegerea afacerilor
  • Colectare de date
  • Modelare
  • Implementare
  • Validarea clientului

Cuprins

Înțelegerea afacerilor

Cunoașterea afacerilor și a datelor este de cea mai mare importanță. Trebuie să decidem ce ținte trebuie să prezicem pentru a rezolva problema în cauză. De asemenea, trebuie să înțelegem din ce toate sursele putem obține datele și dacă trebuie să construim noi surse.

Țintele model pot fi prețurile caselor, vârsta clienților, prognoza vânzărilor etc. Aceste ținte trebuie decise lucrând cu clientul care are cunoștințe complete despre produsul și problema lor. A doua cea mai importantă sarcină este să știi ce tip de predicție este asupra țintei.

Fie că este vorba de regresie sau clasificare sau grupare sau chiar recomandare. Trebuie decise rolurile membrilor și, de asemenea, de ce toți și de câți oameni vor fi necesare pentru a finaliza proiectul. Măsurile de succes sunt, de asemenea, decise pentru a se asigura că soluția produce rezultate care sunt cel puțin acceptabile.

Trebuie identificate sursele de date care pot furniza datele necesare pentru a prezice obiectivele stabilite mai sus. Poate fi, de asemenea, nevoia de a construi conducte pentru a colecta date din surse specifice, care pot fi un factor important pentru succesul proiectului.

Colectare de date

Odată ce datele sunt identificate, în continuare avem nevoie de sisteme care să ingereze în mod eficient datele și să le utilizeze pentru prelucrare și explorare ulterioară prin crearea de conducte. Primul pas este identificarea tipului sursei. Dacă este on-premise sau on-cloud. Trebuie să ingerăm aceste date în mediul analitic unde vom face procese ulterioare pe el.

Odată ce datele sunt ingerate, trecem la cel mai important pas al procesului de știință a datelor, care este analiza exploratorie a datelor (EDA). EDA este procesul de analiză și vizualizare a datelor pentru a vedea care sunt toate problemele de formatare și datele lipsă.

Toate discrepanțele trebuie normalizate înainte de a continua cu explorarea datelor pentru a afla modele și alte informații relevante. Acesta este un proces iterativ și include, de asemenea, trasarea diferitelor tipuri de diagrame și grafice pentru a vedea relațiile dintre caracteristicile și caracteristicile cu ținta.

Conductele trebuie configurate pentru a transmite în mod regulat date noi în mediul dvs. și pentru a actualiza bazele de date existente. Înainte de a instala conductele, alți factori trebuie verificați. De exemplu, dacă datele trebuie transmise în flux în serie sau online, dacă vor fi de înaltă frecvență sau de joasă frecvență.

Modelare și evaluare

Procesul de modelare este etapa centrală în care are loc învățarea automată. Setul potrivit de caracteristici trebuie să fie decis și modelul antrenat pe ele folosind algoritmii potriviți. Modelul antrenat trebuie apoi evaluat pentru a-și verifica eficiența și performanța pe date reale.

Primul pas se numește Feature Engineering, unde folosim cunoștințele din etapa anterioară pentru a determina caracteristicile importante care fac modelul nostru să funcționeze mai bine. Ingineria caracteristicilor este procesul de transformare a caracteristicilor în forme noi și chiar de a combina caracteristici pentru a forma caracteristici noi.

Trebuie făcută cu atenție pentru a evita utilizarea prea multor funcții care pot deteriora performanța mai degrabă decât să se îmbunătățească. Compararea valorilor dacă fiecare model poate ajuta la deciderea acestui factor împreună cu importanța caracteristicilor în raport cu ținta.

Odată ce setul de caracteristici este gata, modelul trebuie să fie antrenat pe mai multe tipuri de algoritmi pentru a vedea care dintre ele funcționează cel mai bine. Acestia se mai numesc si algoritmi de verificare. Cei mai performanti algoritmi sunt apoi duși mai departe pentru a-și regla parametrii pentru o performanță și mai bună. Valorile sunt comparate pentru fiecare algoritm și fiecare configurație de parametru pentru a determina care model este cel mai bun dintre toate.

Implementare

Modelul care este finalizat după etapa anterioară trebuie acum implementat în mediul de producție pentru a deveni utilizabil și testat pe date reale. Modelul trebuie operaționalizat fie sub formă de aplicații mobile/web sau tablouri de bord sau software intern al companiei.

Modelele pot fi implementate fie pe cloud (AWS, GCP, Azure) fie pe servere on-premise, în funcție de încărcarea așteptată și de aplicații. Performanța modelului trebuie monitorizată continuu pentru a vă asigura că toate problemele sunt prevenite.

De asemenea, modelul trebuie reeducat pe date noi ori de câte ori vine prin conductele stabilite într-o etapă anterioară. Această recalificare poate fi fie offline, fie online. În modul offline, aplicația este dezactivată, modelul este reantrenat și apoi redistribuit pe server.

Diferite tipuri de cadre web sunt folosite pentru a dezvolta aplicația backend care preia datele din aplicația front end și le furnizează modelului de pe server. Acest API trimite înapoi predicțiile de la model înapoi la aplicația front end. Câteva exemple de cadre web sunt Flask, Django și FastAPI.

Validarea clientului

Aceasta este etapa finală a unui proces de știință a datelor în care proiectul este în cele din urmă predat clientului pentru utilizarea acestuia. Clientul trebuie să fie parcurs prin aplicație, detaliile și parametrii acesteia. Poate include, de asemenea, un raport de ieșire care conține toate aspectele tehnice ale modelului și parametrii de evaluare ai acestuia. Clientul trebuie să confirme acceptarea performanței și acurateței atinse de model.

Cel mai important punct care trebuie reținut este că clientul sau clientul ar putea să nu aibă cunoștințele tehnice despre Data Science. Prin urmare, este de datoria echipei să le furnizeze toate detaliile într-un mod și limbaj care să poată fi înțeles cu ușurință de către client.

Inainte sa pleci

Procesul Data Science variază de la o organizație la alta, dar poate fi generalizat în cele 5 etape principale pe care le-am discutat. Pot exista mai multe etape între aceste etape pentru a ține cont de sarcini mai specifice, cum ar fi curățarea datelor și raportarea. În general, orice proiect Data Science trebuie să aibă grijă de aceste 5 etape și să se asigure că le respectă pentru toate proiectele. Urmărirea acestui proces este un pas major în asigurarea succesului tuturor proiectelor Data Science.

Structura Programului Data Science concepută pentru a vă facilita să deveniți un adevărat talent în domeniul Data Science, ceea ce face mai ușor să trageți cel mai bun angajator de pe piață. Înregistrați-vă astăzi pentru a vă începe călătoria pe calea de învățare cu upGrad!

Care este primul pas în procesul științei datelor?

Primul pas în procesul științei datelor este să vă definiți obiectivul. Înainte de colectarea datelor, modelare, implementare sau orice alt pas, trebuie să stabiliți scopul cercetării dumneavoastră.
Ar trebui să fii amănunțit cu „3W”-urile proiectului tău - ce, de ce și cum. „Care sunt așteptările clientului tău? De ce compania ta apreciază cercetarea ta? Și cum vei continua cu cercetarea ta?
Dacă puteți răspunde la toate aceste întrebări, sunteți pregătit pentru următorul pas al cercetării dumneavoastră. Pentru a răspunde la aceste întrebări, abilitățile tale non-tehnice, cum ar fi perspicacitatea în afaceri, sunt mai importante decât abilitățile tale tehnice.

Cum îți modelezi procesul?

Procesul de modelare este un pas crucial într-un proces de știință a datelor și pentru asta, folosim Machine Learning. Alimentam modelul nostru cu setul potrivit de date și îl antrenăm cu algoritmi corespunzători. Următorii pași sunt luați în considerare la modelarea unui proces:
1. Primul pas este Ingineria caracteristicilor. Acest pas ia în considerare informațiile colectate anterior, determină caracteristicile esențiale pentru model și le combină pentru a forma caracteristici noi și mai evoluate.
2, Acest pas trebuie efectuat cu prudență, deoarece prea multe funcții ar putea duce la deteriorarea modelului nostru, în loc să-l evolueze.
3. Apoi determinăm algoritmii de verificare la punct. Acești algoritmi sunt cei pe care modelul trebuie antrenat după dobândirea de noi caracteristici.
4. Dintre ei, alegem cei mai performanti algoritmi și îi reglam pentru a le îmbunătăți chiar abilitățile. Pentru a compara și a găsi cel mai bun model, luăm în considerare metrica diferiților algoritmi.

Care ar trebui să fie abordarea de prezentare a proiectului clientului?

Acesta este pasul final al ciclului de viață al unui proiect de știință a datelor. Acest pas trebuie tratat cu atenție, altfel toate eforturile tale ar putea fi în zadar. Clientul ar trebui să fie îndrumat cu atenție la fiecare aspect al proiectului dumneavoastră. O prezentare PowerPoint pe modelul dvs. ar putea fi punctul în plus pentru dvs.
Un lucru de reținut este că clientul dumneavoastră poate fi sau nu din domeniul tehnic. Deci, nu trebuie să folosiți cuvinte tehnice de bază. Încercați să prezentați aplicațiile și parametrii proiectului dvs. într-un limbaj laic, astfel încât să fie clar pentru clienții dvs.