Top 10 proiecte de știință a datelor pe Github pe care ar trebui să le puneți în practică [2022]

Publicat: 2021-01-09

Dat fiind că știința datelor ia cu asalt industria, există o cerere masivă de experți calificați și calificați în știința datelor. Desigur, concurența pe piața actuală este acerbă. Într-un astfel de scenariu, angajatorii nu caută doar educație formală și certificări profesionale, ci solicită și experiență practică. Și ce mai bun decât proiectele Data Science pentru a-ți dovedi valoarea și pentru a-ți prezenta abilitățile din lumea reală Data Science potențialilor angajatori!

Dacă aspirați să intrați în domeniul Data Science, cel mai bun mod de a vă construi portofoliul de la zero este să lucrați la proiecte Data Science. Am creat această postare pentru a vă inspira să vă dezvoltați propriile proiecte Data Science.

Deoarece GitHub este un depozit excelent de idei de proiecte Data Science, iată o listă de proiecte Data Science pe GitHub pe care ar trebui să le verificați! Pentru a obține mai multe cunoștințe și aplicații practice, consultați cursurile noastre de știință a datelor de la universități de top.

Cuprins

Cele mai bune 10 proiecte de știință a datelor pe GitHub

1. Recunoașterea feței

Proiectul de recunoaștere a feței folosește Deep Learning și algoritmul HOG ( Histogram of Oriented Gradients ). Acest sistem de recunoaștere a feței este conceput pentru a găsi fețe într-o imagine (algoritm HOG), transformări afine (alinierea fețelor folosind un ansamblu de arbori de regresie), codificarea feței (FaceNet) și pentru a face predicții (Linear SVM).

Folosind algoritmul HOG, veți calcula gradienții ponderați de orientare a votului din pătrate de 16×16 pixeli, în loc să calculați gradienții pentru fiecare pixel al unei anumite imagini. Aceasta va genera o imagine HOG care reprezintă structura fundamentală a unei fețe. În pasul următor, trebuie să utilizați biblioteca dlib Python pentru a crea și vizualiza reprezentări HOG pentru a găsi care parte a imaginii seamănă cea mai apropiată cu modelul HOG antrenat.

2. Kaggle Bike Sharing

Sistemele de bike-sharing vă permit să rezervați și să închiriați biciclete/motociclete și să le returnați, de asemenea, printr-un sistem automatizat. Acest proiect este mai mult ca o competiție Kaggle în care va trebui să combinați modelele istorice de utilizare cu datele meteorologice pentru a prezice cererea de servicii de închiriere de biciclete pentru programul Capital Bikeshare din Washington, DC

Scopul principal al acestei competiții Kaggle este de a crea un model ML (bazat în mod explicit pe caracteristici contextuale) care poate prezice numărul de biciclete închiriate. Provocarea are două părți. În timp ce în prima parte, vă veți concentra pe înțelegerea, analiza și procesarea setului de date, a doua parte este despre proiectarea modelului folosind o bibliotecă ML.

3. Analiza textului raportului guvernului mexican

Acest proiect este o aplicație excelentă a NLP. La 1 septembrie 2019, guvernul mexican a lansat un raport anual sub forma unui PDF. Deci, scopul dvs. în acest proiect va fi să extrageți text din PDF, să-l curățați, să îl rulați printr-o conductă NLP și să vizualizați rezultatele folosind reprezentări grafice.

Pentru acest proiect, va trebui să utilizați mai multe biblioteci Python, inclusiv:

  • PyPDF2 pentru a extrage text din fișierele PDF.
  • SpaCy pentru a trece textul extras într-o conductă NLP.
  • Pandas pentru a extrage și analiza informații din seturi de date.
  • NumPy pentru operații rapide cu matrice.
  • Matplotlib pentru proiectarea diagramelor și graficelor.
  • Seaborn pentru a îmbunătăți stilul diagramelor/graficelor.
  • Geopandas pentru a trasa hărți.

4. ALBERT

ALBERT se bazează pe BERT, un proiect Google care a adus o schimbare radicală în domeniul NLP. Este o implementare îmbunătățită a BERT, concepută pentru reprezentări de limbi de învățare auto-supravegheate folosind TensorFlow.

În BERT, modelele pre-antrenate sunt enorme și, prin urmare, devine dificil să le despachetați, să le conectați la un model și să le rulați pe mașini locale. Acesta este motivul pentru care nevoia de ALBERT vă ajută să obțineți performanță de ultimă generație la principalele repere, cu 30% mai puțini parametri. Deși albert_base_zh are doar 10% parametri în comparație cu BERT, încă păstrează acuratețea originală a BERT.

5. StringSifter

Dacă securitatea cibernetică vă interesează, vă va plăcea să lucrați la acest proiect! Lansat de FireEye, StringSifter este un instrument ML care poate clasifica automat șirurile în funcție de relevanța analizei malware.

De obicei, programele malware standard includ șiruri pentru efectuarea unor operațiuni specifice, cum ar fi crearea cheii de registry, copierea fișierelor dintr-o locație în altă locație și așa mai departe. StringSifter este o soluție fantastică pentru atenuarea amenințărilor cibernetice. Cu toate acestea, trebuie să aveți versiunea Python 3.6 sau o versiune superioară pentru rularea și instalarea StringSifter.

6. Tiglare

Având în vedere faptul că astăzi, Web-ul și platformele online sunt inundate de imagini, există o mare posibilitate de lucru cu date de imagine în industria modernă. Așadar, imaginați-vă că dacă puteți crea un proiect orientat spre imagine, acesta va fi un atu foarte apreciat pentru mulți.

Tiler este un astfel de instrument de imagine care vă permite să creați imagini unice prin combinarea mai multor tipuri diferite de imagini mai mici sau „plăci”. Conform descrierii lui Tiler GitHub, puteți construi o imagine „linii, valuri, din cercuri, cusături în cruce, blocuri Minecraft, lego, litere, agrafe de hârtie” și multe altele. Cu Tiler, veți avea posibilități infinite de a realiza creații inovatoare de imagine.

7. DeepCTR

DeepCTR este un „pachet de modele CTR bazate pe Deep Learning, ușor de utilizat, modular și extensibil”. Include, de asemenea, numeroase alte elemente și straturi vitale care pot fi foarte utile pentru construirea de modele personalizate.

Inițial, proiectul DeepCTR a fost proiectat pe TensorFlow. În timp ce TensorFlow este un instrument lăudabil, nu este ceașca de ceai pentru toată lumea. Prin urmare, a fost creat depozitul DeepCTR-Torch. Noua versiune include codul complet DeepCTR în PyTorch. Puteți instala DeepCTR prin pip folosind următoarea declarație:

pip install -U deepctr-torch

Cu DeepCTR, devine ușor să utilizați orice model complex cu funcțiile model.fit() și model.predict().

8. TubeMQ

V-ați întrebat vreodată cum giganții tehnologiei și liderii din industrie își stochează, extrag și gestionează datele? Este cu ajutorul unor instrumente precum TubeMQ, sistemul de coadă de mesagerie distribuită (MQ) de la Tencent.

TubeMQ funcționează din 2013 și oferă stocare și transmisie de înaltă performanță a unor volume mari de date mari. Deoarece a acumulat peste șapte ani de stocare și transmitere a datelor, TubeMQ are avantajul asupra altor instrumente MQ. Promite performanțe excelente și stabilitate în practica de producție. În plus, are un cost relativ scăzut. Ghidul utilizatorului TubeMQ oferă documentație detaliată despre tot ce trebuie să știți despre instrument.

9. DeepPrivacy

În timp ce fiecăruia dintre noi îi place să se răsfețe în lumea digitală și a rețelelor sociale din când în când, un lucru (cu care suntem cu toții de acord) lipsește din lumea digitală este confidențialitatea. Odată ce încarci un selfie sau un videoclip online, vei fi urmărit, analizat și chiar criticat. În cel mai rău caz, videoclipurile și imaginile dvs. pot ajunge să fie manipulate.

Acesta este motivul pentru care avem nevoie de instrumente precum DeepPrivacy. Este o tehnică de anonimizare complet automată a imaginilor care folosește GAN (rețea generativă adversară) . Modelul GAN ​​al DeepPrivacy nu vede informații private sau sensibile. Cu toate acestea, poate genera o imagine complet anonimă. Poate face acest lucru studiind și analizând poziția originală a individului (indivizilor) și imaginea de fundal. DeepPrivacy folosește adnotarea casetei de delimitare pentru a identifica zona sensibilă la confidențialitate a unei imagini. În plus, folosește Mask R-CNN pentru a dispersa informațiile despre poziții ale fețelor și DSFD pentru a detecta fețele din imagine.

10. Sistemul de predicție a ratingului filmelor IMDb

Acest proiect Data Science își propune să evalueze un film chiar înainte de a fi lansat. Proiectul este împărțit în trei părți. Prima parte urmărește să analizeze datele acumulate de pe site-ul IMDb. Aceste date vor include informații precum regizori, producători, producție de distribuție, descrierea filmului, premii, genuri, buget, brut și imdb_rating. Puteți crea fișierul movie_contents.json scriind următoarea linie:

python3 parser.py nb_elements

În partea a doua a proiectului, se urmărește analiza cadrelor de date și observarea corelațiilor dintre variabile. De exemplu, dacă scorul IMDb este sau nu corelat cu numărul de premii și cu brutul mondial. Partea finală va implica utilizarea Machine Learning (Random Forest) pentru a prezice ratingul IMDb pe baza celor mai relevante variabile.

Încheierea

Acestea sunt unele dintre cele mai utile proiecte de știință a datelor de pe GitHub pe care le puteți recrea pentru a vă îmbunătăți abilitățile de știință a datelor din lumea reală. Cu cât investiți mai mult timp și efort în construirea proiectelor Data Science, cu atât veți obține mai bine la construirea modelelor.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Cum ne avantajează contribuția la proiecte open-source?

Proiectele open-source sunt acele proiecte al căror cod sursă este deschis tuturor și oricine îl poate accesa pentru a-i face modificări. Contribuția la proiecte cu sursă deschisă este foarte benefică, deoarece nu numai că vă perfecționează abilitățile, ci vă oferă și câteva proiecte mari de pus în CV. Deoarece multe companii mari trec la software open-source, va fi profitabil pentru tine dacă începi să contribui devreme. Unele dintre nume mari precum Microsoft, Google, IBM și Cisco au îmbrățișat open source într-un fel sau altul. Există o mare comunitate de dezvoltatori open-source competenți, care contribuie în mod constant la îmbunătățirea și actualizarea software-ului. Comunitatea este foarte prietenoasă pentru începători și întotdeauna gata să intensifice și să primească noi contribuitori. Există o documentație bună care vă poate ghida spre contribuția la sursa deschisă.

Ce este algoritmul HOG?

Histogram of Oriented Gradients sau HOG este un detector de obiecte utilizat în viziunea computerizată. Dacă sunteți familiarizat cu histogramele de orientare a marginilor, vă puteți raporta la HOG. Această metodă este utilizată pentru a măsura aparițiile orientărilor gradientului într-o anumită parte a unei imagini. Algoritmul HOG este, de asemenea, utilizat pentru a calcula gradienții ponderați de orientare a votului de pătrate de 16×16 pixeli, în loc să calculeze gradienții pentru fiecare pixel al unei anumite imagini. Implementarea acestui algoritm este împărțită în 5 pași care sunt: ​​calculul gradientului, binningul de orientare, blocurile descriptori, normalizarea blocurilor și recunoașterea obiectelor.

Care sunt pașii necesari pentru a construi un model ML?

Următorii pași trebuie urmați pentru a dezvolta un model ML: Primul pas este să colectați setul de date pentru modelul dvs. 80% din aceste date vor fi folosite în cadrul instruirii, iar restul de 20% vor fi folosite în testare și validare a modelului. Apoi, trebuie să selectați un algoritm potrivit pentru modelul dvs. Selectarea algoritmului depinde în totalitate de tipul problemei și de setul de date. Urmează antrenamentul modelului. Include rularea modelului pe diferite intrări și reajustarea acestuia în funcție de rezultate. Acest proces se repetă până când se obțin cele mai precise rezultate.