10 Proyek Ilmu Data Teratas di Github yang Harus Anda Lakukan [2022]

Diterbitkan: 2021-01-09

Dengan Ilmu Data yang menguasai industri, ada permintaan besar akan ahli Ilmu Data yang terampil dan berkualitas. Wajar saja, persaingan di pasar saat ini sangat ketat. Dalam skenario seperti itu, pengusaha tidak hanya mencari pendidikan formal dan sertifikasi profesional, tetapi mereka juga menuntut pengalaman praktis. Dan apa yang lebih baik dari proyek Ilmu Data untuk membuktikan nilai Anda dan memamerkan keterampilan Ilmu Data dunia nyata Anda kepada calon pemberi kerja!

Jika Anda bercita-cita untuk memasuki domain Ilmu Data, cara terbaik untuk membangun portofolio Anda dari awal adalah dengan mengerjakan proyek Ilmu Data. Kami telah membuat postingan ini untuk menginspirasi Anda dalam mengembangkan proyek Ilmu Data Anda sendiri.

Karena GitHub adalah gudang ide proyek Ilmu Data yang sangat baik, berikut adalah daftar proyek Ilmu Data di GitHub yang harus Anda periksa! Untuk mendapatkan lebih banyak pengetahuan dan aplikasi praktis, lihat kursus ilmu data kami dari universitas terkemuka.

Daftar isi

10 Proyek Ilmu Data Terbaik di GitHub

1. Pengenalan Wajah

Proyek pengenalan wajah menggunakan Deep Learning dan algoritma HOG ( Histogram of Oriented Gradients ). Sistem pengenalan wajah ini dirancang untuk menemukan wajah dalam gambar (algoritma HOG), transformasi affine (menyejajarkan wajah menggunakan ansambel pohon regresi), pengkodean wajah (FaceNet), dan membuat prediksi (Linear SVM).

Menggunakan algoritme HOG, Anda akan menghitung gradien orientasi suara tertimbang dari kotak 16x16 piksel, alih-alih menghitung gradien untuk setiap piksel gambar tertentu. Ini akan menghasilkan gambar HOG yang mewakili struktur dasar wajah. Pada langkah berikutnya, Anda harus menggunakan pustaka Python dlib untuk membuat dan melihat representasi HOG untuk menemukan bagian mana dari gambar yang paling mirip dengan pola HOG yang dilatih.

2. Berbagi Sepeda Kaggle

Sistem berbagi sepeda memungkinkan Anda memesan dan menyewa sepeda/sepeda motor dan mengembalikannya juga, semuanya melalui sistem otomatis. Proyek ini lebih seperti kompetisi Kaggle di mana Anda harus menggabungkan pola penggunaan historis dengan data cuaca untuk memprediksi permintaan layanan penyewaan sepeda untuk program Capital Bikeshare di Washington, DC

Tujuan utama dari kompetisi Kaggle ini adalah untuk membuat model ML (berdasarkan fitur kontekstual secara eksplisit) yang dapat memprediksi jumlah sepeda yang disewa. Tantangan memiliki dua bagian. Sementara di bagian pertama, Anda akan fokus untuk memahami, menganalisis, dan memproses kumpulan data, bagian kedua adalah tentang mendesain model dengan menggunakan pustaka ML.

3. Analisis Teks Laporan Pemerintah Meksiko

Proyek ini adalah aplikasi NLP yang luar biasa. Pada 1 September 2019, pemerintah Meksiko merilis laporan tahunan dalam bentuk PDF. Jadi, tujuan Anda dalam proyek ini adalah mengekstrak teks dari PDF, membersihkannya, menjalankannya melalui saluran NLP, dan memvisualisasikan hasilnya menggunakan representasi grafis.

Untuk proyek ini, Anda harus menggunakan beberapa pustaka Python, termasuk:

  • PyPDF2 untuk mengekstrak teks dari file PDF.
  • SpaCy untuk meneruskan teks yang diekstraksi ke saluran NLP.
  • Panda untuk mengekstrak dan menganalisis wawasan dari kumpulan data.
  • NumPy untuk operasi matriks yang cepat.
  • Matplotlib untuk mendesain plot dan grafik.
  • Seaborn untuk meningkatkan gaya plot/grafik.
  • Geopanda untuk membuat peta.

4. ALBERT

ALBERT didasarkan pada BERT, sebuah proyek Google yang membawa perubahan radikal di bidang NLP. Ini adalah implementasi BERT yang disempurnakan, yang dirancang untuk representasi bahasa pembelajaran yang diawasi sendiri menggunakan TensorFlow.

Di BERT, model pra-pelatihan sangat besar, dan dengan demikian, menjadi sulit untuk membongkarnya, memasukkannya ke dalam model, dan menjalankannya di mesin lokal. Inilah sebabnya mengapa kebutuhan ALBERT membantu Anda mencapai kinerja mutakhir pada tolok ukur utama dengan parameter 30% lebih sedikit. Meskipun albert_base_zh hanya memiliki 10% parameter dibandingkan dengan BERT, ia masih mempertahankan akurasi asli BERT.

5. StringSifter

Jika keamanan siber menarik minat Anda, Anda akan senang mengerjakan proyek ini! Diluncurkan oleh FireEye, StringSifter adalah alat ML yang dapat secara otomatis memberi peringkat string berdasarkan relevansi analisis malware mereka.

Biasanya, program malware standar menyertakan string untuk melakukan operasi tertentu seperti membuat kunci registri, menyalin file dari satu lokasi ke lokasi lain, dan sebagainya. StringSifter adalah solusi fantastis untuk mengurangi ancaman dunia maya. Namun, Anda harus memiliki Python versi 3.6 atau lebih tinggi untuk menjalankan dan menginstal StringSifter.

6. Tiler

Mengingat fakta bahwa saat ini, Web dan platform online dibanjiri dengan gambar, ada ruang lingkup yang luas untuk bekerja dengan data gambar di industri modern. Jadi, bayangkan jika Anda dapat membuat proyek berorientasi gambar, itu akan menjadi aset yang sangat berharga bagi banyak orang.

Tiler adalah alat gambar yang memungkinkan Anda membuat gambar unik dengan menggabungkan berbagai jenis gambar yang lebih kecil atau "ubin". Menurut deskripsi GitHub Tiler, Anda dapat membuat gambar "garis, gelombang, di luar lingkaran, jahitan silang, blok Minecraft, lego, huruf, klip kertas," dan banyak lagi. Dengan Tiler, Anda akan memiliki kemungkinan tak terbatas untuk membuat kreasi gambar yang inovatif.

7. RKT Dalam

DeepCTR adalah “paket model CTR berbasis Deep Learning yang mudah digunakan, modular, dan dapat diperluas.” Ini juga mencakup banyak elemen dan lapisan penting lainnya yang bisa sangat berguna untuk membangun model yang disesuaikan.

Awalnya, proyek DeepCTR dirancang di TensorFlow. Meskipun TensorFlow adalah alat yang terpuji, ini bukan pilihan semua orang. Oleh karena itu, repositori DeepCTR-Torch telah dibuat. Versi baru menyertakan kode DeepCTR lengkap di PyTorch. Anda dapat menginstal DeepCTR melalui pip menggunakan pernyataan berikut:

pip install -U deepctr-torch

Dengan DeepCTR, menjadi mudah untuk menggunakan model kompleks apa pun dengan fungsi model.fit() dan model.predict().

8. TubeMQ

Pernah bertanya-tanya bagaimana raksasa teknologi dan pemimpin industri menyimpan, mengekstrak, dan mengelola data mereka? Itu dengan bantuan alat seperti TubeMQ, open-source, sistem antrian pesan terdistribusi (MQ) Tencent.

TubeMQ telah berfungsi sejak 2013, dan memberikan penyimpanan dan transmisi data besar dengan volume besar. Karena telah mengumpulkan lebih dari tujuh tahun penyimpanan dan transmisi data, TubeMQ memiliki keunggulan atas alat MQ lainnya. Ini menjanjikan kinerja dan stabilitas yang sangat baik dalam praktik produksi. Plus, itu datang dengan biaya yang relatif rendah. Panduan pengguna TubeMQ menyediakan dokumentasi terperinci tentang semua yang perlu Anda ketahui tentang alat ini.

9. Privasi Dalam

Sementara masing-masing dari kita suka menikmati dunia digital dan media sosial dari waktu ke waktu, satu hal (yang kita semua setuju) kurang dari dunia digital adalah privasi. Setelah Anda mengunggah selfie atau video online, Anda akan ditonton, dianalisis, dan bahkan dikritik. Dalam skenario terburuk, video dan gambar Anda mungkin akan dimanipulasi.

Inilah mengapa kami membutuhkan alat seperti DeepPrivacy. Ini adalah teknik anonimisasi otomatis untuk gambar yang memanfaatkan GAN (generative adversarial network) . Model GAN ​​DeepPrivacy tidak melihat informasi pribadi atau sensitif apa pun. Namun, itu dapat menghasilkan gambar yang sepenuhnya anonim. Hal ini dapat dilakukan dengan mempelajari dan menganalisis pose asli individu dan gambar latar belakang. DeepPrivacy menggunakan anotasi kotak pembatas untuk mengidentifikasi area sensitif privasi dari suatu gambar. Selanjutnya menggunakan Mask R-CNN untuk mengurai informasi pose wajah dan DSFD untuk mendeteksi wajah dalam gambar.

10. Sistem Prediksi Rating Film IMDb

Proyek Ilmu Data ini bertujuan untuk menilai film bahkan sebelum dirilis. Proyek ini dibagi menjadi tiga bagian. Bagian pertama berupaya mengurai data yang terkumpul dari situs IMDb. Data ini akan mencakup informasi seperti sutradara, produser, produksi casting, deskripsi film, penghargaan, genre, anggaran, kotor, dan imdb_rating. Anda dapat membuat file movie_contents.json dengan menulis baris berikut:

python3 parser.py nb_elements

Di bagian kedua proyek, tujuannya adalah untuk menganalisis kerangka data dan mengamati korelasi antar variabel. Misalnya, apakah skor IMDb berkorelasi dengan jumlah penghargaan dan pendapatan kotor dunia atau tidak. Bagian terakhir akan melibatkan penggunaan Machine Learning (Random Forest) untuk memprediksi peringkat IMDb berdasarkan variabel yang paling relevan.

Membungkus

Ini adalah beberapa proyek Ilmu Data paling berguna di GitHub yang dapat Anda buat ulang untuk mempertajam keterampilan Ilmu Data dunia nyata Anda. Semakin banyak waktu dan upaya yang Anda investasikan dalam membangun proyek Ilmu Data, semakin baik yang akan Anda dapatkan dalam pembuatan model.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Bagaimana kontribusi ke proyek sumber terbuka bermanfaat bagi kita?

Proyek sumber terbuka adalah proyek yang kode sumbernya terbuka untuk semua dan siapa pun dapat mengaksesnya untuk membuat modifikasi. Berkontribusi pada proyek sumber terbuka sangat bermanfaat karena tidak hanya mempertajam keterampilan Anda, tetapi juga memberi Anda beberapa proyek besar untuk dimasukkan ke dalam resume Anda. Karena banyak perusahaan besar beralih ke perangkat lunak sumber terbuka, akan menguntungkan bagi Anda jika Anda mulai berkontribusi lebih awal. Beberapa nama besar seperti Microsoft, Google, IBM, dan Cisco telah menganut open source dengan satu atau lain cara. Ada komunitas besar pengembang sumber terbuka yang mahir di luar sana yang terus-menerus berkontribusi untuk membuat perangkat lunak lebih baik dan diperbarui. Komunitas ini sangat ramah bagi pemula dan selalu siap untuk melangkah dan menyambut kontributor baru. Ada dokumentasi bagus yang dapat memandu cara Anda berkontribusi pada open source.

Apa itu algoritma HOG?

Histogram of Oriented Gradients atau HOG adalah pendeteksi objek yang digunakan dalam computer vision. Jika Anda sudah familiar dengan histogram orientasi tepi, Anda dapat berhubungan dengan HOG. Metode ini digunakan untuk mengukur kemunculan orientasi gradien pada bagian tertentu dari suatu citra. Algoritma HOG juga digunakan untuk menghitung gradien orientasi suara tertimbang dari kotak 16x16 piksel, alih-alih menghitung gradien untuk setiap piksel dari gambar tertentu. Implementasi algoritma ini dibagi menjadi 5 langkah yaitu- komputasi gradien, orientasi binning, blok deskriptor, normalisasi blok, dan pengenalan objek.

Apa saja langkah-langkah yang diperlukan untuk membangun model ML?

Langkah-langkah berikut harus diikuti untuk mengembangkan model ML: Langkah pertama adalah mengumpulkan kumpulan data untuk model Anda. 80% dari data ini akan digunakan dalam pelatihan dan sisanya 20% akan digunakan dalam pengujian dan validasi model. Kemudian, Anda perlu memilih algoritme yang sesuai untuk model Anda. Pemilihan algoritme sepenuhnya tergantung pada jenis masalah dan kumpulan data. Selanjutnya adalah pelatihan model. Ini termasuk menjalankan model terhadap berbagai input dan menyesuaikannya kembali sesuai dengan hasil. Proses ini diulang sampai hasil yang paling akurat tercapai.