Github'da Uygulamanız Gereken En İyi 10 Veri Bilimi Projesi [2022]

Yayınlanan: 2021-01-09

Veri Bilimi endüstriyi kasıp kavururken, yetenekli ve nitelikli Veri Bilimi uzmanları için büyük bir talep var. Doğal olarak, mevcut pazardaki rekabet şiddetlidir. Böyle bir senaryoda, işverenler sadece örgün eğitim ve mesleki sertifikalar aramazlar, aynı zamanda pratik deneyim de talep ederler. Ve değerinizi kanıtlamak ve gerçek dünyadaki Veri Bilimi becerilerinizi potansiyel işverenlere sergilemek için Veri Bilimi projelerinden daha iyi ne olabilir!

Veri Bilimi alanına girmek istiyorsanız, portföyünüzü sıfırdan oluşturmanın en iyi yolu Veri Bilimi projeleri üzerinde çalışmaktır. Bu gönderiyi, kendi Veri Bilimi projelerinizi geliştirmeniz için size ilham vermek için oluşturduk.

GitHub, Veri Bilimi proje fikirleri için mükemmel bir havuz olduğundan, GitHub'da göz atmanız gereken Veri Bilimi projelerinin bir listesi burada! Daha fazla bilgi ve pratik uygulama elde etmek için en iyi üniversitelerden veri bilimi kurslarımıza göz atın.

İçindekiler

GitHub'da En İyi 10 Veri Bilimi Projesi

1. Yüz Tanıma

Yüz tanıma projesi, Derin Öğrenme ve HOG ( Histogram of Oriented Gradients ) algoritmasını kullanır. Bu yüz tanıma sistemi, bir görüntüdeki yüzleri bulmak (HOG algoritması), afin dönüşümleri (bir regresyon ağaçları topluluğu kullanarak yüzleri hizalamak), yüz kodlaması (FaceNet) ve tahminler yapmak (Linear SVM) için tasarlanmıştır.

HOG algoritmasını kullanarak, belirli bir görüntünün her pikseli için gradyan hesaplamak yerine, 16×16 piksel karelerin ağırlıklı oy yönelim gradyanlarını hesaplayacaksınız. Bu, bir yüzün temel yapısını temsil eden bir HOG görüntüsü oluşturacaktır. Bir sonraki adımda, görüntünün hangi bölümünün eğitimli HOG modeliyle en yakın benzerliğe sahip olduğunu bulmak için HOG temsilleri oluşturmak ve görüntülemek için dlib Python kitaplığını kullanmanız gerekir.

2. Kaggle Bisiklet Paylaşımı

Bisiklet paylaşım sistemleri, tamamen otomatik bir sistem aracılığıyla bisiklet/motosiklet rezervasyonu ve kiralamanıza ve bunları iade etmenize olanak tanır. Bu proje daha çok Washington DC'deki Capital Bikeshare programı için bisiklet kiralama hizmetleri talebini tahmin etmek için geçmiş kullanım modellerini hava durumu verileriyle birleştirmeniz gereken bir Kaggle yarışmasına benziyor.

Bu Kaggle yarışmasının birincil amacı, kiralanan bisiklet sayısını tahmin edebilen bir ML modeli (açıkça bağlamsal özelliklere dayalı) oluşturmaktır. Meydan okumanın iki bölümü vardır. İlk bölümde veri kümelerini anlamaya, analiz etmeye ve işlemeye odaklanacaksınız, ikinci bölüm ise tamamen bir ML kitaplığı kullanarak modeli tasarlamakla ilgili.

3. Meksika Hükümeti Raporunun Metin Analizi

Bu proje, NLP'nin mükemmel bir uygulamasıdır. 1 Eylül 2019'da Meksika hükümeti, PDF biçiminde bir yıllık rapor yayınladı. Dolayısıyla bu projedeki amacınız, PDF'den metin çıkarmak, temizlemek, bir NLP ardışık düzeni aracılığıyla çalıştırmak ve sonuçları grafiksel temsiller kullanarak görselleştirmek olacaktır.

Bu proje için, aşağıdakiler de dahil olmak üzere birden çok Python kitaplığı kullanmanız gerekecek:

PDF dosyalarından metin çıkarmak için PyPDF2.
Ayıklanan metni bir NLP ardışık düzenine geçirmek için SpaCy.
Pandalar, veri kümelerinden içgörüler çıkarmak ve analiz etmek için.
Hızlı matris işlemleri için NumPy.
Matplotlib, arsa ve grafikler tasarlamak için.
Çizimlerin/grafiklerin stilini geliştirmek için Seaborn.
Haritaları çizmek için jeopandalar.

4. ALBERT

ALBERT, NLP alanında köklü bir değişiklik getiren bir Google projesi olan BERT'e dayanmaktadır. TensorFlow kullanarak kendi kendini denetleyen öğrenme dil temsilleri için tasarlanmış, BERT'nin gelişmiş bir uygulamasıdır.

BERT'de önceden eğitilmiş modeller çok büyüktür ve bu nedenle bunları ambalajından çıkarmak, bir modele takmak ve yerel makinelerde çalıştırmak zorlaşır. Bu nedenle ALBERT'e duyulan ihtiyaç, %30 daha az parametreyle ana kıyaslamalarda en gelişmiş performansı elde etmenize yardımcı olur. albert_base_zh, BERT ile karşılaştırıldığında yalnızca %10 parametreye sahip olsa da, yine de BERT'nin orijinal doğruluğunu korur.

5. Dize Elek

Siber güvenlik ilginizi çekiyorsa, bu proje üzerinde çalışmayı seveceksiniz! FireEye tarafından başlatılan StringSifter, kötü amaçlı yazılım analizi alaka düzeyine göre dizeleri otomatik olarak sıralayabilen bir ML aracıdır.

Genellikle, standart kötü amaçlı yazılım programları, kayıt defteri anahtarı oluşturma, dosyaları bir konumdan başka bir konuma kopyalama vb. gibi belirli işlemleri gerçekleştirmek için dizeler içerir. StringSifter, siber tehditleri azaltmak için harika bir çözümdür. Ancak, StringSifter'ı çalıştırmak ve kurmak için Python sürüm 3.6 veya üzeri olmalıdır.

6. kiremit

Bugün Web ve çevrimiçi platformların görüntülerle dolup taştığı gerçeği göz önüne alındığında, modern endüstride görüntü verileriyle çalışmak için çok geniş bir alan var. Bu nedenle, imaj odaklı bir proje yaratabileceğinizi hayal edin, bu birçokları için çok değerli bir varlık olacaktır.

Tiler, birçok farklı türde daha küçük resim veya “döşeme”yi birleştirerek benzersiz görüntüler oluşturmanıza olanak tanıyan bir görüntü aracıdır. Tiler'in GitHub açıklamasına göre, "çizgiler, dalgalar, daireler dışında, çapraz dikişler, Minecraft blokları, legolar, harfler, ataşlar" ve çok daha fazlasını oluşturabilirsiniz. Tiler ile yenilikçi görüntü yaratımları yapmak için sonsuz olanaklara sahip olacaksınız.

7. Derin TO

DeepCTR, "kullanımı kolay, modüler ve genişletilebilir bir Derin Öğrenme tabanlı CTR modelleri paketidir." Ayrıca, özelleştirilmiş modeller oluşturmak için çok kullanışlı olabilecek çok sayıda başka hayati öğe ve katman içerir.

Başlangıçta, DeepCTR projesi TensorFlow üzerinde tasarlandı. TensorFlow övgüye değer bir araç olsa da, herkesin çayı değildir. Bu nedenle, DeepCTR-Torch deposu oluşturuldu. Yeni sürüm, PyTorch'taki tüm DeepCTR kodunu içerir. DeepCTR'yi aşağıdaki ifadeyi kullanarak pip yoluyla yükleyebilirsiniz:

pip kurulumu -U deepctr-torch

DeepCTR ile, model.fit() ve model.predict() işlevleriyle herhangi bir karmaşık modeli kullanmak kolaylaşır.

8. TubeMQ

Teknoloji devlerinin ve endüstri liderlerinin verilerini nasıl depoladığını, çıkardığını ve yönettiğini hiç merak ettiniz mi? Tencent'in açık kaynaklı, dağıtılmış mesajlaşma kuyruğu (MQ) sistemi TubeMQ gibi araçların yardımıyla.

TubeMQ 2013'ten beri çalışıyor ve büyük hacimli büyük verilerin yüksek performanslı depolanması ve iletimini sağlıyor. Yedi yıldan fazla veri depolama ve iletimi biriktirdiği için TubeMQ, diğer MQ araçlarına göre üstünlüğe sahiptir. Üretim uygulamasında mükemmel performans ve istikrar vaat ediyor. Ayrıca, nispeten düşük bir maliyetle geliyor. TubeMQ kullanıcı kılavuzu, araç hakkında bilmeniz gereken her şey hakkında ayrıntılı belgeler sağlar.

9. DerinGizlilik

Her birimiz zaman zaman dijital ve sosyal medya dünyasında kendini şımartmayı severken, dijital dünyadan (hepimizin kabul ettiği) bir şey mahremiyettir. Çevrimiçi bir selfie veya video yüklediğinizde, izlenir, analiz edilir ve hatta eleştirilirsiniz. En kötü senaryolarda, videolarınız ve resimleriniz manipüle edilebilir.

Bu yüzden DeepPrivacy gibi araçlara ihtiyacımız var. GAN'dan (üretken rekabet ağı) yararlanan görüntüler için tam otomatik bir anonimleştirme tekniğidir. DeepPrivacy'nin GAN modeli, herhangi bir özel veya hassas bilgiyi görüntülemez. Ancak, tamamen anonim bir görüntü oluşturabilir. Bunu, bireyin/kişilerin orijinal pozunu ve arka plan görüntüsünü inceleyerek ve analiz ederek yapabilir. DeepPrivacy, bir görüntünün gizliliğe duyarlı alanını belirlemek için sınırlayıcı kutu ek açıklamasını kullanır. Ayrıca , yüzlerin seyrek poz bilgilerini ve görüntüdeki yüzleri algılamak için DSFD'yi kullanmak için Mask R- CNN'yi kullanır.

10. IMDb Film Puanı Tahmin Sistemi

Bu Veri Bilimi projesi, bir filmi daha vizyona girmeden derecelendirmeyi amaçlıyor. Proje üç bölüme ayrılmıştır. İlk bölüm, IMDb web sitesinden toplanan verileri ayrıştırmayı amaçlamaktadır. Bu veriler yönetmenler, yapımcılar, oyuncu seçimi, film açıklaması, ödüller, türler, bütçe, brüt ve imdb_rating gibi bilgileri içerecektir. Aşağıdaki satırı yazarak movie_contents.json dosyasını oluşturabilirsiniz:

python3 parser.py nb_elements

Projenin ikinci bölümünde amaç, veri çerçevelerini analiz etmek ve değişkenler arasındaki korelasyonları gözlemlemektir. Örneğin, IMDb puanının ödül sayısı ve dünya çapındaki brüt ile ilişkili olup olmadığı. Son kısım, en alakalı değişkenlere dayalı olarak IMDb derecelendirmesini tahmin etmek için Makine Öğrenimi (Rastgele Orman) kullanmayı içerecektir.

toparlamak

Bunlar, gerçek dünyadaki Veri Bilimi becerilerinizi geliştirmek için yeniden oluşturabileceğiniz GitHub'daki en kullanışlı Veri Bilimi projelerinden bazılarıdır. Veri Bilimi projeleri oluşturmaya ne kadar çok zaman ve çaba harcarsanız, model oluşturma konusunda o kadar iyi olursunuz.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT -B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Açık kaynak projelerine katkıda bulunmak bize nasıl fayda sağlar?

Açık kaynak projeleri, kaynak kodu herkese açık olan ve üzerinde değişiklik yapmak için herkesin erişebileceği projelerdir. Açık kaynaklı projelere katkıda bulunmak, yalnızca becerilerinizi geliştirmekle kalmayıp aynı zamanda özgeçmişinizi hazırlamanız için size bazı büyük projeler sunduğu için oldukça faydalıdır. Birçok büyük şirket açık kaynaklı yazılıma geçtiğinden, erken katkıda bulunmaya başlamanız sizin için karlı olacaktır. Microsoft, Google, IBM ve Cisco gibi büyük isimlerden bazıları bir şekilde açık kaynağı benimsedi. Yazılımı daha iyi ve güncel hale getirmek için sürekli olarak katkıda bulunan geniş bir yetkin açık kaynak geliştiricileri topluluğu var. Topluluk, yeni başlayanlar için son derece uygundur ve her zaman adım atmaya ve yeni katkıda bulunanları karşılamaya hazırdır. Açık kaynağa katkıda bulunma yolunuzu yönlendirebilecek iyi belgeler var.

HOG algoritması nedir?

Histogram of Oriented Gradients veya HOG, bilgisayar görüntülerinde kullanılan bir nesne dedektörüdür. Kenar yönlendirme histogramlarına aşina iseniz, HOG ile ilişki kurabilirsiniz. Bu yöntem, bir görüntünün belirli bir bölümünde gradyan yönelimlerinin oluşumlarını ölçmek için kullanılır. HOG algoritması ayrıca, belirli bir görüntünün her pikseli için gradyan hesaplamak yerine, 16×16 piksel karelerin ağırlıklı oy yönelim gradyanlarını hesaplamak için kullanılır. Bu algoritmanın uygulanması, gradyan hesaplama, yönlendirme gruplama, tanımlayıcı bloklar, blok normalleştirme ve nesne tanıma olmak üzere 5 adıma bölünmüştür.

Bir ML modeli oluşturmak için gereken adımlar nelerdir?

Bir ML modeli geliştirmek için aşağıdaki adımlar izlenmelidir: İlk adım, modeliniz için veri setini toplamaktır. Bu verilerin %80'i eğitimde, kalan %20'lik kısım ise test ve model doğrulamada kullanılacaktır. Ardından, modeliniz için uygun bir algoritma seçmeniz gerekir. Algoritma seçimi tamamen problem tipine ve veri setine bağlıdır. Ardından modelin eğitimi gelir. Modelin çeşitli girdilere karşı çalıştırılmasını ve sonuçlara göre yeniden ayarlanmasını içerir. Bu işlem en doğru sonuçlara ulaşılana kadar tekrarlanır.