Her Veri Bilimcisinin Sahip Olması Gereken Nihai Veri Bilimi Hile Sayfası

Yayınlanan: 2021-01-29

Gelişmekte olan veri bilimi dünyasına dalmayı düşünen tüm tomurcuklanan profesyoneller ve yeni başlayanlar için, bu alanın altını çizen temel bilgiler ve metodolojiler hakkında bilgi sahibi olmanız için hızlı bir kopya sayfası hazırladık.

İçindekiler

Veri Bilimi-Temel Bilgiler

Dünyamızda üretilen veriler ham formdadır, yani sayılar, kodlar, kelimeler, cümleler vb. .

Veri

Veri biliminin ilkelerine dalmadan önce, biraz veri, türleri ve veri işleme hakkında konuşalım.

Veri Türleri

Yapılandırılmış – Veritabanlarında tablo biçiminde depolanan veriler. Sayısal veya metin olabilir

Yapılandırılmamış - Herhangi bir kesin yapıyla tablolaştırılamayan verilere yapılandırılmamış veriler denir.

Yarı yapılandırılmış - Hem yapılandırılmış hem de yapılandırılmamış verilerin özelliklerine sahip karma veriler

Nicel – Nicelleştirilebilen kesin sayısal değerlere sahip veriler

Büyük Veri – Birden çok bilgisayarı veya sunucu grubunu kapsayan devasa veritabanlarında depolanan verilere Büyük Veri denir. Biyometrik veriler, sosyal medya verileri vb. Büyük Veri olarak kabul edilir. Büyük veri 4 V ile karakterize edilir

Veri Ön İşleme

Veri Sınıflandırma – Verileri sayısal, metinsel veya resim, metin, video vb. gibi sınıflara ayırma veya etiketleme işlemidir.

Veri Temizleme – Eksik/tutarsız/uyumsuz verilerin ayıklanmasından veya aşağıdaki yöntemlerden biri kullanılarak verilerin değiştirilmesinden oluşur.

  1. İnterpolasyon
  2. buluşsal
  3. Rastgele atama
  4. En Yakın Komşu

Veri Maskeleme – Hala işlenebilirken hassas bilgilerin gizliliğini korumak için gizli verileri gizleme veya maskeleme.

Veri Bilimi Nelerden Yapılmıştır?

İstatistik Kavramları

regresyon

Doğrusal Regresyon

Lineer Regresyon, arz ve talep, fiyat ve tüketim vb. gibi iki değişken arasında bir ilişki kurmak için kullanılır. Bir x değişkenini başka bir y değişkeninin lineer fonksiyonu olarak aşağıdaki gibi ilişkilendirir.

Y = f(x) veya Y =mx + c, burada m = katsayı

Lojistik regresyon

Lojistik regresyon, değişkenler arasında doğrusal bir ilişkiden ziyade olasılıksal bir ilişki kurar. Ortaya çıkan cevap ya 0 ya da 1'dir ve olasılıkları ararız ve eğri S şeklindedir.

p < 0,5 ise, 0 başka 1

formül:

Y = e^ (b0 + b1x) / (1 + e^ (b0 +b1x))

burada b0 = yanlılık ve b1 = katsayı

olasılık

Olasılık, bir olayın meydana gelme olasılığını tahmin etmeye yardımcı olur. Bazı terminolojiler:

Örnek: Olası sonuçlar kümesi

Olay: Örnek uzayın bir alt kümesidir.

Rastgele Değişken: Rastgele değişkenler, olası sonuçları bir örnek uzaydaki sayılar veya bir çizgiyle eşleştirmeye veya nicelleştirmeye yardımcı olur.

Olasılık Dağılımları

Ayrık Dağılımlar: Olasılığı bir dizi ayrık değer (tamsayı) olarak verir.

P[X=x] = p(x)

Görüntü Kaynağı

Sürekli Dağılımlar: Kesikli değerler yerine bir dizi sürekli nokta veya aralık üzerinden olasılığı verir. formül:

P[a ≤ x ≤ b] = a∫bf(x) dx, burada a, b noktalardır

Görüntü kaynağı

Korelasyon ve Kovaryans

Standart Sapma: Belirli bir veri kümesinin ortalama değerinden varyasyonu veya sapması

σ = √ {(Σi=1N ( xi – x ) ) / (N -1)}

kovaryans

Veri kümesinin ortalaması ile X ve Y rasgele değişkenlerinin sapma derecesini tanımlar.

Cov(X,Y) = σ2XY ​= E[(X−μX​)(Y−μY​)] = E[XY]−μX​μY​

korelasyon

Korelasyon, +ve veya -ve yönleriyle birlikte değişkenler arasındaki doğrusal bir ilişkinin kapsamını tanımlar.

ρXY​= σ2XY/​ σX *​ *σY​

Yapay zeka

Makinelerin bilgi edinme ve girdilere dayalı kararlar verme yeteneğine Yapay Zeka veya basitçe AI denir.

Türler

  1. Reaktif Makineler: Reaktif makine yapay zekası, en hızlı ve en iyi seçeneklere inerek önceden tanımlanmış senaryolara tepki vermeyi öğrenerek çalışır. Bellekten yoksundurlar ve tanımlanmış bir dizi parametreye sahip görevler için en iyisidirler. Son derece güvenilir ve tutarlı.
  2. Sınırlı Bellek: Bu AI, kendisine beslenen bazı gerçek dünya gözlemsel ve eski verilere sahiptir. Verilen verilere göre öğrenebilir ve karar verebilir ancak yeni deneyimler kazanamaz.
  3. Theory of Mind: Çevredeki varlıkların davranışlarına göre kararlar alabilen etkileşimli bir yapay zekadır.
  4. Kişisel Farkındalık: Bu yapay zeka, varlığının ve çevresinden ayrı olarak çalıştığının farkındadır. Bilişsel yetenekler geliştirebilir ve kendi eylemlerinin çevre üzerindeki etkilerini anlayabilir ve değerlendirebilir.

yapay zeka terimleri

Nöral ağlar

Sinir Ağları, bir sistemdeki veri ve bilgileri ileten bir grup veya birbirine bağlı düğümler ağıdır. NN'ler beynimizdeki nöronları taklit edecek şekilde modellenmiştir ve öğrenerek ve tahmin ederek kararlar alabilir.

Sezgisel

Sezgisel, mevcut bilgilerin düzensiz olduğu durumlarda önceki deneyimleri kullanarak yaklaşıklıklara ve tahminlere dayalı olarak hızlı bir şekilde tahminde bulunma yeteneğidir. Hızlıdır ancak doğru veya kesin değildir.

Vaka Bazlı Akıl Yürütme

Önceki problem çözme vakalarından öğrenme ve bunları kabul edilebilir bir çözüme ulaşmak için mevcut durumlarda uygulama becerisi

Doğal Dil İşleme

Basitçe, bir makinenin insan konuşmasını veya metnini doğrudan anlama ve etkileşim kurma yeteneğidir. Örneğin, bir arabada sesli komutlar

Makine öğrenme

Makine Öğrenimi, sorunları tahmin etmek ve çözmek için çeşitli modeller ve algoritmalar kullanan bir yapay zeka uygulamasıdır.

Türler

denetimli

Bu yöntem, çıktı verileriyle ilişkilendirilen girdi verilerine dayanır. Makineye bir dizi hedef değişken Y verilir ve bir optimizasyon algoritmasının denetimi altında bir dizi girdi değişkeni X aracılığıyla hedef değişkene ulaşması gerekir. Denetimli öğrenme örnekleri, Sinir Ağları, Rastgele Orman, Derin Öğrenme, Destek Vektör Makineleri vb.

denetimsiz

Bu yöntemde, girdi değişkenlerinin etiketlemesi veya ilişkisi yoktur ve algoritmalar, yeni bilgi ve anlayışlarla sonuçlanan kalıpları ve kümeleri bulmaya çalışır.

güçlendirilmiş

Güçlendirilmiş öğrenme, öğrenme davranışını keskinleştirmek veya cilalamak için doğaçlama tekniklerine odaklanır. Makinenin bir hedef ödül kazanmak için tekniklerini kademeli olarak geliştirdiği ödüle dayalı bir yöntemdir.

Modelleme Yöntemleri

regresyon

Regresyon modelleri, sürekli verilerin enterpolasyonu veya ekstrapolasyonu yoluyla her zaman çıktı olarak sayılar verir.

sınıflandırma

Sınıflandırma modelleri, çıktıları sınıf veya etiket olarak verir ve 'ne tür' gibi ayrık sonuçları tahmin etmede daha iyidir.

Hem regresyon hem de sınıflandırma denetimli modellerdir.

kümeleme

Kümeleme, özelliklere, niteliklere, özelliklere vb. dayalı olarak kümeleri tanımlayan denetimsiz bir modeldir.

ML Algoritmaları

Karar ağaçları

Karar ağaçları, sonucun 'Evet' veya 'Hayır' gibi iki olası seçenekten biri olacağı şekilde her aşamada ardışık sorulara dayalı bir çözüme ulaşmak için ikili bir yaklaşım kullanır. Karar ağaçlarının uygulanması ve yorumlanması basittir.

Rastgele Orman veya Torbalama

Random Forest, karar ağaçlarının gelişmiş bir algoritmasıdır. Yapıyı bir orman gibi yoğun ve karmaşık hale getiren çok sayıda karar ağacı kullanır. Birden fazla sonuç üretir ve böylece daha doğru sonuçlara ve performansa yol açar.

K- En Yakın Komşu (KNN)

kNN, hangi kategoriye girdiğini tahmin etmek için bir grafik üzerindeki en yakın veri noktalarının yeni bir veri noktasına göre yakınlığını kullanır. Yeni veri noktası, daha fazla sayıda komşuya sahip kategoriye atanır.

k = en yakın komşu sayısı

Naif bayanlar

Naive Bayes iki sütun üzerinde çalışır; birincisi, veri noktalarının her özelliğinin bağımsız, birbiriyle ilişkisiz, yani benzersiz olması ve ikincisi, bir koşul veya hipoteze dayalı olarak sonuçları tahmin eden Bayes teoremi üzerinde çalışır.

Bayes teoremi:

P(X|Y) = {P(Y|X) * P(X)} / P(Y)

Burada P(X|Y) = X'in koşullu olasılığı, verilen Y'nin oluşumu

P(Y|X) = X'in ortaya çıkması durumunda Y'nin koşullu olasılığı

P(X), P(Y) = X ve Y'nin ayrı ayrı olasılığı

Vektör makineleri desteklemek

Bu algoritma, bir çizgi veya bir düzlem olabilen sınırlara dayalı olarak uzaydaki verileri ayırmaya çalışır. Bu sınıra "hiper düzlem" adı verilir ve her sınıfın en yakın veri noktaları tarafından tanımlanır ve bu sınır "destek vektörleri" olarak adlandırılır. Her iki tarafın destek vektörleri arasındaki maksimum mesafeye kenar boşluğu denir.

Nöral ağlar

Algılayıcı

Temel sinir ağı, bir eşik değerine dayalı olarak ağırlıklı girdi ve çıktılar alarak çalışır.

İleri Beslemeli Sinir Ağı

FFN, verileri yalnızca bir yönde ileten en basit ağdır. Gizli katmanlara sahip olabilir veya olmayabilir.

Evrişimli Sinir Ağları

CNN, girdi verilerinin belirli kısımlarını toplu olarak işlemek için bir evrişim katmanı ve ardından çıktıyı tamamlamak için bir havuzlama katmanı kullanır.

Tekrarlayan Sinir Ağları

RNN, 'tarihsel' verileri depolayabilen G/Ç katmanları arasında tekrarlayan birkaç katmandan oluşur. Veri akışı çift yönlüdür ve tahminleri iyileştirmek için yinelenen katmanlara beslenir.

Derin Sinir Ağları ve Derin Öğrenme

DNN, G/Ç katmanları arasında birden çok gizli katmana sahip bir ağdır. Gizli katmanlar, çıktı katmanına göndermeden önce verilere ardışık dönüşümler uygular.

'Derin Öğrenme', DNN aracılığıyla kolaylaştırılır ve çok miktarda karmaşık veriyi işleyebilir ve çoklu gizli katmanlar nedeniyle yüksek doğruluk elde edebilir

Dünyanın en iyi Üniversitelerinden veri bilimi sertifikası alın . Kariyerinizi hızlandırmak için Yönetici PG Programları, İleri Düzey Sertifika Programları veya Yüksek Lisans Programları öğrenin.

Çözüm

Veri bilimi, farklı akışlardan geçen, ancak bizim için bir devrim ve bir keşif olarak karşımıza çıkan geniş bir alandır. Veri bilimi patlıyor ve gelecekte sistemlerimizin çalışma ve hissetme şeklini değiştirecek.

Veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Veri Bilimi için en uygun programlama dili hangisidir ve neden?

Dışarıda veri bilimi için düzinelerce programlama dili var, ancak veri bilimi topluluğunun çoğunluğu, veri biliminde başarılı olmak istiyorsanız Python'un doğru seçim olduğuna inanıyor. Aşağıda bu inancı destekleyen nedenlerden bazıları verilmiştir:
1. Python, TensorFlow ve PyTorch gibi veri bilimi kavramlarıyla uğraşmayı kolaylaştıran çok çeşitli modüllere ve kitaplıklara sahiptir.
2. Geniş bir Python geliştirici topluluğu, yeni başlayanların veri bilimi yolculuklarının bir sonraki aşamasına geçmelerine sürekli olarak yardımcı olur.

3. Bu dil, okunabilirliğini artıran temiz bir sözdizimine sahip, açık ara en uygun ve yazması en kolay dillerden biridir.

Veri bilimini tamamlayan kavramlar nelerdir?

Veri Bilimi, diğer çeşitli önemli alanlar için bir şemsiye görevi gören geniş bir alandır. Veri bilimini oluşturan en belirgin kavramlar şunlardır:
İstatistik
İstatistik, veri biliminde ilerlemek için üstün olmanız gereken önemli bir kavramdır. Ayrıca bazı alt başlıkları vardır:
1. Doğrusal Regresyon
2. Olasılık
3. Olasılık Dağılımı
Yapay zeka
Makinelere bir beyin sağlayan ve girdilere dayanarak kendi kararlarını vermelerine izin veren bilim, Yapay Zeka olarak bilinir. Reaktif Makineler, Sınırlı Bellek, Zihin Teorisi ve Kişisel Farkındalık, Yapay Zeka türlerinden bazılarıdır.

Makine öğrenme
Makine Öğrenimi, sağlanan verilere dayalı olarak gelecekteki sonuçları tahmin etmek için makinelerin öğretilmesiyle ilgilenen Veri Biliminin bir diğer önemli bileşenidir. Makine öğreniminin öne çıkan üç modelleme yöntemi vardır: Kümeleme, regresyon ve Sınıflandırma.

Makine Öğrenimi türlerini tanımlayın?

Makine Öğrenimi veya basit ML, çalışma yöntemlerine göre üç ana türe sahiptir. Bu türler aşağıdaki gibidir:
1. Denetimli Öğrenme
Bu, giriş verilerinin etiketlendiği en ilkel ML türüdür. Makine, makineye soruna ilişkin bir fikir veren ve bu konuda eğitilmiş daha küçük bir veri seti ile sağlanır.
2. Denetimsiz Öğrenme
Bu türün en büyük avantajı burada verinin etiketsiz olması ve insan emeğinin yok denecek kadar az olmasıdır. Bu, modele tanıtılacak çok daha büyük veri kümelerinin kapısını açar.
3. Güçlendirilmiş Öğrenme İnsan hayatından ilham alan en gelişmiş ML türüdür. İstenen çıktılar güçlendirilirken, işe yaramaz çıktılar caydırılır.