Makine Öğrenimi İstatistikleri: Bilmeniz Gereken Her Şey
Yayınlanan: 2021-03-12İstatistik ve Olasılık, Makine Öğrenimi ve Veri Biliminin özünü oluşturur. Machine Learning'in bugün başardığını başarabildiği, bilgi işlem gücü ve optimizasyon ile birleştirilmiş istatistiksel analizdir. Olasılığın temellerinden tanımlayıcı ve çıkarımsal istatistiklere kadar, bu konular Makine Öğreniminin temelini oluşturur.
Bu eğitimin sonunda aşağıdakileri bileceksiniz:
- Olasılık Temelleri
- Olasılık Dağılımları
- Normal dağılım
- Merkezi Eğilim Ölçüleri
- Merkezi Limit Teoremi
- Standart Sapma ve Standart Hata
- Çarpıklık ve Basıklık
İçindekiler
Olasılık Temelleri
Bağımsız ve Bağımlı olaylar
A olayı ve B olayı olmak üzere 2 olayı ele alalım. A olayının gerçekleşme olasılığı B olayının gerçekleşmesine bağlı olmadığında, A ve B bağımsız olaylardır. Örneğin, 2 adil jetonunuz varsa, her iki jetonun da tura gelme olasılığı her ikisi için de 0,5 olacaktır. Dolayısıyla olaylar bağımsızdır.
Şimdi 2 siyah ve 3 kırmızı olmak üzere 5 top içeren bir kutu düşünün. İlk önce siyah bir top çekme olasılığı 2/5 olacaktır. Şimdi kalan 4 toptan bir siyah top çekme olasılığı 1/4 olacaktır. Bu durumda, ikinci kez siyah bir top çekme olasılığı, ilk seferde hangi topun çekildiğine bağlı olduğundan, iki olay bağlıdır.
Marjinal Olasılık
Diğer rastgele değişkenlerin sonuçlarından bağımsız olarak bir olayın olasılığıdır, örneğin P(A) veya P(B).
Bileşik olasılık
Aynı anda meydana gelen iki farklı olayın, yani iki (veya daha fazla) eşzamanlı olayın, örneğin P(A ve B) veya P(A, B) olasılığıdır.
Şartlı olasılık
Başka bir olayın meydana gelmesi göz önüne alındığında, bir (veya daha fazla) olayın olasılığıdır veya başka bir deyişle, ikincil bir olay B doğru olduğunda meydana gelen bir A olayının olasılığıdır. örneğin P(A verilen B) veya P(A | B).
Kariyerinizi hızlandırmak için Dünyanın en iyi Üniversiteleri - Yüksek Lisanslar, Yönetici Yüksek Lisans Programları ve Makine Öğrenimi ve Yapay Zeka alanında İleri Düzey Sertifika Programından çevrimiçi olarak ML Kursuna katılın .
Olasılık Dağılımları
Olasılık Dağılımları, bir örnek uzayda veri noktalarının dağılımını gösterir. Popülasyondan rastgele örneklendiğinde belirli veri noktalarından örnekleme olasılığını görmemize yardımcı olur. Örneğin, bir popülasyon bir okulun öğrencilerinin notlarından oluşuyorsa, olasılık dağılımında X ekseninde İşaretler ve Y ekseninde bu notlara sahip öğrencilerin sayısı olacaktır. Buna Histogram da denir . Histogram, bir Ayrık Olasılık Dağılımı türüdür . Ayrık Dağıtımın ana türleri Binom Dağılımı, Poisson Dağılımı ve Tekdüzen Dağılımıdır.
Öte yandan, sürekli değeri olan veriler için Sürekli Olasılık Dağılımı yapılır. Başka bir deyişle, yükseklik, hız, sıcaklık vb. gibi sonsuz bir değer kümesine sahip olabileceği zaman. Sürekli Olasılık Dağılımları, Veri Biliminde ve özellik önemini, veri dağılımlarını, istatistiksel testleri vb. kontrol etmek için istatistiksel analizde muazzam bir kullanıma sahiptir.
Ayrıca makine öğreniminin arkasındaki matematiği de okuyun
Normal dağılım
En iyi bilinen sürekli dağılım, Gauss dağılımı veya “Çan Eğrisi” olarak da bilinen Normal Dağılımdır.
İnsanların boylarının normal bir dağılımını düşünün. Yüksekliklerin çoğu, daha uzun olan ve bu değeri rastgele elde etme olasılığının daha düşük olduğunu gösteren sol ve sağ uçlara doğru kademeli olarak azalan orta kısımda kümelenmiştir.
Bu eğri, ortalamasında ortalanır ve uzun ve ince olabilir veya kısa ve yayılmış olabilir. İnce, örnekleyebileceğimiz daha az sayıda farklı değer olduğunu gösterir. Ve daha yayılmış bir eğri, daha geniş bir değer aralığı olduğunu gösterir. Bu yayılma, Standart Sapması ile tanımlanır .
Standart Sapma ne kadar büyük olursa, verileriniz de o kadar çok yayılacaktır. Standart Sapma, verilerin ne kadar "değiştiğini" tanımlayan Varyans adı verilen başka bir özelliğin yalnızca matematiksel bir türevidir. Ve varyans, verilerin neyle ilgili olduğudur, Varyans ise bilgidir. Fark yok, bilgi yok. Normal Dağılımın istatistiklerde çok önemli bir rolü vardır – Merkezi Limit Teoremi.
Merkezi Eğilim Ölçüleri
Merkezi Eğilim Ölçüleri, bir veri setini tek bir değer alarak özetlememizin yollarıdır. Temel olarak 3 Eğilim Ölçüsü vardır:
1. Ortalama: Ortalama , veri/özellikteki değerlerin yalnızca aritmetik ortalaması veya ortalamasıdır. Tüm değerlerin toplamının değer sayısına bölümü bize ortalamayı verir. Ortalama, genellikle herhangi bir verinin merkezini ölçmenin en yaygın yoludur, ancak bazı durumlarda yanıltıcı olabilir. Örneğin, çok sayıda aykırı değer olduğunda, ortalama aykırı değerlere doğru kaymaya başlayacak ve verilerinizin merkezi için kötü bir ölçü olacaktır.
2. Medyan : Medyan, veriler artan veya azalan sırada sıralandığında tam olarak merkezde bulunan veri noktasıdır. Veri noktalarının sayısı tek olduğunda, medyan kolayca en merkez nokta olarak seçilir. Veri noktalarının sayısı çift olduğunda, medyan, en çok 2 merkez veri noktasının ortalaması olarak hesaplanır.
3. Mod: Mod, bir veri kümesinde en sık bulunan veri noktasıdır. Mod, en sık görülen noktada sabit kalmaya devam edeceğinden, aykırı değerlere karşı en sağlam kalır.
Merkezi Limit Teoremi
İstatistiklerdeki merkezi limit teoremi, yeterince büyük bir örneklem büyüklüğü verildiğinde, örnekleme dağılımının, o değişkenin dağılımından bağımsız olarak normal bir dağılıma yaklaşacağını belirtir. Yukarıdaki ifadenin özünü sade kelimelerle getireyim.
Veriler herhangi bir dağılıma ait olabilir. Mükemmel veya çarpık normal olabilir, üstel veya (neredeyse) aklınıza gelebilecek herhangi bir dağılım olabilir. Ancak, popülasyondan tekrar tekrar örnekler alır ve ortalamalarının histogramını çizmeye devam ederseniz, sonunda tüm araçların bu yeni dağılımının Normal Dağılıma benzediğini göreceksiniz!
Özünde, verilerinizin hangi dağıtımda olduğu önemli değil, araçlarının dağılımı her zaman normal olacaktır.
Ancak CLT'yi doğru tutmak için kaç örnek gerekiyor? Başparmak kuralı, >30 olması gerektiğini söylüyor. Bu nedenle, herhangi bir dağıtımdan 30 veya daha fazla örnek alırsanız, temel dağıtım türü ne olursa olsun, ortalamalar normal olarak dağıtılacaktır.
Standart Sapma ve Standart Hata
Standart Sapma ve Standart Hata genellikle birbiriyle karıştırılır. Standart Sapma, bildiğiniz gibi, dağılımın her iki tarafındaki verilerdeki - ortalamadan düşük ve ortalamadan büyük - varyasyonu tanımlar veya ölçer. Veri noktalarınız geniş bir değer aralığına yayılmışsa standart sapma yüksek olacaktır.
Şimdi, yukarıda tartıştığımız gibi, Merkezi Limit Teoremi ile, bir popülasyondan alınan tüm örneklerin ortalamalarını çizersek, bu ortalamaların dağılımı yine normal bir dağılım olacaktır. Yani kendi standart sapması olacak, değil mi?
Bir popülasyondaki tüm örneklerin ortalamalarının standart sapmasına Standart Hata denir. Ortalamaların standart sapmasını hesaplarken Standart Hata değeri genellikle Standart Sapma'dan daha düşük olacaktır ve ortalamaların değeri, toplama nedeniyle bireysel veri noktalarından daha az yayılmış olacaktır.
Medyanların standart sapmasını, modu ve hatta standart sapmaların standart sapmasını bile hesaplayabilirsiniz!
Gitmeden önce
İstatistiksel kavramlar, Veri Bilimi ve ML'nin gerçek özünü oluşturur. Geçerli kesintiler yapabilmek ve eldeki verileri etkili bir şekilde anlayabilmek için, bu öğreticide tartışılan istatistiksel ve olasılık kavramlarını sağlam bir şekilde anlamanız gerekir.
upGrad, Makine Öğrenimi ve Yapay Zeka alanında bir Yönetici PG Programı ve Makine Öğrenimi ve Yapay Zeka alanında size bir kariyer inşa etme yolunda rehberlik edebilecek bir Yüksek Lisans Programı sunar. Bu kurslar, Makine Öğrenimi ihtiyacını ve Gradient Descent'den Makine Öğrenimi'ne kadar değişen çeşitli kavramları kapsayan bu alanda bilgi toplamak için sonraki adımları açıklayacaktır.
Makine öğreniminde başarılı olmak için istatistik bilgisi zorunlu mu?
İstatistik çok geniş bir alandır. Makine öğreniminde istatistikler temel olarak verilerin derinlemesine anlaşılmasına yardımcı olur. Çeşitli makine öğrenimi algoritmalarında olasılık, veri yorumlama vb. gibi bazı istatistiksel kavramlara ihtiyaç vardır. Ancak, makine öğreniminde başarılı olmak için tüm istatistik konularında uzman olmanız gerekmez. Sadece temel kavramları bilerek, verimli bir şekilde performans gösterebileceksiniz.
Bazı kodlamaları önceden bilmek makine öğreniminde yardımcı olur mu?
Kodlama, makine öğreniminin kalbidir ve nasıl kodlanacağını iyi anlayan programcılar, algoritmaların nasıl çalıştığını derinlemesine anlayacak ve böylece bu algoritmaları daha etkin bir şekilde izleyip optimize edebilecektir. Herhangi bir ön bilgi faydalı olsa da, herhangi bir programlama dilinde uzman olmanıza gerek yoktur. Yeni başlayan biriyseniz, öğrenmesi basit ve kullanıcı dostu bir sözdizimine sahip olduğundan Python iyi bir seçimdir.
Günlük hayatta matematiği nasıl kullanırız?
Hava durumu tahminleri, rüzgar hızı, nem içeriği ve sıcaklık gibi yalnızca matematik kullanılarak hesaplanabilen bir dizi değişkene dayanır. Kalkülüsün kullanımı havacılık mühendisliğinde de çeşitli şekillerde görülebilir. Calculus, araçların güvenliğini iyileştirmek ve sağlamak için araç endüstrileri tarafından da kullanılmaktadır. Kredi kartı şirketleri tarafından da ödeme amaçlı kullanılmaktadır.