Makine Öğreniminde Hipotez Nedir? Hipotez Nasıl Oluşturulur?

Yayınlanan: 2021-03-12

Hipotez Testi, birçok alana uygulanabilen geniş bir konudur. İstatistikleri incelediğimizde, buradaki Hipotez Testi birden fazla popülasyondan gelen verileri içerir ve test, etkinin popülasyon üzerinde ne kadar önemli olduğunu görmektir.

Bu, p-değerinin hesaplanmasını ve onu kritik değer veya alfa ile karşılaştırmayı içerir. Makine Öğrenimi söz konusu olduğunda, Hipotez Testi, bağımsız özellikleri hedefe en iyi şekilde yaklaştıran işlevi bulmakla ilgilenir. Başka bir deyişle, girdileri çıktılarla eşleştirin.

Bu eğitimin sonunda aşağıdakileri bileceksiniz:

İstatistikte ve Makine Öğreniminde Hipotez Nedir?
Hipotez uzayı nedir?
Hipotez Oluşturma Süreci

İçindekiler

İstatistikte Hipotez

Hipotez, yanlışlanabilir bir sonucun varsayımıdır, yani bazı kanıtlarla yanlışlığı kanıtlanabilir. Bir Hipotez reddedilebilir veya reddedilemez. İstatistikte hiçbir hipotezi asla kabul etmiyoruz çünkü her şey olasılıklarla ilgili ve asla %100 kesin değiliz. Deneye başlamadan önce iki hipotez tanımlıyoruz:

1. Boş Hipotezi: önemli bir etki olmadığını söylüyor

2. Alternatif Hipotez: önemli bir etki olduğunu söylüyor

İstatistikte, (farklı istatistiksel testler kullanılarak hesaplanan) P-değerini kritik değer veya alfa ile karşılaştırırız. P değeri ne kadar büyük olursa, olasılık o kadar yüksek olur, bu da etkinin anlamlı olmadığını gösterir ve boş hipotezi reddetmediğimiz sonucuna varırız .

Başka bir deyişle, etkinin tesadüfen meydana gelme olasılığı oldukça yüksektir ve bunun istatistiksel bir önemi yoktur. Öte yandan, çok küçük bir P değeri alırsak, olasılığın küçük olduğu anlamına gelir. Bu, olayın tesadüfen meydana gelme olasılığının çok düşük olduğu anlamına gelir.

Kariyerinizi hızlandırmak için Dünyanın en iyi Üniversiteleri - Yüksek Lisanslar, Yönetici Yüksek Lisans Programları ve Makine Öğrenimi ve Yapay Zeka alanında İleri Düzey Sertifika Programından çevrimiçi olarak Makine Öğrenimi ve Yapay Zeka Kursuna katılın .

Önem Düzeyi

Önem Düzeyi, deneye başlamadan önce ayarlanır. Bu, hata toleransının ne kadar olduğunu ve etkinin hangi düzeyde anlamlı kabul edilebileceğini tanımlar. Anlamlılık düzeyi için ortak değer %95'tir, bu da teste kanma ve hata yapma olasılığımızın %5 olduğu anlamına gelir. Başka bir deyişle, kritik değer 0,05'tir ve eşik görevi görür. Benzer şekilde, anlamlılık düzeyi %99 olarak ayarlansaydı, bu %0.01'lik bir kritik değer anlamına gelirdi.

P-Değeri

Daha sonra kritik değerle karşılaştırılan P-değerini bulmak için popülasyon ve örnek üzerinde istatistiksel bir test yapılır. P-değeri kritik değerden küçük çıkarsa, etkinin anlamlı olduğu sonucuna varabiliriz ve dolayısıyla Boş Hipotezini reddedebiliriz (önemli bir etki olmadığı söylenir). P-Değeri kritik değerden daha fazla çıkarsa, anlamlı bir etki olmadığı sonucuna varabiliriz ve bu nedenle Boş Hipotezini reddedebiliriz.

Şimdi, hiçbir zaman %100 emin olamayacağımız için, testlerimizin her zaman doğru olma, ancak sonuçların yanıltıcı olma şansı vardır. Bu, aslında yanlış olmadığında boş değeri reddedeceğimiz anlamına gelir. Ayrıca, aslında yanlış olduğunda boş değeri reddetmediğimiz anlamına da gelebilir. Bunlar Hipotez Testinin tip 1 ve tip 2 hatalarıdır.

Örnek vermek

Bir aşı üreticisi için çalıştığınızı ve ekibinizin Covid-19 için aşı geliştirdiğini düşünün. Bu aşının etkinliğini kanıtlamak için, insanlar üzerinde etkili olduğunun istatistiksel olarak kanıtlanması gerekiyor. Bu nedenle, eşit büyüklükte ve özellikte iki grup insan alıyoruz. A grubuna aşı, B grubuna plasebo veriyoruz. A grubunda kaç kişinin enfekte olduğunu ve B grubunda kaç kişinin enfekte olduğunu görmek için analiz yapıyoruz.

A grubunun Covid-19'a karşı önemli bir bağışıklık geliştirip geliştirmediğini görmek için bunu defalarca test ediyoruz. Tüm bu testler için P-değerini hesaplıyoruz ve P-değerlerinin her zaman kritik değerden küçük olduğu sonucuna varıyoruz. Bu nedenle, sıfır hipotezini güvenle reddedebilir ve gerçekten önemli bir etki olduğu sonucuna varabiliriz.

Okuyun: Açıklanan Makine Öğrenimi Modelleri

Makine Öğreniminde Hipotez

Makine Öğrenimindeki Hipotez, Denetimli Makine Öğreniminde girdiyi çıktıya en iyi şekilde eşleyen işlevi bulmamız gerektiğinde kullanılır. Bu aynı zamanda fonksiyon yaklaşımı olarak da adlandırılabilir, çünkü hedefe en iyi harita özelliği gösteren bir hedef fonksiyona yaklaşıyoruz.

1. Hipotez(h): Bir Hipotez, özellikleri hedefe eşleyen tek bir model olabilir, ancak sonuç/metrikler olabilir. Bir hipotez “ h ” ile gösterilir.

2. Hipotez Uzayı(H): Bir Hipotez uzayı, verileri modellemek için kullanılabilecek tam bir modeller ve onların olası parametreleridir. “ H ” ile gösterilir. Başka bir deyişle, Hipotez, Hipotez Uzayının bir alt kümesidir.

Hipotez Oluşturma Süreci

Özünde, eğitim verilerine (bağımsız özellikler ve hedef) ve özellikleri hedefe eşleyen bir hedef işlevine sahibiz. Bunlar daha sonra, hangi konfigürasyonun en iyi sonuçları ürettiğini kontrol etmek için hiperparametre uzaylarının farklı konfigürasyon tiplerini kullanan farklı tipte algoritmalar üzerinde çalıştırılır. Eğitim verileri, hipotez uzayından en iyi hipotezi formüle etmek ve bulmak için kullanılır. Test verileri, hipotez tarafından üretilen sonuçları doğrulamak veya doğrulamak için kullanılır.

10 özellik ve bir hedef içeren 10000 örnekten oluşan bir veri kümemiz olduğu bir örneği ele alalım. Hedef ikili, yani ikili sınıflandırma problemi. Şimdi, diyelim ki bu verileri Lojistik Regresyon kullanarak modelliyoruz ve %78 doğruluk elde ediyoruz. Her iki sınıfı da ayıran regresyon doğrusunu çizebiliriz. Bu bir Hipotez(h). Daha sonra bu hipotezi test verileri üzerinde test ediyoruz ve %74 puan alıyoruz.

Şimdi yine aynı verilere bir RandomForests modeli uydurduğumuzu ve %85 doğruluk puanı aldığımızı varsayalım. Bu, Lojistik Regresyon üzerinde zaten iyi bir gelişme. Şimdi aynı veriler üzerinde daha iyi bir puan almak için RandomForests'ın hiper parametrelerini ayarlamaya karar veriyoruz. Bir grid araması yaparız ve veriler üzerinde birden fazla RandomForest modeli çalıştırır ve performanslarını kontrol ederiz. Bu adımda, daha iyi bir fonksiyon bulmak için esasen Hipotez Uzayını(H) araştırıyoruz. Grid aramasını tamamladıktan sonra en iyi skor olan %89'u alıyoruz ve aramayı sonlandırıyoruz.

Şimdi aynı veriler üzerinde performanslarını test etmek için XGBoost, Support Vector Machine ve Naive Bayes teoremi gibi daha fazla model deniyoruz. Daha sonra en iyi performans gösteren modeli seçiyor ve performansını doğrulamak ve %87 puan almak için test verileri üzerinde test ediyoruz.

Ödeme: Makine Öğrenimi Projeleri ve Konuları

Gitmeden önce

Hipotez, Makine Öğrenimi ve Veri Biliminin çok önemli bir yönüdür. Analitiğin tüm alanlarında mevcuttur ve bir değişikliğin uygulanıp uygulanmaması konusunda belirleyici faktördür. İlaç, yazılım, satış vb. olsun. Bir Hipotez, Hipotez alanından modellerin performansını kontrol etmek için tüm eğitim veri setini kapsar.

Bir Hipotez yanlışlanabilir olmalıdır, yani sonuçlar ona karşı çıkarsa, test edip yanlış olduğunu kanıtlamak mümkün olmalıdır. Modelin en iyi konfigürasyonunu arama süreci, birçok farklı konfigürasyonun doğrulanması gerektiğinde zaman alıcıdır. Hiperparametrelerin Rastgele Araması gibi teknikleri kullanarak da bu süreci hızlandırmanın yolları vardır.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka alanında Yönetici PG Programına göz atın. -B Mezunu statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Neden açık kaynaklı projeler yapmalıyız?

Açık kaynaklı projeler yapmak için birçok neden var. Yeni şeyler öğreniyorsunuz, başkalarına yardım ediyorsunuz, başkalarıyla ağ kuruyorsunuz, bir itibar yaratıyorsunuz ve daha pek çok şey. Açık kaynak eğlencelidir ve sonunda bir şeyler geri alırsınız. Bunun en önemli nedenlerinden biri, şirketlere sunabileceğiniz ve işe alınabileceğiniz harika bir çalışma portföyü oluşturmasıdır. Açık kaynak projeleri, yeni şeyler öğrenmenin harika bir yoludur. Yazılım geliştirme bilginizi geliştiriyor olabilirsiniz veya yeni bir beceri öğreniyor olabilirsiniz. Öğrenmenin öğretmekten daha iyi bir yolu yoktur.

Yeni başlayan biri olarak açık kaynağa katkıda bulunabilir miyim?

Evet. Açık kaynaklı projeler ayrımcılık yapmaz. Açık kaynak toplulukları, kod yazmayı seven insanlardan oluşur. Yeni başlayanlar için her zaman bir yer vardır. Çok şey öğrenecek ve ayrıca çeşitli açık kaynaklı projelere katılma şansına sahip olacaksınız. Neyin işe yarayıp neyin yaramadığını öğreneceksiniz ve ayrıca kodunuzu büyük bir geliştirici topluluğu tarafından kullanma şansına sahip olacaksınız. Her zaman yeni katkıda bulunanlar arayan açık kaynaklı projelerin bir listesi var.

GitHub projeleri nasıl çalışır?

GitHub, geliştiricilere projeleri yönetmenin ve birbirleriyle işbirliği yapmanın bir yolunu sunar. Ayrıca, bir projeye katkıda bulunanlar, belgeler ve yayınlar listelenerek geliştiriciler için bir tür özgeçmiş işlevi görür. Bir projeye yapılan katkılar, potansiyel işverenlere bir takımda çalışmak için gerekli beceri ve motivasyona sahip olduğunuzu gösterir. Projeler genellikle koddan daha fazlasıdır, bu nedenle GitHub'ın projenizi tıpkı bir web sitesi yapılandırır gibi yapılandırabilmeniz için bir yolu vardır. Web sitenizi bir şube ile yönetebilirsiniz. Şube, bir deney veya web sitenizin bir kopyası gibidir. Yeni bir özellik denemek veya bir şeyi düzeltmek istediğinizde, bir dal yapar ve orada deneme yaparsınız. Deneme başarılı olursa şubeyi orijinal web sitesiyle birleştirebilirsiniz.