Örnekle Açıklanan Lineer Regresyon

Yayınlanan: 2021-10-13

Doğrusal regresyon, bir veri kümesinin değişkenleri arasında ilişkiler kurmak için en yaygın algoritmalardan biridir. Matematiksel bir model, tahmine dayalı analiz gerçekleştirmede veri bilimcileri için gerekli bir araçtır. Bu blog sizi temel kavram hakkında bilgilendirecek ve ayrıca doğrusal bir regresyon örneğini tartışacaktır.

İçindekiler

Regresyon Modelleri Nelerdir?

Bir regresyon modeli, gözlemlenen verilere bir çizgi uydurarak veri kümesi değişkenleri arasındaki ilişkiyi tanımlar. Hangi değişkenlerin en çok etkiye sahip olduğunu ve önemli olduğunu belirleyen matematiksel bir analizdir. Ayrıca, ilgili faktörler hakkında ne kadar emin olduğumuzu da belirler. İki tür değişken şunlardır:

  • Bağımlı: Tahmin etmeye veya anlamaya çalıştığınız faktör.
  • Bağımsız: Bağımlı değişken üzerinde etkisi olduğundan şüphelendiğiniz faktörler.

Bağımlı değişken nicel olduğunda regresyon modelleri kullanılır. Lojistik regresyon durumunda ikili olabilir. Ancak bu blogda, esas olarak her iki değişkenin de nicel olduğu doğrusal regresyon modeline odaklanacağız.

Son üç yıldaki aylık satışlar ve aylık ortalama yağış hakkında verileriniz olduğunu varsayalım. Diyelim ki bu bilgiyi bir çizelgeye çizdiniz. Y ekseni satış sayısını (bağımlı değişken) temsil eder ve x ekseni toplam yağış miktarını gösterir. Grafikteki her nokta, belirli bir ayda ne kadar yağmur yağdığını ve buna karşılık gelen satış rakamlarını gösterir.

Verilere bir kez daha bakarsanız, bir model fark edebilirsiniz. Yağmurun daha fazla yağdığı günlerde satışların daha yüksek olduğunu varsayalım. Ancak belirli bir miktar, örneğin 3 veya 4 inç yağmur yağdığında tipik olarak ne kadar satacağınızı tahmin etmek zor olacaktır. Grafikteki tüm veri noktalarının ortasından bir çizgi çizerseniz bir dereceye kadar kesinlik elde edebilirsiniz.

Günümüzde Excel ve SPSS, R veya STATA gibi istatistik yazılımları, eldeki verilere en uygun çizgiyi çizmenize yardımcı olabilir. Ek olarak, çizginin eğimini açıklayan bir formül de alabilirsiniz.

Yukarıdaki örnek için şu formülü göz önünde bulundurun: Y = 200 + 3X. Hiç yağmur yağmadığı zaman (yani X=0 olduğunda) 200 adet sattığınızı söyler. Değişkenlerin biz ilerledikçe aynı kaldığını varsayarsak, her ek yağmur, ortalama üç birim daha satışla sonuçlanacaktır. 1 inç yağmur yağarsa 203 birim, 2 inç yağmur yağarsa 206 birim, 3 inç yağmur yağarsa 209 inç vb. satarsınız.

Tipik olarak, regresyon çizgisi formülü bir hata terimi de içerir (Y = 200 + 3 X + hata terimi). Bağımsız tahmin edicilerin her zaman bağımlı değişkenlerin mükemmel tahmin edicileri olmayabileceği gerçeğini hesaba katar. Ve satır sadece size mevcut verilere dayalı bir tahminde bulunur. Hata terimi ne kadar büyük olursa, regresyon çizginiz o kadar az kesin olur.

Doğrusal Regresyon Temelleri

Basit bir doğrusal regresyon modeli, iki nicel değişken arasındaki ilişkiyi tahmin etmek için düz bir çizgi kullanır. Birden fazla bağımsız değişkeniniz varsa, bunun yerine çoklu doğrusal regresyon kullanacaksınız.

Basit doğrusal regresyon analizi iki şeyle ilgilenir. İlk olarak, size tarihsel verilerin bağımlı ve bağımsız faktörleri arasındaki ilişkinin gücünü söyler. İkincisi, size bağımlı değişkenin değerini, bağımsız değişkenin belirli bir değerinde verir.

Bu doğrusal regresyon örneğini düşünün. Bireylerin gelirlerinin mutluluk düzeylerini nasıl etkilediğini bilmekle ilgilenen bir sosyal araştırmacı, doğrusal bir ilişkinin olup olmadığını görmek için basit bir regresyon analizi yapar. Araştırmacı, belirli bir coğrafi konumdaki insanları inceleyerek bağımlı değişken (mutluluk) ve bağımsız değişkenin (gelir) nicel değerlerini alır.

Örneğin, veriler Hindistan'ın Maharashtra eyaletinden 500 kişiden gelir rakamlarını ve mutluluk seviyelerini (1'den 10'a kadar bir ölçekte sıralanmıştır) içerir. Araştırmacı daha sonra veri noktalarını çizecek ve yanıtlayanların kazançlarının refahlarını ne kadar etkilediğini bilmek için bir regresyon çizgisi yerleştirecektir.

Doğrusal regresyon analizi, verilerle ilgili birkaç varsayıma dayanmaktadır. Var:

  • Bağımlı ve bağımsız değişken arasındaki ilişkinin doğrusallığı, yani en iyi uyum çizgisi eğri değil düzdür.)
  • Tahmindeki hatanın boyutu anlamına gelen varyansın homojenliği, bağımsız değişkenin farklı değerleri arasında önemli ölçüde değişmez.
  • Veri kümesindeki gözlemlerin bağımsızlığı, hiçbir gizli ilişkiye atıfta bulunmaz.
  • Bağımlı değişken için veri dağılımının normalliği. Aynı şeyi R'deki hist() işlevini kullanarak da kontrol edebilirsiniz.

Lineer Regresyonun Arkasındaki Matematik

y = c + ax, y'nin çıktı (tahmin etmek istediğimiz), x'in girdi değişkeni (bildiğimiz), a'nın doğrunun eğimi ve c'nin sabit olduğu standart bir denklemdir.

Burada çıktı, girdiye bağlı olarak doğrusal olarak değişir. Eğim, x'in y değerini ne kadar etkilediğini belirler. Sabit, x sıfır olduğunda y'nin değeridir.

Bunu başka bir lineer regresyon örneği ile anlayalım. Bir otomobil şirketinde çalıştığınızı ve Hindistan'ın binek araç pazarını incelemek istediğinizi hayal edin. Ulusal GSYİH'nın binek araç satışlarını etkilediğini varsayalım. İş için daha iyi plan yapmak için, ülkede satılan araç sayısının GSYİH ile ilgili doğrusal denklemini bulmak isteyebilirsiniz.

Bunun için yıl bazında binek araç satışları için örnek verilere ve her yıl için GSYİH rakamlarına ihtiyacınız olacaktır. Mevcut yılın GSYİH'sinin gelecek yılın satışlarını etkilediğini keşfedebilirsiniz: GSYİH hangi yılda daha az olursa, sonraki yıl araç satışları daha düşüktü.

Bu verileri Makine Öğrenimi analitiğine hazırlamak için biraz daha çalışmanız gerekir.

  • Lütfen y = c + ax denklemiyle başlayın; burada y, bir yılda satılan araç sayısı ve x, önceki yılın GSYİH'sidir.
  • Yukarıdaki problemde c ve an'ı bulmak için Python kullanarak bir model oluşturabilirsiniz.

Adım adım yöntemi anlamak için bu eğiticiye göz atın

R'de basit doğrusal regresyon yapacak olsaydınız, sonuçları yorumlamak ve raporlamak çok daha kolay hale gelir.

Aynı lineer regresyon örneği için denklemi y=B0 + B1x + e olarak değiştirelim. Yine, y bağımlı değişkendir ve x, bağımsız veya bilinen değişkendir. B0 sabit veya kesme noktasıdır, B1 regresyon katsayısının eğimidir ve e tahminin hatasıdır.

R gibi istatistiksel yazılımlar, veriler aracılığıyla en uygun satırı bulabilir ve modelin toplam hatasını en aza indiren B1'i arayabilir.

Başlamak için şu adımları izleyin:

  • Binek araç satış veri kümesini R ortamına yükleyin.
  • Binek araç satışları ile GSYİH arasındaki ilişkiyi açıklayan doğrusal bir model oluşturmak için komutu çalıştırın.
    • sales.gdp.lm <- lm(gdp ~ satış, veri = satış.veri)
  • En önemli doğrusal model parametrelerini tablo biçiminde görüntülemek için özet() işlevini kullanın.
    • özet(sales.gdp.lm)

Not: Çıktı, çağrılar, Artıklar ve Katsayılar gibi sonuçları içerir. 'Çağrı' tablosu kullanılan formülü belirtir. 'Artıklar', modelin gerçek verilere ne kadar iyi uyduğunu göstermek için Medyan, Çeyrekler, minimum ve maksimum değerleri detaylandırır. 'Katsayılar' tablosunun ilk satırı y-kesişimini tahmin eder ve ikinci satır regresyon katsayısını verir. Bu tablonun sütunları Estimate, Std gibi etiketlere sahiptir. Hata, t değeri ve p değeri.

Dünyanın En İyi Üniversitelerinden Makine Öğrenimi Kursunu Öğrenin . Kariyerinizi hızlandırmak için Master, Executive PGP veya Advanced Certificate Programları kazanın.

  • GSYİH rakamları aralığında satış değerlerini tahmin etmek için (Intercept) değerini regresyon denklemine ekleyin.
  • Etkisini öğrenmek için (Tahmin) sütununu araştırın. Regresyon katsayısı, GSYİH'deki değişiklikle satışların ne kadar değiştiğini size söyleyecektir.
  • (Std. Error) etiketinden satışlar ve GSYİH arasındaki ilişki tahmininizdeki değişimi öğrenin.
  • Sonuçların tesadüfen meydana gelip gelmediğini öğrenmek için (t-değeri) altındaki test istatistiğine bakın. T-değeri ne kadar büyükse, o kadar az olasıdır.
  • Sıfır hipotezi doğruysa, GSYİH'nın satışlar üzerindeki tahmini etkisini görmek için Pr(>|t|) sütununu veya p-değerlerini gözden geçirin.
  • Sonuçlarınızı tahmini etki, standart hata ve p değerleri ile sunun, regresyon katsayısının ne anlama geldiğini açıkça belirtin.
  • Rapora bir grafik ekleyin. Basit bir lineer regresyon, regresyon çizgisi ve fonksiyonu ile bir çizim grafiği olarak gösterilebilir.
  • Gözlenen ve tahmin edilen y değerlerinin mesafesini ölçerek, her x değerindeki mesafelerin karesini alarak ve ortalamalarını hesaplayarak hatayı hesaplayın.

Çözüm

Yukarıdaki lineer regresyon örneği ile size basit bir lineer regresyon modeli oluşturma, regresyon katsayısını bulma ve tahmin hatasını hesaplama hakkında bir genel bakış verdik. Ayrıca tahmine dayalı veri analitiği ve istatistikleri için Python ve R'nin alaka düzeyine de değindik. Bu tür araçlarla ilgili pratik bilgi, günümüzde veri bilimi ve makine öğrenimi alanında kariyer yapmak için çok önemlidir.

Programlama becerilerinizi geliştirmek istiyorsanız, IIT Madras ve upGrad'ın Makine Öğreniminde Gelişmiş Sertifika Programına göz atın. Çevrimiçi kurs ayrıca, eğitim sürecine endüstri odaklılığı getirmek için vaka çalışmaları, projeler ve uzman mentorluk oturumlarını da içerir.

Makine Öğrenimi ve Yapay Zeka Alanında Kariyerinizi Geliştirin

LJMU'dan Makine Öğrenimi ve Yapay Zeka Alanında Yüksek Lisans Başvurusu için Başvurun