Çoklu Regresyon Analizi Nasıl Yapılır?
Yayınlanan: 2021-11-23İstatistiksel analizde, regresyon modelleri çoğunlukla, dikkate alınan değişkenler arasındaki ilişkileri geliştirmek için gerektiğinde kullanılır. İlişki, tüm değişkenler arasına bir çizgi sığdırılarak kurulur. Bağımlı değişkenin davranışını anlamak için regresyon modelleri kullanılır. Bağımsız değişkenlerin değişmesiyle bağımlı değişkenlerin nasıl değiştiğini kullanıcıya bildirirler.
Çoklu doğrusal regresyon, bu değişkenler, yani bağımlı ve bağımsız değişkenler arasındaki ilişkiyi tahmin etmemize yardımcı olan bu tür bir tekniktir. Bu makale, çoklu doğrusal regresyon tekniğine ve nasıl gerçekleştirildiğine odaklanacaktır.
İçindekiler
Çoklu Doğrusal Regresyon
Çoklu doğrusal regresyon, herhangi bir yanıt değişkeninin sonuçlarını tahmin etmek için kullanılan bir istatistiksel teknik biçimidir. Tekniğin amaçlarından biri, bağımsız ve bağımlı değişkenler arasında doğrusal bir ilişki kurmaktır. Çoklu doğrusal regresyon analizi , birden fazla gözlem biçimini içeren çok değişkenli bir analiz biçimidir.
Aşağıdaki şeyler hakkında bilgi edinmek istiyorsanız, çoğunlukla teknik gerçekleştirilebilir:
- Değişkenler arasındaki ilişkinin ne kadar güçlü olduğunu anlamak. Ayrıca, bağımsız ve bağımlı değişkenler arasındaki ilişkiyi anlamak istiyorsanız, o zaman bu durumlarda çoklu doğrusal regresyon tekniğini kullanabiliriz.
- Teknik, bağımsız değişkenlere karşılık gelen bağımlı değişkenlerin değerini tahmin etmek için kullanılabilir.
Çoklu Doğrusal Regresyonlarda Dikkate Alınan Varsayımlar
Çoklu doğrusal regresyon tekniklerinde belirli varsayımlar dikkate alınır. MLR için listelenen bazı varsayımlar şunlardır:
1. Varyansın homojenliği
Aynı zamanda homoskedastisite olarak da bilinir. Bu, bir sonucu tahmin ederken, bağımsız değişkenlerin değerleri aracılığıyla sonucun tahmin edilmesiyle ilişkili hatada önemli bir değişiklik olmadığı anlamına gelir. Yöntem, hata miktarının MLR modeli boyunca aynı olduğunu varsayar. Analist, tahmin edilen değerlere göre standartlaştırılmış artıkları çizmelidir. Bu, bağımsız değişkenler arasında adil bir puan dağılımı olup olmadığını belirlemeye yardımcı olur. Verileri çizmek için bir dağılım grafiği kullanılabilir.
2. Gözlemlerin bağımsızlığı
Çoklu Doğrusal Regresyonda ele alınan gözlemler, geçerli istatistiksel tekniklerle toplanır. Bu, toplanan değişkenler arasında gizli veya mevcut bir ilişki olmadığı anlamına gelir. Bazen bu teknikte bazı değişkenlerin diğer değişkenlerle ilişkilendirildiği senaryolar vardır. Bu nedenle, regresyon modelini geliştirmeden önce, bu ilişkili değişkenleri kontrol etmek her zaman önemlidir. Değişkenlerden birinin model geliştirmeden çıkarılması, yüksek korelasyon gösteren değişkenler için her zaman daha iyidir.
3. Bağımsız değişkenler arasında ilişki yoktur
Bir başka deyişle verilerde çoklu doğrusal bağlantı olmaması gerektiği söylenebilir. Herhangi bir çoklu bağlantı varsa, analist bağımlı değişken varyansına katkıda bulunan değişkeni tanımlamayı zor bulacaktır. Bu nedenle varsayımı test etmek için en iyi olduğu düşünülen yöntemlerden biri de değişim enflasyon faktörü yöntemidir.
4. Normallik:
Bu, veri setinin normal dağılıma uyduğu anlamına gelir.
5. Doğrusallık
Değişkenler arasındaki ilişki aranırken değişkenler arasına düz bir çizgi getirilmeye çalışılır. Bağımsız değişkenler ile bağımlı değişkenler arasında doğrusal bir ilişkinin varlığı yaygın olarak kabul edilmektedir. Doğrusal ilişkiyi kontrol etmenin bir yolu, dağılım grafiklerinin oluşturulması ve ardından dağılım grafiklerinin görselleştirilmesidir. Kullanıcının gözlemlerde var olan doğrusallığı gözlemlemesini sağlar. Doğrusal bir ilişki yoksa, analistin analizini tekrar etmesi gerekir. MLR'yi gerçekleştirmek için SPSS gibi istatistiksel yazılımlar kullanılabilir.
Çoklu Doğrusal Regresyonun Matematiksel Temsili
Çoklu Doğrusal Regresyon modelinin matematiksel resmi aşağıdaki denklemde gösterilmektedir:
Yukarıdaki denklemde,
- Y çıktı değişkenini temsil eder,
- X giriş değişkenlerini temsil eder,
- Β, her terimle ilişkili katsayıyı temsil eder.
- B0, y-kesişiminin değeridir; bu, diğer tüm öngörücüler olmadığında Y'nin değeri anlamına gelir.
Bazen MLR denklemi, denklemdeki terimlerin sonunda “e” terimi ile temsil edilen bir hata teriminden oluşur.
Doğruya en uygun olanı bulurken , aşağıdakileri hesaplamak için MLR denklemi kullanılır:
- MLR denkleminde en ufak bir hataya neden olan regresyon katsayılarının hesaplanması.
- Genel model için denklem, t-istatistik değerini hesaplar.
- Modelin P değeri.
Sıradan en küçük kareler
Çoklu Doğrusal Regresyon yöntemi, Sıradan En Küçük Kareler (OLS) olarak da bilinir. Bunun nedeni, MLR yönteminin en küçük kareler toplamını bulmaya çalışmasıdır. Bu nedenle, OLS yöntemi olarak da bilinir. Bu yöntemleri uygulamak için programlama dili python kullanılabilir. Python'da OLS yöntemini uygulayabilen iki yöntem şunlardır:
1. SciKit Öğrenin
Bu, bir python programlama dilinde mevcut bir pakettir. Doğrusal regresyon modülleri, Scikit Learn paketinden içe aktarılacaktır. Model daha sonra verilerle donatılır. Basit bir yöntemdir ve yaygın olarak kullanılabilir.
2. İstatistik Modelleri
Python programlama dilinde kullanılan diğer yöntemlerden biri de Statsmodels paketidir. Bu paket, OLS tekniklerinin uygulanmasına yardımcı olabilir.
Çoklu Doğrusal Regresyon Örnekleri
MLR için birkaç örnek aşağıda listelenmiştir:
- Çoklu Doğrusal Regresyon modeli , mahsul verimlerinin tahmini için kullanılabilir. Bunun nedeni, MLR'de bağımlı ve bağımsız değişkenler arasında bir ilişki olmasıdır. Bu tür çalışmalarda iklim faktörleri, yağış miktarı, gübre seviyesi ve sıcaklık gibi ek faktörler dikkate alınabilir.
- Yapılan bir çalışmanın saat sayısı ile sınıf not ortalaması arasında bir bağlantı kurulması gerekiyorsa, MLR yöntemi kullanılabilir. Bu gibi durumlarda genel not ortalaması bağımlı değişken olurken, çalışma saatleri gibi diğer değişken açıklayıcı değişken olacaktır.
- MLR tekniği, bir şirkette yöneticinin maaşını, yöneticilerin deneyimine ve yaşına göre belirlemek için kullanılabilir. Bu gibi durumlarda maaş bağımlı değişken olurken, yaş ve deneyim bağımsız değişken olacaktır.
MLR'nin iş akışı
Veriler, regresyon modeline girmeden önce hazırlanmalı ve analiz edilmelidir. Veriler çoğunlukla herhangi bir hata, aykırı değer, eksik değer vb. olup olmadığı açısından analiz edilir. Burada, çoklu doğrusal regresyon tekniklerini nasıl uygulayacağınızı veya uygulayacağınızı göstermek için birkaç adım listelenmiştir.
1. Değişkenleri seçmek
MLR, yanıt değişkeni ile en fazla ilişkiye sahip olan tahmin değerlerini içeren bir veri kümesine sahip olmayı gerektirir. Bu, maksimum bilginin minimum sayıda değişkenden çıkarılması gerektiği anlamına gelir. Değişkenlerin seçimi aşağıdaki süreçlerden yapılabilir.
- Değişkenleri aramak için otomatik bir prosedür seçilebilir. MLR çalışması için en iyi değişkenlere karar vermek için araçlar, R ve Python'un programlama paketleri ile birlikte kullanılabilir.
- Tüm olası regresyon, herhangi bir bağımsız değişkenin herhangi bir alt bölümünün varlığını kontrol etmek için seçilebilir.
- En iyi değişkenleri analiz etmek için R2 değeri dikkate alınabilir. Daha büyük bir R2 değerine sahip olan değişkenler, modele en uygun olarak kabul edilir. R2'nin değerleri 0 ve 1 sayılarından biri olabilir. 0 değeri, bağımsız değişkenlerin hiçbirinin bağımlı değişkenlerin sonucunu tahmin edemediğini gösterir. 1 değeri, bağımsız değişkenler tarafından ve hatasız tahmin anlamına gelir.
- Tahmini kareler toplamı (PRESSp) olan başka bir terim daha vardır. MLR modeli daha küçük bir PRESSp'ye sahipse, modelin daha iyi tahmin gücüne sahip olduğu kabul edilir.
2. Model iyileştirme
MLR modeli, aşağıdaki kriterlerin incelenmesi yoluyla geliştirilebilir:
- Global F testinin değeri. Bu, bağımlı değişkenin sonucunu bağımsız değişken tarafından tahmin etmenin önemini test etmek için kullanılır.
- Parametreler ve numune boyutu ayarlandıktan sonra tüm numunenin varyasyonunu kontrol etmek için ayarlanmış R2. Terimin daha büyük değeri, değişkenlerin verilere daha iyi uyduğunu gösterir.
- Rastgele hatalar için standart sapmayı tahmin etmek için ortalama kare sapma veya RMSE kullanılır.
- Varyasyon Katsayısı değerinin %10 veya daha az olması durumunda MLR modelinin doğru tahminler verdiği kabul edilir.
3. Model varsayımlarını test etme
Dikkate alınan varsayımlar, doğrusal regresyon modelinde test edilir. Bu varsayımlar karşılanmalıdır.
4. Modelle ilgili sorunların ele alınması
Modelde dikkate alınan bazı varsayımların ihlal edildiği durumlarda bu tür sorunları en aza indirecek adımlar atılmalıdır.
5. Model doğrulama
Bu, MLR model neslinin son adımıdır ve önemli bir adım olarak kabul edilir. Model oluşturulduktan sonra modelin doğrulanması gerekir. Doğrulandıktan sonra herhangi bir Çoklu Doğrusal Regresyon analizi için kullanılabilir .
Çözüm
Çoklu Doğrusal Regresyon, herhangi bir araştırma çalışmasında değişkenler arasındaki korelasyonu kurmak için en yaygın kullanılan tekniklerden biridir. Ayrıca makine öğrenimi dünyasında önemli bir algoritma olarak kabul edilir. Ancak, regresyon analizinde yeniyseniz, regresyon modelleri ve basit doğrusal regresyonlar hakkında bir fikir edinmek her zaman daha iyidir.
Dünyanın En İyi Üniversitelerinden Makine Öğrenimi Kursları Alın. Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.