Scikit kullanarak Doğrusal Regresyon hakkında her şey

Yayınlanan: 2022-09-08

Uygulamada, iki temel denetimli makine öğrenimi algoritması vardır: 1. Sınıflandırma ve 2. Regresyon — Sınıflandırma, ayrı çıktıları tahmin etmek için kullanılırken, sürekli değer çıktısını tahmin etmek için regresyon kullanılır.

Cebirde doğrusallık, çoklu değişkenler arasında düz veya doğrusal bir ilişkiyi ifade eder. Bu ilişkinin gerçek bir temsili düz bir çizgi olacaktır.

Dünyanın En İyi Üniversitelerinden Makine Öğrenimi Kursuna Kaydolun . Kariyerinizi hızlandırmak için Master, Executive PGP veya Gelişmiş Sertifika Programları kazanın.

Doğrusal regresyon, denetim altında yürütülen bir makine öğrenme algoritmasıdır. Söz konusu arsa üzerinde mevcut tüm veri noktalarına uygun bir çizginin aranması ve haritalanması işlemidir. Bir bağımlı ve bir bağımsız değişken arasındaki değeri düz bir çizgi yardımıyla tahmin etmeye yardımcı olan bir regresyon modelidir.

Doğrusal regresyon modelleri, verilen bağımlı değişkenlere dayalı olarak, maliyeti en düşük olan bu bağımsız değişkenler arasında doğrusal bir ilişki kurulmasına yardımcı olur.

Matematikte, doğrusal bir regresyon modelini tanımlamak için kullanılan üç yolumuz vardır. Bunlar aşağıdaki gibidir (y bağımlı değişkendir):

  • y = kesişme + (eğim x) + hata
  • y = sabit + (katsayı) + hata
  • y = a + bx + e

İçindekiler

Doğrusal regresyon neden gereklidir?

Doğrusal regresyon modelleri nispeten daha basit ve daha kullanıcı dostudur. Tahminler üretebilen matematiksel verileri/formülleri yorumlama sürecini nispeten daha basit hale getirirler. Doğrusal regresyon, çeşitli alanlarda (örneğin, akademisyenler veya işletme çalışmaları) etkili olabilir.

Doğrusal regresyon modeli, geleceği doğru bir şekilde tahmin etmek için bilimsel olarak kanıtlanmış tek yöntemdir. Çevresel, davranışsal, sosyal vb. çeşitli bilimlerde kullanılır.

Bu modellerin özellikleri çok iyi anlaşılmıştır ve bu nedenle, köklü bir istatistiksel prosedür olduğu için kolayca eğitilebilir. Ayrıca, bol miktarda ham veri setinin eyleme dönüştürülebilir bilgilere dönüştürülmesini kolaylaştırır.

Etkili doğrusal regresyonun temel varsayımları

  • Her değişken için geçerli vaka sayısı, ortalama ve standart sapma dikkate alınmalıdır.
  • Her model için : Regresyon katsayıları, korelasyon matrisi, kısmi ve kısmi korelasyonlar, tahminin standart hatası, varyans analizi tablosu, tahmin edilen değerler ve artıklar dikkate alınmalıdır.
  • Grafikler : Dağılım grafikleri, histogramlar, kısmi grafikler ve normal olasılık grafikleri dikkate alınır.
  • Veri : Bağımlı ve bağımsız değişkenlerin nicel olması sağlanmalıdır. Kategorik değişkenlerin ikili veya kukla değişkenlere veya diğer kontrast değişken türlerine yeniden kodlanması gerekmez.
  • Diğer varsayımlar : Belirli bir bağımsız değişkenin her değeri için bağımlı değişkenin normal dağılımına ihtiyacımız var. Bağımlı değişkenin verilen dağılımının varyansı da her bağımsız değişken değeri için sabit tutulmalıdır. Her bağımlı bağımsız değişken arasındaki ilişki doğrusal olmalıdır. Ayrıca, tüm gözlemler bağımsız olmalıdır.

İşte basit bir doğrusal regresyon için mevcut bir örnek :

Örnekteki veri kümesi, belirli bir dönem için her günün küresel hava durumuyla ilgili bilgileri içerir. Bu ayrıntılı bilgi listesi, yağış, kar yağışı, sıcaklıklar, rüzgar hızı, gök gürültülü fırtınalar veya diğer olası hava koşulları gibi faktörleri içerir.

Bu problem, minimum sıcaklığı girdi olarak alırken maksimum sıcaklığı tahmin etmek için basit doğrusal regresyon modelini kullanmayı amaçlamaktadır.

İlk olarak, tüm kitaplıkların içe aktarılması gerekir.

pandaları pd olarak içe aktar

numpy'yi np olarak içe aktar

matplotlib.pyplot'u plt olarak içe aktar

seaborn Instance olarak içe aktar

sklearn.model_selection'dan train_test_split'i içe aktarın

sklearn.linear_model'den LinearRegression'ı içe aktarın

sklearn içe aktarma metriklerinden

%matplotlib satır içi

Pandaları kullanarak aşağıdaki veri kümesini içe aktarmak için aşağıdaki komutun uygulanması gerekir:

veri kümesi = pd.read_csv('/Users/nageshsinghchauhan/Documents/projects/ML/ML_BLOG_LInearRegression/Weather.csv')

Verileri keşfetmek için veri kümesinde bulunan satır ve sütun sayısını kontrol etmek için aşağıdaki komutun uygulanması gerekir:

veri kümesi.şekil

Alınan çıktı (119040, 31) olmalıdır; bu, verilerin 119040 satır ve 31 sütun içerdiği anlamına gelir.

Veri setinin istatistiksel detaylarını görmek için aşağıdaki komut kullanılabilir:

betimlemek():

veri kümesi.describe()

İşte verilen veri kümelerine doğrusal regresyon uygulamak için kullanılacak çeşitli Python kitaplıklarının nasıl alınabileceğini ve kullanılabileceğini göstermeyi amaçlayan başka bir örnek:

1. Gerekli tüm kitaplıkları içe aktarma

numpy'yi np olarak içe aktar

pandaları pd olarak içe aktar

seaborn'u sns olarak içe aktar

matplotlib.pyplot'u plt olarak içe aktar

sklearn'den içe aktarma ön işleme, svm

sklearn.model_selection'dan train_test_split'i içe aktarın

sklearn.linear_model'den LinearRegression'ı içe aktarın

2. Veri setini okuma

cd C:\Kullanıcılar\Dev\Desktop\Kaggle\Tuzluluk

# Dosya okuma konumunu veri kümesinin konumuna değiştirme

df = pd.read_csv('şişe.csv')

df_binary = df[['Tuzlu', 'T_degC']]

# Veri setinden sadece seçilen iki özelliğin alınması

df_binary.columns = ['Sal', 'Sıcaklık']

# Kodun daha kolay yazılması için sütunların yeniden adlandırılması

df_binary.head()

# Sütun adlarıyla birlikte yalnızca 1. satırları görüntüleme

2. Veri dağılımını keşfetme

sns.lmplot(x =”Sal”, y =”Sıcaklık”, veri = df_binary, sıra = 2, ci = Yok)

# Veri dağılımının çizilmesi

3. Veri temizleme

# NaN veya eksik giriş numaralarının ortadan kaldırılması

df_binary.fillna(yöntem ='ffill', yerinde = Doğru)

4. Modeli eğitmek

X = np.array(df_binary['Sal']).reshape(-1, 1)

y = np.array(df_binary['Temp']).reshape(-1, 1)

# Verileri bağımsız ve bağımlı değişkenlere ayırma

# Her veri çerçevesini numpy dizisine dönüştürme

# çünkü her veri çerçevesi yalnızca bir sütun içerir

df_binary.dropna(yerinde = Doğru)

# Nan değerlerine sahip herhangi bir satır bırakılıyor

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0,25)

# Verileri eğitim ve test verilerine bölmek

regr = LinearRegression()

regr.fit(X_tren, y_tren)

print(regr.score(X_test, y_test))

5. Sonuçları keşfetmek

y_pred = regr.predict(X_test)

plt.scatter(X_test, y_test, renk ='b')

plt.plot(X_test, y_pred, renk ='k')

plt.göster()

# Tahmin edilen değerlerin veri dağılımı

6. Daha küçük bir veri kümesiyle çalışma

df_binary500 = df_binary[:][:500]

# Verinin 1. 500 satırının seçilmesi

sns.lmplot(x =”Sal”, y =”Sıcaklık”, veri = df_binary500,

sıra = 2, ci = Yok)

Popüler Makine Öğrenimi ve Yapay Zeka Blogları

IoT: Tarih, Bugün ve Gelecek Makine Öğrenimi Eğitimi: Makine Öğrenimi Öğrenin Algoritma nedir? Basit ve Kolay
Hindistan'da Robotik Mühendisi Maaşı : Tüm Roller Bir Makine Öğrenimi Mühendisinin Hayatından Bir Gün: Ne yapıyorlar? IoT (Nesnelerin İnterneti) Nedir?
Permütasyon ve Kombinasyon: Permütasyon ve Kombinasyon Arasındaki Fark Yapay Zeka ve Makine Öğreniminde En İyi 7 Trend R ile Makine Öğrenimi: Bilmeniz Gereken Her Şey

Tam teşekküllü makine öğrenimi öğrenmekle ilgileniyorsanız, Grad'ın Makine Öğrenimi ve Yapay Zeka alanında Yüksek Lisans programına katılmanızı öneririz . 20 aylık program, IIIT Bangalore ve Liverpool John Moores Üniversitesi ile birlikte sunulmaktadır. Python, Keras, Tensor Flow, MySql, Flask, Kubernetes vb. sektörle ilgili programlama dilleri, araçları ve kitaplıklarında yetkinliğinizi geliştirmenize yardımcı olmak için tasarlanmıştır .

Program, uygulamalı deneyim ve beceri geliştirme yoluyla gelişmiş veri bilimi kavramlarını geliştirmenize yardımcı olabilir. Ayrıca, 360° kariyer danışmanına erişim, 40.000'den fazla ücretli öğrenciden oluşan bir ağ havuzu ve bir sürü işbirliği fırsatı ile upGrad avantajına sahip olursunuz!

Bugün yerinizi ayırtın!

Doğrusal regresyon ne için kullanılır?

Bu tür bir analiz genellikle bir değişkenin değerini bilinen başka bir değişkene dayalı olarak tahmin etmek için kullanılır. Diğerinin değerini bulmak için kullanılan değişkenlere sırasıyla bağımlı ve bağımsız değişkenler denir.

scikit öğrenme nasıl yüklenir?

İlk olarak, ilgili işletim sistemi veya Python dağıtımı tarafından sağlanan Scikit öğrenme doğrusal regresyon sürümünün yüklenmesi gerekir. Bu seçeneğe sahip kişiler için en hızlısı budur. Ardından resmi olarak yayınlanan ve en son güncellenen sürümün yüklenmesi gerekir.

Scikit öğrenme nasıl çalışır?

Scikit öğrenme doğrusal regresyon, her zaman tutarlı olan bir python arabirimi aracılığıyla bir dizi denetimli ve denetimsiz algoritma sunar. İzin verilen bir BSD lisansı altında lisanslanmıştır. Çeşitli Linux operatörleri altında dağıtılır. Bu algoritmaların kullanımı iş ve eğitimde yaygın olarak teşvik edilmektedir.