Veri Madenciliğinde Bayes Sınıflandırmasını Öğrenin [2022]
Yayınlanan: 2021-03-10Bir süredir veri madenciliği okuyorsanız, 'Bayes sınıflandırması' terimini duymuş olmalısınız. Veri madenciliğinde ne anlama geldiğini ve kavram olarak ne kadar önemli olduğunu merak ediyor musunuz?
Bu makale, veri madenciliğinde Bayes sınıflandırmasının ne olduğunu keşfedeceğiniz için bu soruları yanıtlayacaktır. Hadi başlayalım:
İçindekiler
Bayes sınıflandırması nedir?
Veri madenciliği sırasında, sınıf değişkeni ile öznitelik kümesi arasındaki bağlantının deterministik olmadığını göreceksiniz. Bu, öznitelik seti eğitim örnekleriyle aynı olsa bile, bir test kaydının sınıf etiketini mutlak kesinlikle kabul edemeyeceğimiz anlamına gelir.
Belirli etkileyen faktörlerin veya gürültülü verilerin varlığı nedeniyle olabilir. Bir kişinin yeme alışkanlıklarına göre kalp hastalığı riski altında olup olmadığını tahmin etmek istediğinizi varsayalım. Bir kişinin yeme alışkanlıkları, kalp sorunları yaşayıp yaşamayacaklarını belirlemede çok büyük bir faktör olsa da, aynı durumun genetik veya enfeksiyon gibi başka nedenleri de olabilir.
Bu nedenle, kişinin yalnızca yeme alışkanlıklarına dayalı olarak kalp hastalığı riski altında olup olmayacağını belirleme analiziniz hatalı olur ve birden fazla sorunun ortaya çıkmasına neden olabilir.
Ardından “Veri madenciliğinde bu sorunu nasıl çözersiniz?” sorusu ortaya çıkıyor. Cevap Bayes sınıflandırmasıdır.

Bu sorunu çözmek ve herhangi bir olayın oluşumunu tahmin etmek için veri madenciliğinde Bayes sınıflandırmasını kullanabilirsiniz. Bayes sınıflandırıcıları, Bayes olasılık anlayışlarını kullanan istatistiksel sınıflandırıcılardan oluşur.
Veri madenciliğinde Bayes sınıflandırmasının işleyişini anlamak için Bayes teoremi ile başlamanız gerekecek.
Bayes teoremi
Bayes teoreminin kredisi, bilinmeyen parametreler üzerindeki limitleri hesaplamak için kanıt kullanan bir algoritma oluşturmak için koşullu olasılığı kullanan Thomas Bayes'e gider. Bu çözümü bulan ilk kişi oydu.
Matematiksel olarak Bayes teoremi şöyle görünür:
P(A/B) = P(B/A)P(A) P(B)
Burada A ve B olayları temsil eder ve P(B) sıfıra eşit olamaz.
P(B) 0
P(B/A), A doğru olduğunda B olayının meydana gelmesini açıklayan koşullu bir olasılıktır. Benzer şekilde, P(A/B), B doğru olduğunda A olayının oluşumunu açıklayan koşullu bir olasılıktır.
P(B) ve P(A), B ve A'yı bağımsız olarak gözlemleme olasılıklarıdır ve bunlara marjinal olasılıklar denir.
Bayes Yorumu
Bayes yorumunda, olasılık bir inanç derecesini hesaplar. Bayes teoremine göre, bir hipoteze kanıtları düşünmeden önce inanma derecesi, bir hipotezi düşündükten sonra inanma derecesi ile bağlantılıdır.
Diyelim ki bir madeni paranız var. Madeni parayı bir kez atarsanız, ya tura ya da tura alırsınız ve her ikisinin de olma olasılığı %50'dir. Ancak, birkaç kez yazı tura atıp sonuçları gözlemlerseniz, sonuçlara göre inancın derecesi artabilir, azalabilir veya sabit kalabilir.
A önermeniz ve B kanıtınız varsa:
P(A), A'ya olan inancın birincil derecesidir. P(A/B), B'yi açıkladıktan sonraki son inanç derecesidir. P(B/A)/P(B) bölümü, B'nin A için sunduğu desteği gösterir. .
Bayes teoremini koşullu olasılıktan türetebilirsiniz:

P(A/B) = P(A B) P(B) , eğer P(B) 0 ise
P(B/A) = P(B A) P(A) , eğer P(A) 0 ise
Burada P(A B) , hem A hem de B'nin doğru olma olasılığının ortak olasılığıdır, çünkü:
P (BA ) = P(A B)
VEYA, P(A B) = P( A B )P(B) = P( B A )P(A)
VEYA, P( A B ) = P( B A )P(A) P(B) , IF P(B) 0
Bayes Ağı
Belirsizlikleri DAG'ler (Yönlendirilmiş Döngüsel Grafikler) aracılığıyla göstermek için Bayes ağlarını (İnanç ağları olarak da bilinir) kullanırız. Yönlendirilmiş Döngüsel Grafik, diğer herhangi bir istatistiksel grafik gibi bir Bayes Ağı gösterir. Bağlantıların ilgili düğümler arasındaki bağlantıyı gösterdiği bir grup düğüm ve bağlantı içerir.
Yönlendirilmiş Döngüsel olmayan grafikteki her düğüm rastgele bir değişkeni temsil eder. Değişkenler sürekli veya ayrık değerler olabilir ve verilere verilen gerçek özniteliğe karşılık gelebilir.

Bir Bayes ağı, değişken alt kümeler arasında sınıf koşullu bağımsızlıkların tanımlanmasını sağlar. Uygulamaları gerçekleştireceğiniz ilişkinin grafiksel bir modelini size verir.
DAG dışında, bir Bayes ağı ayrıca bir dizi koşullu olasılık tablosuna sahiptir.
Çözüm
Şimdiye kadar veri madenciliğinde Bayes sınıflandırmasının temellerine aşina olmalısınız. Veri madenciliği uygulamalarının arkasındaki teoremi anlamak, ilerleme kaydetmek için çok önemlidir.
Veri madenciliğinde Bayes sınıflandırması hakkında ne düşünüyorsunuz? Onu uygulamayı denediniz mi? Cevaplarınızı yorumlarda paylaşın. Sizden haber almak isteriz.
Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.
Makine öğreniminde sınıflandırma ve regresyon nedir?
Sınıflandırma ve regresyon, makine öğreniminde kullanılan denetimli öğrenme algoritmalarının türleridir. Ancak bu algoritmalar arasında belirli belirgin farklılıklar vardır. Belirli girdi değişkenlerine dayalı olarak bir değişkenin sürekli değerini tahmin etmek için makine öğreniminde bir regresyon algoritması kullanılır. Bu algoritma boy, gelir, ağırlık, puanlar, hava durumu vb. gibi sürekli değişkenleri hesaplamak için kullanılır. Yani sadece tamsayı formatının ayrık değerlerini hesaplamak için kullanılabilir. Kesikli değişkenlerin değerlerini hesaplamak için bir sınıflandırma algoritması kullanılır. İlginç bir şekilde, sınıflandırma teknikleri hem ayrık hem de gerçek değerli değişkenlerle ilgilenebilir, ancak bunlar farklı sınıflandırılmış veya etiketlenmiş kategoriler halinde sınıflandırılmalıdır.
Veri madenciliği ve makine öğrenimi aynı şey midir?
Veri madenciliğinin faydaları nelerdir?
Veri madenciliği, bu veri merkezli dünyada veri veya bilgi ile ilgili sorunları çözmek için etkin bir şekilde araçlar sunar. İşletmelerin yararlı ve güvenilir bilgiler toplamasına yardımcı olur. Sonuç olarak, şirketler kararlarını temel alabilir veya sonuçta daha fazla kâr sağlayan operasyonları değiştirebilir. Veri madenciliği, şirketlerin bilinçli kararlar almasına, riskleri tespit edip hafifletmesine ve dolandırıcılık olaylarını en aza indirmesine yardımcı olmada çok önemli bir rol oynar. Veri bilimcileri, uygun maliyetli ve verimli veri madenciliği tekniklerini kullanarak büyük hacimli günlük verileri hızla araştırabilir.