เรียนรู้อัลกอริทึม Naive Bayes สำหรับการเรียนรู้ของเครื่อง [พร้อมตัวอย่าง]

เผยแพร่แล้ว: 2021-02-25

สารบัญ

บทนำ

ในวิชาคณิตศาสตร์และการเขียนโปรแกรม วิธีแก้ปัญหาที่ง่ายที่สุดบางวิธีมักเป็นวิธีแก้ปัญหาที่ทรงพลังที่สุด อัลกอริธึม Bayes ไร้เดียงสามาเป็นตัวอย่างคลาสสิกของคำสั่งนี้ แม้ว่าจะมีความก้าวหน้าและการพัฒนาในด้าน Machine Learning ที่แข็งแกร่งและรวดเร็ว Algorithm ของ Naive Bayes นี้ยังคงแข็งแกร่งในฐานะอัลกอริธึมที่ใช้กันอย่างแพร่หลายและมีประสิทธิภาพมากที่สุดตัวหนึ่ง อัลกอริทึม Bayes ที่ไร้เดียงสาพบการใช้งานในปัญหาต่างๆ รวมถึงงานการจำแนกประเภทและปัญหาการประมวลผลภาษาธรรมชาติ (NLP)

สมมติฐานทางคณิตศาสตร์ของทฤษฎีบทเบย์ทำหน้าที่เป็นแนวคิดพื้นฐานที่อยู่เบื้องหลังอัลกอริทึม Naive Bayes นี้ ในบทความนี้ เราจะพูดถึงพื้นฐานของ Bayes Theorem, Naive Bayes Algorithm ควบคู่ไปกับการใช้งานใน Python พร้อมตัวอย่างปัญหาแบบเรียลไทม์ นอกจากนี้ เราจะพิจารณาข้อดีและข้อเสียของอัลกอริทึม Naive Bayes เมื่อเทียบกับคู่แข่ง

พื้นฐานของความน่าจะเป็น

ก่อนที่เราจะออกไปทำความเข้าใจเกี่ยวกับทฤษฎีบท Bayes และอัลกอริทึมของ Naive Bayes ให้เราทำความเข้าใจความรู้ที่มีอยู่ของเราเกี่ยวกับพื้นฐานของความน่าจะเป็นก่อน

ดังที่เราทุกคนทราบโดยคำจำกัดความ เมื่อพิจารณาจากเหตุการณ์ A ความน่าจะเป็นของเหตุการณ์นั้นจะเกิดขึ้นโดย P(A) ในความน่าจะเป็น สองเหตุการณ์ A และ B ถูกเรียกว่าเป็นเหตุการณ์อิสระ ถ้าการเกิดของเหตุการณ์ A ไม่เปลี่ยนแปลงความน่าจะเป็นของการเกิดเหตุการณ์ B และในทางกลับกัน ในทางกลับกัน หากเหตุการณ์หนึ่งเปลี่ยนแปลงความน่าจะเป็นของอีกเหตุการณ์หนึ่ง จะเรียกว่าเหตุการณ์ที่ขึ้นต่อกัน

เรามาทำความรู้จักกับคำศัพท์ใหม่ที่เรียกว่า Conditional Probability ในวิชาคณิตศาสตร์ ความน่าจะเป็นแบบมีเงื่อนไขสำหรับสองเหตุการณ์ A และ B ที่กำหนดโดย P (A| B) ถูกกำหนดให้เป็นความน่าจะเป็นของการเกิดเหตุการณ์ A เนื่องจากเหตุการณ์ B ได้เกิดขึ้นแล้ว ขึ้นอยู่กับความสัมพันธ์ระหว่างสองเหตุการณ์ A และ B ว่าเหตุการณ์นั้นขึ้นอยู่กับหรือเป็นอิสระ ความน่าจะเป็นแบบมีเงื่อนไขคำนวณได้สองวิธี

  • ความน่าจะเป็นแบบมีเงื่อนไขของสอง เหตุการณ์ที่ขึ้น ต่อกัน A และ B ถูกกำหนดโดย P (A| B) = P (A และ B) / P (B)
  • นิพจน์สำหรับความน่าจะเป็นแบบมีเงื่อนไขของสอง เหตุการณ์อิสระ A และ B ถูกกำหนดโดย P (A| B) = P (A)

เมื่อรู้คณิตศาสตร์เบื้องหลังความน่าจะเป็นและความน่าจะเป็นตามเงื่อนไขแล้ว ให้เราไปต่อกันที่ทฤษฎีบทเบย์

ทฤษฎีบทเบย์

ในสถิติและทฤษฎีความน่าจะเป็น ทฤษฎีบทของเบย์หรือที่เรียกว่ากฎของเบย์ใช้เพื่อกำหนดความน่าจะเป็นแบบมีเงื่อนไขของเหตุการณ์ กล่าวอีกนัยหนึ่ง ทฤษฎีบทของเบย์อธิบายความน่าจะเป็นของเหตุการณ์โดยพิจารณาจากความรู้เดิมเกี่ยวกับเงื่อนไขที่อาจเกี่ยวข้องกับเหตุการณ์

เพื่อให้เข้าใจในวิธีที่ง่ายขึ้น พิจารณาว่าเราจำเป็นต้องรู้ความน่าจะเป็นของราคาบ้านที่สูงมาก หากเราทราบเกี่ยวกับปัจจัยอื่นๆ เช่น การมีโรงเรียน ร้านขายยา และโรงพยาบาลในบริเวณใกล้เคียง เราก็จะสามารถทำการประเมินสิ่งเดียวกันได้แม่นยำยิ่งขึ้น นี่คือสิ่งที่ทฤษฎีบทเบย์ดำเนินการ

ดังนั้น,

  • P(A|B) – ความน่าจะเป็นแบบมีเงื่อนไขของเหตุการณ์ A ที่เกิดขึ้น โดยที่เหตุการณ์ B ได้เกิดขึ้นหรือที่เรียก ว่าความน่าจะเป็น ภายหลัง
  • P(B|A) – ความน่าจะเป็นแบบมีเงื่อนไขของเหตุการณ์ B ที่เกิดขึ้น โดยที่เหตุการณ์ A ได้เกิดขึ้นแล้ว หรือที่เรียก ว่าความน่าจะเป็น ของ โอกาส
  • P(A) – ความน่าจะเป็นของเหตุการณ์ A ที่เกิดขึ้นหรือที่เรียก ว่าความน่าจะเป็นก่อนหน้า
  • P(B) – ความน่าจะเป็นของเหตุการณ์ B ที่เกิดขึ้นหรือที่เรียก ว่าความน่าจะเป็นส่วนเพิ่ม

สมมติว่าเรามีปัญหาการเรียนรู้ของเครื่องอย่างง่ายกับตัวแปรอิสระ 'n' และตัวแปรตามซึ่งเป็นผลลัพธ์คือค่าบูลีน (จริงหรือเท็จ) สมมติว่าแอตทริบิวต์อิสระมีลักษณะตามหมวดหมู่ ให้เราพิจารณา 2 หมวดหมู่สำหรับตัวอย่างนี้ ดังนั้น ด้วยข้อมูลเหล่านี้ เราจำเป็นต้องคำนวณค่าของความน่าจะเป็นที่น่าจะเป็น P(B|A)

ดังนั้น จากการสังเกตข้างต้น เราพบว่าเราจำเป็นต้องคำนวณพารามิเตอร์ 2*(2^ n -1 ) เพื่อเรียนรู้โมเดลแมชชีนเลิร์นนิงนี้ ในทำนองเดียวกัน หากเรามีแอตทริบิวต์อิสระแบบบูลีน 30 รายการ จำนวนพารามิเตอร์ทั้งหมดที่จะคำนวณจะใกล้เคียงกับ 3 พันล้าน ซึ่งเป็นต้นทุนในการคำนวณที่สูงมาก

ความยากลำบากในการสร้างแบบจำลองแมชชีนเลิร์นนิงด้วยทฤษฎีบทเบย์ทำให้เกิดการกำเนิดและการพัฒนาอัลกอริธึม Naive Bayes

อัลกอริธึม Naive Bayes

เพื่อให้ใช้งานได้จริง จำเป็นต้องลดความซับซ้อนที่กล่าวถึงข้างต้นของทฤษฎีบทเบย์ นี่คือความสำเร็จอย่างแท้จริงในอัลกอริธึม Naive Bayes โดยการตั้งสมมติฐานสองสามข้อ สมมติฐานที่ตั้งขึ้นคือแต่ละคุณลักษณะมีส่วนสนับสนุนที่เป็น อิสระ และ เท่าเทียมกัน ในผลลัพธ์

อัลกอริธึม Bayes ไร้เดียงสาเป็นอัลกอริธึมการเรียนรู้ภายใต้การดูแลและอิงตามทฤษฎีบท Bayes ซึ่งใช้เป็นหลักในการแก้ปัญหาการจำแนกประเภท มันเป็นหนึ่งในตัวแยกประเภทที่ง่ายและแม่นยำที่สุดซึ่งสร้างแบบจำลองการเรียนรู้ของเครื่องเพื่อคาดการณ์อย่างรวดเร็ว ในทางคณิตศาสตร์ มันเป็นตัวแยกประเภทความน่าจะเป็น เนื่องจากมันทำการทำนายโดยใช้ฟังก์ชันความน่าจะเป็นของเหตุการณ์

ตัวอย่างปัญหา

เพื่อให้เข้าใจตรรกะเบื้องหลังสมมติฐาน ให้เราพิจารณาชุดข้อมูลง่ายๆ เพื่อให้ได้สัญชาตญาณที่ดีขึ้น

สี พิมพ์ ต้นทาง ขโมย?
สีดำ เก๋ง นำเข้า ใช่
สีดำ SUV นำเข้า ไม่
สีดำ เก๋ง ภายในประเทศ ใช่
สีดำ เก๋ง นำเข้า ไม่
สีน้ำตาล SUV ภายในประเทศ ใช่
สีน้ำตาล SUV ภายในประเทศ ไม่
สีน้ำตาล เก๋ง นำเข้า ไม่
สีน้ำตาล SUV นำเข้า ใช่
สีน้ำตาล เก๋ง ภายในประเทศ ไม่

จากชุดข้อมูลที่ระบุข้างต้น เราสามารถรับแนวคิดของสมมติฐานสองข้อที่เรากำหนดไว้สำหรับอัลกอริทึม Naive Bayes ด้านบน

  • ข้อสันนิษฐานแรกคือคุณลักษณะทั้งหมดเป็นอิสระจากกัน ในที่นี้ เราจะเห็นว่าแต่ละคุณลักษณะมีความเป็นอิสระ เช่น สี “สีแดง” ไม่ ขึ้น กับประเภทและที่มาของรถ
  • ถัดไป แต่ละคุณลักษณะจะต้องได้รับความสำคัญเท่าเทียมกัน ในทำนองเดียวกัน การมีความรู้เกี่ยวกับประเภทและที่มาของรถเท่านั้นไม่เพียงพอที่จะทำนายผลลัพธ์ของปัญหา ดังนั้นจึงไม่มีตัวแปรใดที่ไม่เกี่ยวข้องและด้วยเหตุนี้ทั้งหมดจึงมี ส่วนสนับสนุนผลลัพธ์ที่ เท่าเทียมกัน

สรุปได้ว่า A และ B มีความเป็นอิสระตามเงื่อนไขโดยที่ C นั้นก็ต่อเมื่อ เมื่อได้รับรู้ว่า C เกิดขึ้น การรู้ว่า A เกิดขึ้นหรือไม่นั้นไม่ได้ให้ข้อมูลเกี่ยวกับความเป็นไปได้ที่ B จะเกิดขึ้น และความรู้ว่า B จะเกิดขึ้นหรือไม่นั้นไม่ได้ให้ข้อมูล ความน่าจะเป็นของการเกิด A สมมติฐานเหล่านี้ทำให้อัลกอริธึม Bayes Naive จึงเป็นที่มาของชื่อ Naive Bayes Algorithm

ดังนั้นสำหรับปัญหาข้างต้น ทฤษฎีบทเบย์สามารถเขียนใหม่ได้เป็น –

ดังนั้น,

  • เวกเตอร์คุณลักษณะอิสระ X = (x 1 , x 2 , x 3 ……x n ) ที่แสดงคุณลักษณะต่างๆ เช่น สี ประเภท และที่มาของรถ
  • ตัวแปรเอาต์พุต y มีเพียงสองผลลัพธ์ใช่หรือไม่ใช่

ดังนั้นโดยการแทนที่ค่าข้างต้น เราจะได้สูตร Naive Bayes เป็น

ในการคำนวณความน่าจะเป็นหลัง P(y|X) เราต้องสร้างตารางความถี่สำหรับแต่ละแอตทริบิวต์เทียบกับผลลัพธ์ จากนั้นแปลงตารางความถี่เป็นตารางความน่าจะเป็น หลังจากนั้นในที่สุดเราใช้สมการแบบเบส์ไร้เดียงสาเพื่อคำนวณความน่าจะเป็นหลังสำหรับแต่ละชั้นเรียน ชั้นเรียนที่มีความน่าจะเป็นหลังสูงสุดจะถูกเลือกเป็นผลของการทำนาย ด้านล่างนี้คือตารางความถี่และความน่าจะเป็นสำหรับตัวทำนายทั้งสาม

ตารางความถี่ของสี ตารางความน่าจะเป็นของสี

ตารางความถี่ของประเภท ความน่าจะเป็น ตารางประเภท

ตารางความถี่ของแหล่งกำเนิด ตารางความเป็นไปได้ของแหล่งกำเนิด

พิจารณากรณีที่เราต้องคำนวณความน่าจะเป็นหลังสำหรับเงื่อนไขด้านล่าง -

สี พิมพ์ ต้นทาง
สีน้ำตาล SUV นำเข้า

ดังนั้น จากสูตรที่กำหนดข้างต้น เราสามารถคำนวณความน่าจะเป็นด้านหลังได้ดังแสดงด้านล่าง-

P(ใช่ | X) = P(สีน้ำตาล | ใช่) * P(SUV | ใช่) * P(นำเข้า | ใช่) * P(ใช่)

= 2/5 * 2/4 * 2/5 * 1

= 0.08

P(No | X) = P(สีน้ำตาล | No) * P(SUV | No) * P(นำเข้า | No) * P(No)

= 3/5 * 2/4 * 3/5 * 1

= 0.18

จากค่าที่คำนวณข้างต้น เนื่องจากความน่าจะเป็นภายหลังสำหรับ No มีค่ามากกว่าใช่ (0.18>0.08) จึงสามารถอนุมานได้ว่ารถยนต์ที่มีสีน้ำตาล ประเภท SUV ของแหล่งกำเนิดนำเข้าถูกจัดประเภทเป็น “ไม่” ดังนั้นรถจะไม่ถูกขโมย

การใช้งานใน Python

ตอนนี้เราเข้าใจคณิตศาสตร์เบื้องหลังอัลกอริธึม Naive Bayes แล้วและได้เห็นภาพด้วยตัวอย่างแล้ว ให้เรามาดูโค้ดการเรียนรู้ของเครื่องในภาษา Python กัน

ที่เกี่ยวข้อง: ลักษณนามไร้เดียงสา

การวิเคราะห์ปัญหา

ในการใช้โปรแกรม Naive Bayes Classification ใน Machine Learning โดยใช้ Python เราจะใช้ 'Iris Flower Dataset' ที่มีชื่อเสียงมาก ชุดข้อมูลดอกไอริสหรือชุดข้อมูลไอริสของฟิชเชอร์เป็นชุดข้อมูลหลายตัวแปรที่นำเสนอโดยโรนัลด์ ฟิชเชอร์ นักสถิติ นักสุพันธุศาสตร์ และนักชีววิทยาชาวอังกฤษในปี 2541 ชุดข้อมูลนี้เป็นชุดข้อมูลพื้นฐานขนาดเล็กมากที่ประกอบด้วยข้อมูลตัวเลขน้อยมากที่มีข้อมูลเกี่ยวกับ 3 คลาส ของดอกไม้ในตระกูลไอริส ได้แก่ –

  • ไอริส เซโตซ่า
  • ไอริส หลากสี
  • Iris Virginica

มี 50 ตัวอย่างของแต่ละชนิดใน สามสปีชี ส์ ซึ่งรวมเป็นชุดข้อมูลทั้งหมด 150 แถว 4 คุณลักษณะ (หรือ) ตัวแปรอิสระที่ใช้ในชุดข้อมูลนี้คือ –

  • ความยาวของกลีบเลี้ยงในหน่วย cm
  • ความกว้างของกลีบเลี้ยงเป็นซม.
  • ความยาวกลีบเป็นซม.
  • ความกว้างของกลีบเป็นซม.

ตัวแปรตามคือ "สปี ชี ส์" ของดอกไม้ที่ระบุโดยคุณลักษณะสี่ประการที่ระบุข้างต้น

ขั้นตอนที่ 1 – การนำเข้าไลบรารี

และเช่นเคย ขั้นตอนหลักในการสร้างแบบจำลองแมชชีนเลิร์นนิงคือการนำเข้าไลบรารีที่เกี่ยวข้อง สำหรับสิ่งนี้ เราจะโหลดไลบรารี NumPy, Mathplotlib และ Pandas เพื่อประมวลผลข้อมูลล่วงหน้า

นำเข้า numpy เป็น np
นำเข้า matplotlib.pyplot เป็น plt
นำเข้าแพนด้าเป็น pd

ขั้นตอนที่ 2 – กำลังโหลดชุดข้อมูล

ชุดข้อมูลดอกไอริสที่จะใช้สำหรับการฝึกตัวจำแนก Naive Bayes จะถูกโหลดลงใน Pandas DataFrame ตัวแปรอิสระ 4 ตัวจะต้องถูกกำหนดให้กับตัวแปร X และตัวแปรของสปีชีส์เอาต์พุตสุดท้ายถูกกำหนดให้กับ y

ชุดข้อมูล = pd.read_csv (' https://raw.githubusercontent.com/mk-gurucharan/Classification/master/IrisDataset.csv' )X = dataset.iloc[:,:4].values
y = ชุดข้อมูล['species'].valuesdataset.head(5)>>
sepal_length sepal_width petal_length petal_width สายพันธุ์
5.1 3.5 1.4 0.2 เซโตซ่า
4.9 3.0 1.4 0.2 เซโตซา
4.7 3.2 1.3 0.2 เซโตซา
4.6 3.1 1.5 0.2 เซโตซา
5.0 3.6 1.4 0.2 เซโตซา

ขั้นตอนที่ 3 – แยกชุดข้อมูลออกเป็นชุดการฝึกและชุดทดสอบ

หลังจากโหลดชุดข้อมูลและตัวแปรแล้ว ขั้นตอนต่อไปคือการเตรียมตัวแปรที่จะผ่านกระบวนการฝึกอบรม ในขั้นตอนนี้ เราต้องแยกตัวแปร X และ y ออกเป็นการฝึกและชุดข้อมูลการทดสอบ สำหรับสิ่งนี้ เราจะกำหนด 80% ของข้อมูลแบบสุ่มให้กับชุดการฝึก ซึ่งจะใช้เพื่อวัตถุประสงค์ในการฝึกอบรม และอีก 20% ที่เหลือของข้อมูลเป็นชุดการทดสอบที่ Naive Bayes Classifier ที่ผ่านการฝึกอบรมจะได้รับการทดสอบเพื่อความถูกต้อง

จาก sklearn.model_selection นำเข้า train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

ขั้นตอนที่ 4 – การปรับขนาดคุณสมบัติ

แม้ว่านี่จะเป็นกระบวนการเพิ่มเติมสำหรับชุดข้อมูลขนาดเล็กนี้ แต่ฉันกำลังเพิ่มสิ่งนี้ให้คุณเพื่อใช้ในชุดข้อมูลขนาดใหญ่ขึ้น ในการนี้ ข้อมูลในชุดการฝึกและการทดสอบจะถูกลดขนาดลงเป็นช่วงของค่าระหว่าง 0 ถึง 1 ซึ่งจะช่วยลดต้นทุนในการคำนวณ

จาก sklearn.preprocessing นำเข้า StandardScaler
sc = StandardScaler ()
X_train = sc.fit_transform (X_train)
X_test = sc.transform (X_test)

ขั้นตอนที่ 5 – ฝึกโมเดลการจำแนก Naive Bayes บนชุดการฝึก

อยู่ในขั้นตอนนี้ที่เรานำเข้าคลาส Naive Bayes จากไลบรารี sklearn สำหรับรุ่นนี้ เราใช้โมเดล Gaussian มีอีกหลายรุ่น เช่น Bernoulli, Categorical และ Multinomial ดังนั้น X_train และ y_train จึงพอดีกับตัวแปรลักษณนามเพื่อวัตถุประสงค์ในการฝึกอบรม

จาก sklearn.naive_bayes นำเข้า GaussianNB
ลักษณนาม = GaussianNB()
classifier.fit(X_train, y_train)

ขั้นตอนที่ 6 – การทำนายผลชุดทดสอบ –

เราทำนายคลาสของสปีชีส์สำหรับชุดการทดสอบโดยใช้แบบจำลองที่ฝึกและเปรียบเทียบกับค่าจริงของคลาสสปีชีส์

y_pred = classifier.predict(X_test)


df = pd.DataFrame({'ค่าจริง':y_test, 'ค่าที่คาดการณ์':y_pred})
df>>
มูลค่าที่แท้จริง ค่าที่คาดการณ์
เซโตซ่า เซโตซ่า
เซโตซ่า เซโตซ่า
virginica เวอร์จิน
versicolor versicolor
เซโตซ่า เซโตซ่า
เซโตซ่า เซโตซ่า
… … … … …
virginica versicolor
virginica เวอร์จิน
เซโตซ่า เซโตซ่า
เซโตซ่า เซโตซ่า
versicolor versicolor
versicolor versicolor

ในการเปรียบเทียบข้างต้น เราพบว่ามีคำทำนายที่ไม่ถูกต้องหนึ่งคำที่ทำนาย Versicolor แทน Virginica

ขั้นตอนที่ 7 – เมทริกซ์ความสับสนและความแม่นยำ

ในขณะที่เรากำลังจัดการกับการจำแนกประเภท วิธีที่ดีที่สุดในการประเมินแบบจำลองตัวแยกประเภทของเราคือการพิมพ์ Confusion Matrix พร้อมกับความแม่นยำในชุดทดสอบ

จาก sklearn.metrics นำเข้าสับสน_matrix
cm = ความสับสน_matrix(y_test, y_pred) จาก sklearn.metrics ความแม่นยำในการนำเข้า

พิมพ์ (“ความแม่นยำ : “, ความแม่นยำ_score(y_test, y_pred))

ซม.>>ความแม่นยำ : 0.96666666666666667

>>array([[14, 0, 0],
[ 0, 7, 0],
[ 0, 1, 8]])

บทสรุป

ดังนั้น ในบทความนี้ เราได้อ่านพื้นฐานของ Naive Bayes Algorithm ที่เข้าใจคณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกประเภทพร้อมกับตัวอย่างที่แก้ปัญหาด้วยมือ สุดท้าย เราใช้โค้ด Machine Learning เพื่อแก้ปัญหาชุดข้อมูลยอดนิยมโดยใช้อัลกอริทึมการจำแนก Naive Bayes

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับ AI, แมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ สถานะศิษย์เก่า IIIT-B โครงการหลัก 5 โครงการและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ความน่าจะเป็นมีประโยชน์ในการเรียนรู้ของเครื่องอย่างไร

เราอาจต้องตัดสินใจโดยอิงจากข้อมูลบางส่วนหรือไม่สมบูรณ์ในสถานการณ์จริง ความน่าจะเป็นช่วยให้เราสามารถระบุความไม่แน่นอนในระบบดังกล่าวและจัดการความเสี่ยงสำหรับงาน วิธีการแบบเดิมใช้ได้ผลเฉพาะกับผลลัพธ์ที่กำหนดขึ้นสำหรับการดำเนินการเฉพาะ แต่มีขอบเขตของความไม่แน่นอนในแบบจำลองการทำนายเสมอ ความไม่แน่นอนนี้อาจมาจากพารามิเตอร์หลายอย่างจากข้อมูลที่ป้อนเข้า เช่น สัญญาณรบกวนในข้อมูล นอกจากนี้ มุมมองแบบเบย์จากทฤษฎีบทความน่าจะเป็นสามารถช่วยในการจดจำรูปแบบจากข้อมูลที่ป้อนเข้า สำหรับสิ่งนี้ ความน่าจะเป็นใช้แนวคิดการประมาณค่าความน่าจะเป็นสูงสุด และด้วยเหตุนี้จึงเป็นประโยชน์ในการสร้างผลลัพธ์ที่เกี่ยวข้อง

การใช้ Confusion Matrix คืออะไร?

เมทริกซ์ความสับสนคือเมทริกซ์ขนาด 2x2 ที่ใช้ในการตีความประสิทธิภาพของแบบจำลองการจัดหมวดหมู่ ค่าจริงสำหรับข้อมูลที่ป้อนต้องเป็นที่รู้จักจึงจะใช้งานได้ ดังนั้นจึงไม่สามารถแสดงข้อมูลที่ไม่มีป้ายกำกับได้ ประกอบด้วยจำนวนของผลบวกลวง (FP) ผลบวกจริง (TP) ผลลบลวง (FN) และผลลบจริง (TN) การคาดคะเนแบ่งออกเป็นชั้นเรียนเหล่านี้โดยใช้การนับจากชุดการฝึกและชุดทดสอบ ช่วยให้เราเห็นภาพพารามิเตอร์ที่เป็นประโยชน์ เช่น ความแม่นยำ ความแม่นยำ การเรียกคืน และความจำเพาะ มันค่อนข้างเข้าใจง่ายและให้แนวคิดที่ชัดเจนเกี่ยวกับอัลกอริทึมแก่คุณ

โมเดล Naive Bayes ประเภทต่าง ๆ มีอะไรบ้าง?

ทุกประเภทขึ้นอยู่กับทฤษฎีบทเบย์เป็นหลัก โมเดล Naive Bayes โดยทั่วไปมีสามประเภท: Gaussian, Bernoulli และ Multinomial Gaussian Naive Bayes ช่วยด้วยค่าต่อเนื่องจากพารามิเตอร์อินพุต และมีการสันนิษฐานว่าคลาสของข้อมูลอินพุตทั้งหมดมีการกระจายอย่างสม่ำเสมอ naive Bayes ของ Bernoulli เป็นโมเดลตามเหตุการณ์ โดยที่ฟีเจอร์ข้อมูลเป็นอิสระและมีอยู่ในค่าบูลีน Multinomial Naive Bayes ยังอิงตามแบบจำลองตามเหตุการณ์ มีคุณลักษณะข้อมูลในรูปแบบเวกเตอร์ ซึ่งแสดงถึงความถี่ที่เกี่ยวข้องตามเหตุการณ์ที่เกิดขึ้น