เรียนรู้การจัดประเภท Bayesian ใน Data Mining [2022]

เผยแพร่แล้ว: 2021-03-10

หากคุณเคยศึกษาการทำเหมืองข้อมูลมาสักระยะแล้ว คุณต้องเคยได้ยินคำว่า 'การจัดหมวดหมู่แบบเบย์' คุณสงสัยหรือไม่ว่ามันหมายถึงอะไรและมีความสำคัญอย่างไรในฐานะแนวคิดในการทำเหมืองข้อมูล?

บทความนี้จะตอบคำถามเหล่านี้ในขณะที่คุณสำรวจว่าการจัดประเภทแบบเบย์ในการขุดข้อมูลคืออะไร เอาล่ะ:

สารบัญ

การจำแนกแบบเบย์คืออะไร?

ในระหว่างการขุดข้อมูล คุณจะพบว่าการเชื่อมต่อระหว่างตัวแปรคลาสและแอตทริบิวต์ที่ตั้งค่าไว้นั้นไม่มีการกำหนด ซึ่งหมายความว่าเราไม่สามารถสมมติ class label ของบันทึกการทดสอบด้วยความแน่นอนแม้ว่าชุดแอตทริบิวต์จะเหมือนกับตัวอย่างการฝึกอบรมก็ตาม

อาจเกิดขึ้นเนื่องจากมีปัจจัยที่มีอิทธิพลหรือข้อมูลที่ส่งเสียงดัง สมมติว่าคุณต้องการทำนายว่าบุคคลนั้นมีความเสี่ยงต่อโรคหัวใจหรือไม่ตามนิสัยการกินของพวกเขา แม้ว่านิสัยการกินของบุคคลเป็นปัจจัยสำคัญในการพิจารณาว่าพวกเขาจะมีปัญหาเกี่ยวกับหัวใจหรือไม่ แต่ก็อาจมีสาเหตุอื่นๆ ที่ทำให้เกิดภาวะเดียวกันนี้ได้เช่นกัน เช่น พันธุกรรมหรือการติดเชื้อ

ดังนั้น การวิเคราะห์ของคุณในการพิจารณาว่าบุคคลนั้นจะเสี่ยงต่อการเป็นโรคหัวใจหรือไม่โดยพิจารณาจากนิสัยการกินของพวกเขาเพียงอย่างเดียวนั้นจะมีข้อบกพร่องและอาจทำให้เกิดปัญหาหลายประการ

จากนั้นคำถามก็เกิดขึ้น "คุณจะแก้ปัญหานี้ในการทำเหมืองข้อมูลได้อย่างไร" คำตอบคือการจัดประเภทแบบเบย์

คุณสามารถใช้การจัดประเภทแบบเบย์ในการขุดข้อมูลเพื่อจัดการกับปัญหานี้และคาดการณ์เหตุการณ์ใดๆ ได้ ตัวแยกประเภทแบบเบย์ประกอบด้วยตัวแยกประเภททางสถิติโดยใช้ความเข้าใจความน่าจะเป็นแบบเบย์

เพื่อให้เข้าใจการทำงานของการจำแนกประเภทเบย์ในการขุดข้อมูล คุณจะต้องเริ่มด้วยทฤษฎีบทเบย์

ทฤษฎีบทเบย์

เครดิตสำหรับทฤษฎีบท Bayes เป็นของ Thomas Bayes ผู้ที่ใช้ความน่าจะเป็นแบบมีเงื่อนไขเพื่อสร้างอัลกอริธึมที่ใช้หลักฐานในการคำนวณขีดจำกัดของพารามิเตอร์ที่ไม่รู้จัก เขาเป็นคนแรกที่คิดวิธีแก้ปัญหานี้

ในทางคณิตศาสตร์ ทฤษฎีบทเบย์มีลักษณะดังนี้:

P(A/B) = P(B/A)P(A) P(B)

ในที่นี้ A และ B แสดงถึงเหตุการณ์และ P(B) ไม่สามารถเท่ากับศูนย์ได้

P(B) 0

P(B/A) คือความน่าจะเป็นแบบมีเงื่อนไขที่อธิบายการเกิดขึ้นของเหตุการณ์ B เมื่อ A เป็นจริง ในทำนองเดียวกัน P(A/B) คือความน่าจะเป็นแบบมีเงื่อนไขที่อธิบายการเกิดขึ้นของเหตุการณ์ A เมื่อ B เป็นจริง

P(B) และ P(A) คือความน่าจะเป็นของการสังเกต B และ A อย่างอิสระและเรียกว่าความน่าจะเป็นส่วนเพิ่ม

การตีความแบบเบย์

ในการตีความแบบเบย์ ความน่าจะเป็นจะคำนวณระดับความเชื่อ ตามทฤษฎีบทเบย์ ระดับของความเชื่อในสมมติฐานก่อนพิจารณาหลักฐานเชื่อมโยงกับระดับของความเชื่อในสมมติฐานหลังจากพิจารณาสิ่งเดียวกัน

สมมุติว่าคุณมีเหรียญ หากคุณพลิกเหรียญหนึ่งครั้ง คุณจะได้หัวหรือก้อย และความน่าจะเป็นที่จะเกิดขึ้นทั้งสองครั้งคือ 50% อย่างไรก็ตาม หากคุณพลิกเหรียญหลายครั้งและสังเกตผลลัพธ์ ระดับความเชื่ออาจเพิ่มขึ้น ลดลง หรือคงที่ตามผลลัพธ์

หากคุณมีข้อเสนอ A และหลักฐาน B แล้ว:

P(A) คือระดับความเชื่อเบื้องต้นใน A P(A/B) คือระดับความเชื่อภายหลังหลังจากพิจารณา B แล้ว ผลหาร P(B/A)/P(B) แสดงการสนับสนุน B ที่เสนอสำหรับ A .

คุณสามารถรับทฤษฎีบทเบย์จากความน่าจะเป็นแบบมีเงื่อนไข:

P(A/B) = P(A B) P(B) ถ้า P(B) 0

P(B/A) = P(BA ) P(A) ถ้า P(A) 0

โดย ที่ P(A B) คือความน่าจะเป็นร่วมกันของทั้ง A และ B ที่เป็นจริงเพราะ:

พี (บี เอ) = พี (เอ บี)

หรือ P(A B) = P( A B )P(B) = P( B A )P(A)

หรือ P( A B ) = P( B A )P(A) P(B) , IF P(B) 0

เครือข่ายเบย์เซียน

เราใช้เครือข่าย Bayesian (หรือที่เรียกว่าเครือข่าย Belief) เพื่อแสดงความไม่แน่นอนผ่าน DAG (Directed Acyclic Graphs) Directed Acyclic Graph แสดงเครือข่าย Bayesian เช่นเดียวกับกราฟสถิติอื่นๆ ประกอบด้วยกลุ่มของโหนดและลิงก์ที่ลิงก์แสดงถึงการเชื่อมต่อระหว่างโหนดที่เกี่ยวข้อง

ทุกโหนดในกราฟ Directed Acyclic แสดงถึงตัวแปรสุ่ม ตัวแปรสามารถเป็นค่าต่อเนื่องหรือค่าที่ไม่ต่อเนื่องและอาจสอดคล้องกับแอตทริบิวต์จริงที่กำหนดให้กับข้อมูล

เครือข่ายแบบเบย์ช่วยให้สามารถกำหนดความเป็นอิสระตามเงื่อนไขของคลาสระหว่างชุดย่อยของตัวแปรได้ มันให้แบบจำลองกราฟิกของความสัมพันธ์ที่คุณจะใช้งาน

นอกเหนือจาก DAG แล้ว เครือข่าย Bayesian ยังมีชุดตารางความน่าจะเป็นแบบมีเงื่อนไขอีกด้วย

บทสรุป

ถึงตอนนี้ คุณต้องคุ้นเคยกับพื้นฐานของการจัดประเภท Bayesian ในการทำเหมืองข้อมูล การทำความเข้าใจทฤษฎีบทเบื้องหลังการใช้งานการขุดข้อมูลมีความสำคัญต่อความก้าวหน้า

คุณคิดอย่างไรกับการจำแนกประเภท Bayesian ในการขุดข้อมูล? คุณได้ลองใช้มันหรือไม่? แบ่งปันคำตอบของคุณในความคิดเห็น เราชอบที่จะได้ยินจากคุณ

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ให้ลองดูประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ IIIT-B และ upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การจำแนกประเภทและการถดถอยในการเรียนรู้ของเครื่องคืออะไร?

การจำแนกประเภทและการถดถอยเป็นประเภทของอัลกอริธึมการเรียนรู้ภายใต้การดูแลที่ใช้ในการเรียนรู้ของเครื่อง แต่มีความแตกต่างที่ชัดเจนระหว่างอัลกอริธึมเหล่านี้ อัลกอริธึมการถดถอยในการเรียนรู้ของเครื่องใช้เพื่อประเมินค่าต่อเนื่องของตัวแปรตามตัวแปรอินพุตเฉพาะ อัลกอริธึมนี้ใช้ในการคำนวณตัวแปรต่อเนื่อง เช่น ส่วนสูง รายได้ น้ำหนัก คะแนน สภาพอากาศ ฯลฯ กล่าวคือ สามารถใช้คำนวณค่าที่ไม่ต่อเนื่องของรูปแบบจำนวนเต็มเท่านั้น อัลกอริทึมการจำแนกประเภทใช้เพื่อคำนวณค่าของตัวแปรแบบไม่ต่อเนื่อง ที่น่าสนใจคือ เทคนิคการจำแนกประเภทสามารถจัดการกับตัวแปรทั้งแบบแยกส่วนและค่าจริงได้ แต่ต้องถูกจำแนกเป็นหมวดหมู่ที่จำแนกหรือติดป้ายกำกับไว้อย่างชัดเจน

การขุดข้อมูลและการเรียนรู้ของเครื่องเหมือนกันหรือไม่

การทำเหมืองข้อมูลมีประโยชน์อย่างไร?

การทำเหมืองข้อมูลเสนอวิธีการแก้ปัญหาที่เกี่ยวข้องกับข้อมูลหรือสารสนเทศในโลกที่เน้นข้อมูลเป็นหลักอย่างมีประสิทธิภาพ ช่วยให้ธุรกิจรวบรวมข้อมูลที่เป็นประโยชน์และเชื่อถือได้ ผลลัพธ์ที่ได้คือบริษัทต่างๆ สามารถตัดสินใจหรือปรับเปลี่ยนการดำเนินงานที่ขับเคลื่อนผลกำไรได้มากขึ้นในท้ายที่สุด การทำเหมืองข้อมูลมีบทบาทสำคัญในการช่วยให้บริษัทตัดสินใจอย่างชาญฉลาด ตรวจจับและลดความเสี่ยง และลดเหตุการณ์การฉ้อโกง นักวิทยาศาสตร์ด้านข้อมูลสามารถค้นหาข้อมูลรายวันปริมาณมหาศาลได้อย่างรวดเร็วโดยใช้เทคนิคการทำเหมืองข้อมูลที่คุ้มค่าและมีประสิทธิภาพ