Decision Tree ใน Data Mining คืออะไร? ประเภท ตัวอย่างและการใช้งานจริง

เผยแพร่แล้ว: 2021-06-15

สารบัญ

ข้อมูลเบื้องต้นเกี่ยวกับการทำเหมืองข้อมูล

ข้อมูลมักจะแสดงเป็นข้อมูลดิบซึ่งจำเป็นต้องได้รับการประมวลผลอย่างมีประสิทธิภาพเพื่อแปลงเป็นข้อมูลที่เป็นประโยชน์ การคาดคะเนผลลัพธ์มักขึ้นอยู่กับกระบวนการค้นหารูปแบบ ความผิดปกติ หรือความสัมพันธ์ภายในข้อมูล กระบวนการนี้เรียกว่า "การค้นพบความรู้ในฐานข้อมูล"

เฉพาะในทศวรรษ 1990 เมื่อมีการประกาศใช้คำว่า "การทำเหมืองข้อมูล" การทำเหมืองข้อมูลก่อตั้งขึ้นในสามสาขาวิชา ได้แก่ สถิติ ปัญญาประดิษฐ์ และการเรียนรู้ของเครื่อง การทำเหมืองข้อมูลอัตโนมัติได้เปลี่ยนกระบวนการวิเคราะห์จากวิธีที่ยุ่งยากมาเป็นแนวทางที่เร็วขึ้น การทำเหมืองข้อมูลทำให้ผู้ใช้สามารถ

    • ลบข้อมูลที่มีเสียงดังและวุ่นวายทั้งหมด
    • ทำความเข้าใจข้อมูลที่เกี่ยวข้องและใช้เพื่อคาดการณ์ข้อมูลที่เป็นประโยชน์
    • กระบวนการคาดการณ์การตัดสินใจอย่างมีข้อมูลถูกเร่ง ขึ้น

การทำเหมืองข้อมูลอาจเรียกได้ว่าเป็นกระบวนการระบุรูปแบบข้อมูลที่ซ่อนอยู่ซึ่งต้องมีการจัดหมวดหมู่ จากนั้นข้อมูลเท่านั้นที่สามารถแปลงเป็นข้อมูลที่เป็นประโยชน์ได้ ข้อมูลที่เป็นประโยชน์สามารถป้อนเข้าในคลังข้อมูล อัลกอริธึมการทำเหมืองข้อมูล การวิเคราะห์ข้อมูลเพื่อการตัดสินใจ

โครงสร้างการตัดสินใจในการทำเหมืองข้อมูล

เทคนิคการทำเหมืองข้อมูลประเภทหนึ่ง โครงสร้างการตัดสินใจในการขุดข้อมูล สร้างแบบจำลองสำหรับการจำแนกประเภทของข้อมูล โมเดลถูกสร้างขึ้นในรูปแบบของโครงสร้างต้นไม้และด้วยเหตุนี้จึงอยู่ในรูปแบบการเรียนรู้ภายใต้การดูแล นอกเหนือจากแบบจำลองการจำแนกประเภทแล้ว ต้นไม้การตัดสินใจยังใช้ในการสร้างแบบจำลองการถดถอยเพื่อทำนายป้ายกำกับคลาสหรือค่าที่ช่วยในกระบวนการตัดสินใจ ทั้งข้อมูลที่เป็นตัวเลขและหมวดหมู่ เช่น เพศ อายุ ฯลฯ สามารถใช้โดยแผนภูมิการตัดสินใจ

โครงสร้างของแผนผังการตัดสินใจ

โครงสร้างของแผนผังการตัดสินใจประกอบด้วยโหนดราก กิ่ง และโหนดปลายสุด โหนดที่แตกแขนงเป็นผลของแผนผัง และโหนดภายในแสดงถึงการทดสอบในแอตทริบิวต์ โหนดปลายสุดแสดงถึงป้ายชื่อคลาส

การทำงานของแผนผังการตัดสินใจ

1. โครงสร้างการตัดสินใจทำงานภายใต้แนวทางการเรียนรู้แบบมีผู้ดูแลสำหรับตัวแปรที่รอบคอบและต่อเนื่อง ชุดข้อมูลแบ่งออกเป็นชุดย่อยตามแอตทริบิวต์ที่สำคัญที่สุดของชุดข้อมูล การระบุแอตทริบิวต์และการแยกทำได้ผ่านอัลกอริทึม

2. โครงสร้างของแผนผังการตัดสินใจประกอบด้วยโหนดรูท ซึ่งเป็นโหนดตัวทำนายที่มีนัยสำคัญ กระบวนการแยกเกิดขึ้นจากโหนดการตัดสินใจซึ่งเป็นโหนดย่อยของทรี โหนดที่ไม่แยกเพิ่มเติมจะเรียกว่าโหนดปลายหรือปลาย

3. ชุดข้อมูลแบ่งออกเป็นบริเวณที่เป็นเนื้อเดียวกันและไม่ทับซ้อนกันตามวิธีการจากบนลงล่าง ชั้นบนสุดให้ข้อสังเกตในที่เดียวซึ่งแยกออกเป็นกิ่งก้าน กระบวนการนี้เรียกว่า "Greedy Approach" เนื่องจากเน้นเฉพาะโหนดปัจจุบันมากกว่าโหนดในอนาคต

4. จนกว่าจะถึงเกณฑ์หยุด ต้นไม้การตัดสินใจจะทำงานต่อไป

5. ด้วยการสร้างแผนผังการตัดสินใจ จะมีการสร้างสัญญาณรบกวนและสิ่งผิดปกติจำนวนมาก ในการลบค่าผิดปกติเหล่านี้และข้อมูลที่มีเสียงดัง จะใช้วิธีการ "ตัดแต่งต้นไม้" ดังนั้นความแม่นยำของแบบจำลองจึงเพิ่มขึ้น

6. ตรวจสอบความถูกต้องของแบบจำลองในชุดการทดสอบที่ประกอบด้วยสิ่งอันดับทดสอบและฉลากของคลาส โมเดลที่แม่นยำถูกกำหนดโดยอิงตามเปอร์เซ็นต์ของชุดทูเพิลและคลาสของชุดการทดสอบการจัดหมวดหมู่ตามโมเดล

ภาพที่ 1 : ตัวอย่างต้นไม้ที่ไม่ได้ตัดแต่งกิ่งและตัดแต่งกิ่ง

แหล่งที่มา

ประเภทของโครงสร้างการตัดสินใจ

ต้นไม้แห่งการตัดสินใจนำไปสู่การพัฒนาแบบจำลองสำหรับการจำแนกประเภทและการถดถอยตามโครงสร้างแบบต้นไม้ ข้อมูลถูกแบ่งออกเป็นส่วนย่อยที่เล็กกว่า ผลลัพธ์ของแผนผังการตัดสินใจคือทรีที่มีโหนดการตัดสินใจและโหนดปลายสุด แผนผังการตัดสินใจสองประเภทมีคำอธิบายด้านล่าง:

1. การจำแนกประเภท

การจัดประเภทรวมถึงการสร้างแบบจำลองที่อธิบายป้ายชื่อชั้นที่สำคัญ สิ่งเหล่านี้ถูกนำไปใช้ในด้านการเรียนรู้ของเครื่องและการจดจำรูปแบบ แผนผังการตัดสินใจในแมชชีนเลิ ร์นนิง ผ่านแบบจำลองการจัดหมวดหมู่นำไปสู่การตรวจหาการฉ้อโกง การวินิจฉัยทางการแพทย์ ฯลฯ กระบวนการสองขั้นตอนของแบบจำลองการจัดหมวดหมู่ประกอบด้วย:

  • การเรียนรู้: มีการสร้างแบบจำลองการจัดหมวดหมู่ตามข้อมูลการฝึกอบรม
  • การจัดประเภท: มีการตรวจสอบความถูกต้องของแบบจำลองแล้วใช้สำหรับการจัดหมวดหมู่ข้อมูลใหม่ ป้ายกำกับคลาสจะอยู่ในรูปแบบของค่าที่ไม่ต่อเนื่อง เช่น "ใช่" หรือ "ไม่ใช่" เป็นต้น

รูปที่ 2 : ตัวอย่างแบบจำลองการจัด ประเภท

แหล่งที่มา

2. การถดถอย

ตัวแบบการถดถอยจะใช้สำหรับการวิเคราะห์การถดถอยของข้อมูล เช่น การทำนายคุณลักษณะเชิงตัวเลข สิ่งเหล่านี้เรียกว่าค่าต่อเนื่อง ดังนั้น แทนที่จะทำนายป้ายกำกับคลาส ตัวแบบการถดถอยจะทำนายค่าที่ต่อเนื่องกัน

รายการอัลกอริทึมที่ใช้

อัลกอริธึมแผนผังการตัดสินใจที่เรียกว่า “ID3” ได้รับการพัฒนาในปี 1980 โดยนักวิจัยเครื่องจักรชื่อ J. Ross Quinlan อัลกอริทึมนี้ประสบความสำเร็จโดยอัลกอริทึมอื่นๆ เช่น C4.5 ที่พัฒนาโดยเขา อัลกอริธึมทั้งสองใช้วิธีโลภ อัลกอริธึม C4.5 ไม่ใช้การย้อนรอย และต้นไม้ถูกสร้างขึ้นในลักษณะการแบ่งและพิชิตแบบเรียกซ้ำจากบนลงล่าง อัลกอริธึมใช้ชุดข้อมูลการฝึกอบรมที่มีป้ายกำกับคลาส ซึ่งแบ่งออกเป็นชุดย่อยที่เล็กกว่าเมื่อสร้างแผนผัง

  • พารามิเตอร์สามตัวถูกเลือกในตอนแรก - รายการแอตทริบิวต์ วิธีการเลือกแอตทริบิวต์ และพาร์ติชันข้อมูล คุณสมบัติของชุดการฝึกมีอธิบายไว้ในรายการแอตทริบิวต์
  • วิธีการเลือกการระบุแหล่งที่มารวมถึงวิธีการเลือกแอตทริบิวต์ที่ดีที่สุดสำหรับการเลือกปฏิบัติระหว่างทูเพิล
  • โครงสร้างแบบต้นไม้ขึ้นอยู่กับวิธีการเลือกแอตทริบิวต์
  • การสร้างต้นไม้เริ่มต้นด้วยโหนดเดียว
  • การแยกทูเปิลเกิดขึ้นเมื่อเลเบลคลาสต่างกันแสดงในทูเพิล ซึ่งจะนำไปสู่การสร้างกิ่งก้านของต้นไม้
  • วิธีการแยกเป็นตัวกำหนดว่าควรเลือกแอตทริบิวต์ใดสำหรับพาร์ติชันข้อมูล ตามวิธีนี้ กิ่งก้านจะเติบโตจากโหนดตามผลการทดสอบ
  • วิธีการแยกและการแบ่งพาร์ติชั่นจะดำเนินการแบบเรียกซ้ำ ในท้ายที่สุด ส่งผลให้เกิดแผนผังการตัดสินใจสำหรับ tuples ชุดข้อมูลการฝึกอบรม
  • กระบวนการสร้างต้นไม้ยังคงดำเนินต่อไป จนกว่าทูเพิลที่หลงเหลืออยู่จะไม่สามารถแบ่งแยกออกไปได้อีก
  • ความซับซ้อนของอัลกอริทึมแสดงโดย

n * |D| * บันทึก |D|

โดยที่ n คือจำนวนแอตทริบิวต์ในชุดข้อมูลการฝึกอบรม D และ |D| คือจำนวนของสิ่งอันดับ

แหล่งที่มา

รูปที่ 3: การแยกค่าที่ไม่ต่อเนื่อง

รายการอัลกอริทึมที่ใช้ในแผนผังการตัดสินใจ ได้แก่

ID3

ชุดข้อมูล S ทั้งหมดถือเป็นโหนดรูทขณะสร้างแผนผังการตัดสินใจ จากนั้นทำซ้ำกับทุกแอตทริบิวต์และแยกข้อมูลออกเป็นส่วนย่อย อัลกอริธึมจะตรวจสอบและนำแอตทริบิวต์เหล่านั้นซึ่งไม่ได้นำมาใช้ก่อนแอตทริบิวต์ที่ทำซ้ำ การแยกข้อมูลในอัลกอริธึม ID3 นั้นใช้เวลานานและไม่ใช่อัลกอริธึมในอุดมคติเพราะมันจะเกินข้อมูล

C4.5

เป็นรูปแบบขั้นสูงของอัลกอริธึมเนื่องจากข้อมูลถูกจัดประเภทเป็นตัวอย่าง ทั้งค่าต่อเนื่องและค่าที่ไม่ต่อเนื่องสามารถจัดการได้อย่างมีประสิทธิภาพไม่เหมือนกับ ID3 มีวิธีการตัดแต่งกิ่งเพื่อเอากิ่งที่ไม่ต้องการออก

รถเข็น

ทั้งงานการจำแนกและการถดถอยสามารถทำได้โดยอัลกอริทึม ต่างจาก ID3 และ C4.5 จุดตัดสินใจถูกสร้างขึ้นโดยพิจารณาจากดัชนี Gini ใช้อัลกอริธึมที่โลภสำหรับวิธีการแยกที่มีเป้าหมายเพื่อลดฟังก์ชันต้นทุน ในงานจำแนกประเภท ดัชนี Gini ถูกใช้เป็นฟังก์ชันต้นทุนเพื่อระบุความบริสุทธิ์ของโหนดปลายสุด ในงานถดถอย ข้อผิดพลาดผลรวมกำลังสองถูกใช้เป็นฟังก์ชันต้นทุนเพื่อค้นหาการคาดการณ์ที่ดีที่สุด

CHAID

ตามชื่อที่แนะนำ มันย่อมาจาก Chi-square Automatic Interaction Detector ซึ่งเป็นกระบวนการที่เกี่ยวข้องกับตัวแปรทุกประเภท อาจเป็นตัวแปรระบุ ลำดับ หรือตัวแปรต่อเนื่อง ต้นไม้การถดถอยใช้การทดสอบ F ในขณะที่การทดสอบ Chi-square ใช้ในแบบจำลองการจำแนกประเภท

MARS

มันย่อมาจากเส้นโค้งการถดถอยแบบปรับได้หลายตัวแปร อัลกอริธึมถูกนำมาใช้เป็นพิเศษในงานถดถอย โดยที่ข้อมูลส่วนใหญ่ไม่เป็นเชิงเส้น

การแยกไบนารีแบบเรียกซ้ำโลภ

วิธีการแยกไบนารีเกิดขึ้นทำให้เกิดสองสาขา การแยกสิ่งอันดับจะดำเนินการด้วยการคำนวณฟังก์ชันต้นทุนแยก มีการเลือกการแบ่งต้นทุนต่ำสุด และดำเนินการกระบวนการแบบวนซ้ำเพื่อคำนวณฟังก์ชันต้นทุนของทูเพิลอื่นๆ

ต้นไม้แห่งการตัดสินใจพร้อมตัวอย่างในโลกแห่งความเป็นจริง

คาดการณ์กระบวนการมีสิทธิ์ได้รับเงินกู้จากข้อมูลที่กำหนด

ขั้นที่ 1: กำลังโหลดข้อมูล

ค่า Null สามารถลบออกหรือเติมด้วยค่าบางค่าได้ รูปร่างของชุดข้อมูลเดิมคือ (614,13) และชุดข้อมูลใหม่หลังจากปล่อยค่า Null คือ (480,13)

ขั้นที่ 2: ดูชุดข้อมูล

ขั้นที่ 3: แบ่งข้อมูลออกเป็นชุดฝึกและทดสอบ

ขั้นตอนที่ 4: สร้างแบบจำลองและติดตั้งชุดรถไฟ

ก่อนการแสดงภาพจะต้องมีการคำนวณบางอย่าง

การคำนวณที่ 1: คำนวณเอนโทรปีของชุดข้อมูลทั้งหมด

การคำนวณที่ 2: ค้นหาเอนโทรปีและรับทุกคอลัมน์

  1. คอลัมน์เพศ
  • เงื่อนไขที่ 1: ชุดข้อมูลที่มีเพศชายทั้งหมดอยู่ในนั้นแล้ว

p = 278, n=116 , p+n=489

เอนโทรปี(G=ชาย) = 0.87

  • เงื่อนไข 2: ชุดข้อมูลที่มีผู้หญิงทั้งหมดอยู่ในนั้นแล้ว

p = 54 , n = 32 , p+n = 86

เอนโทรปี(G=เพศหญิง) = 0.95

  • ข้อมูลเฉลี่ยในคอลัมน์เพศ

  1. คอลัมน์แต่งงาน
  • เงื่อนไข 1: แต่งงานแล้ว = ใช่(1)

ในส่วนนี้แยกชุดข้อมูลทั้งหมดที่มีสถานะแต่งงานแล้วใช่

p = 227 , n = 84 , p+n = 311

E(แต่งงานแล้ว = ใช่) = 0.84

  • เงื่อนไข 2: แต่งงานแล้ว = ไม่(0)

ในนี้แยกชุดข้อมูลทั้งหมดที่มีสถานะสมรส no

p = 105 , n = 64 , p+n = 169

E(แต่งงานแล้ว = ไม่) = 0.957

  • ข้อมูลเฉลี่ยในคอลัมน์ที่แต่งงานแล้วคือ
  1. คอลัมน์การศึกษา
  • เงื่อนไข 1: การศึกษา = บัณฑิต(1)

p = 271 , n = 112 , p+n = 383

E(การศึกษา = บัณฑิต) = 0.87

  • เงื่อนไข 2: การศึกษา = ไม่จบการศึกษา(0)

p = 61 , n = 36 , p+n = 97

E(การศึกษา = ไม่จบการศึกษา) = 0.95

  • คอลัมน์ข้อมูลการศึกษาเฉลี่ย= 0.886

กำไร = 0.01

4) คอลัมน์ประกอบอาชีพอิสระ

  • เงื่อนไขที่ 1: การประกอบอาชีพอิสระ = ใช่(1)

p = 43 , n = 23 , p+n = 66

E(ประกอบอาชีพอิสระ=ใช่) = 0.93

  • เงื่อนไข 2: การประกอบอาชีพอิสระ = ไม่(0)

p = 289 , n = 125 , p+n = 414

E(ประกอบอาชีพอิสระ=ไม่) = 0.88

  • ข้อมูลเฉลี่ยในการประกอบอาชีพอิสระในคอลัมน์การศึกษา = 0.886

กำไร = 0.01

  1. คอลัมน์คะแนนเครดิต: คอลัมน์มีค่า 0 และ 1
  • เงื่อนไข 1: คะแนนเครดิต = 1

p = 325 , n = 85 , p+n = 410

E(คะแนนเครดิต = 1) = 0.73

  • เงื่อนไข 2: คะแนนเครดิต = 0

p = 63 , n = 7 , p+n = 70

E(คะแนนเครดิต = 0) = 0.46

  • ข้อมูลเฉลี่ยในคอลัมน์คะแนนเครดิต = 0.69

กำไร = 0.2

เปรียบเทียบค่าที่ได้รับทั้งหมด

คะแนนเครดิตมีกำไรสูงสุด ดังนั้นมันจะถูกใช้เป็นโหนดรูท

ขั้นตอนที่ 5: เห็นภาพแผนผังการตัดสินใจ

รูปที่ 5: โครงสร้างการตัดสินใจพร้อมเกณฑ์ Gini

แหล่งที่มา

รูปที่ 6: ต้นไม้ตัดสินใจพร้อมเอนโทรปีเกณฑ์

แหล่งที่มา

ขั้นตอนที่ 6: ตรวจสอบคะแนนของนางแบบ

ได้คะแนนความแม่นยำเกือบ 80%

รายการแอปพลิเคชัน

แผนภูมิการตัดสินใจส่วนใหญ่จะใช้โดยผู้เชี่ยวชาญด้านข้อมูลเพื่อทำการตรวจสอบเชิงวิเคราะห์ อาจถูกนำไปใช้อย่างกว้างขวางเพื่อวัตถุประสงค์ทางธุรกิจเพื่อวิเคราะห์หรือคาดการณ์ปัญหา ความยืดหยุ่นของโครงสร้างการตัดสินใจทำให้สามารถใช้ในพื้นที่ต่างๆ ได้:

1. การดูแลสุขภาพ

แผนผังการตัดสินใจช่วยให้สามารถคาดการณ์ได้ว่าผู้ป่วยเป็นโรคใดโรคหนึ่งที่มีเงื่อนไขอายุ น้ำหนัก เพศ ฯลฯ หรือไม่ การคาดคะเนอื่นๆ ได้แก่ การตัดสินใจผลของยาโดยพิจารณาจากปัจจัยต่างๆ เช่น องค์ประกอบ ระยะเวลาในการผลิต เป็นต้น

2. ภาคการธนาคาร

โครงสร้างการตัดสินใจช่วยในการทำนายว่าบุคคลมีสิทธิ์ได้รับเงินกู้หรือไม่ โดยพิจารณาจากสถานะทางการเงิน เงินเดือน สมาชิกในครอบครัว ฯลฯ นอกจากนี้ยังสามารถระบุการฉ้อโกงบัตรเครดิต การผิดนัดชำระหนี้ เป็นต้น

3. ภาคการศึกษา

การคัดเลือกนักเรียนโดยพิจารณาจากคะแนนการทำบุญ การเข้าร่วม ฯลฯ สามารถตัดสินใจได้โดยใช้แผนภูมิการตัดสินใจ

รายการข้อดี

  • ผลลัพธ์ที่ตีความได้ของรูปแบบการตัดสินใจสามารถนำเสนอต่อผู้บริหารระดับสูงและผู้มีส่วนได้ส่วนเสีย
  • ขณะสร้างแบบจำลองแผนผังการตัดสินใจ ไม่จำเป็นต้องมีการประมวลผลข้อมูลล่วงหน้า เช่น การทำให้เป็นมาตรฐาน การปรับขนาด ฯลฯ
  • ข้อมูลทั้งสองประเภท - ตัวเลขและหมวดหมู่สามารถจัดการได้โดยแผนผังการตัดสินใจซึ่งแสดงประสิทธิภาพการใช้งานที่สูงกว่าอัลกอริธึมอื่น ๆ
  • ค่าที่หายไปในข้อมูลจะไม่ส่งผลต่อกระบวนการของโครงสร้างการตัดสินใจ จึงทำให้เป็นอัลกอริธึมที่ยืดหยุ่นได้

อะไรต่อไป?

หากคุณสนใจที่จะหาประสบการณ์ตรงในการทำเหมืองข้อมูลและรับการฝึกอบรมจากผู้เชี่ยวชาญ คุณสามารถดูโปรแกรม Executive PG ของ upGrad ในสาขา Data Science ได้ หลักสูตรนี้จัดทำขึ้นสำหรับกลุ่มอายุใด ๆ ที่มีอายุระหว่าง 21-45 ปี โดยมีเกณฑ์คุณสมบัติขั้นต่ำ 50% หรือคะแนนผ่านเทียบเท่าในการสำเร็จการศึกษา ผู้เชี่ยวชาญด้านการทำงานทุกคนสามารถเข้าร่วมโปรแกรม PG สำหรับผู้บริหารที่ได้รับการรับรองจาก IIIT Bangalore

โครงสร้างการตัดสินใจในการทำเหมืองข้อมูลคืออะไร?


โครงสร้างการตัดสินใจเป็นวิธีสร้างแบบจำลองในการขุดข้อมูล สามารถเข้าใจได้ว่าเป็นต้นไม้ไบนารีกลับด้าน ประกอบด้วยโหนดรูท บางสาขา และโหนดปลายสุด
โหนดภายในแต่ละโหนดในแผนผังการตัดสินใจหมายถึงการศึกษาแอตทริบิวต์ แผนกแต่ละแผนกหมายถึงผลที่ตามมาของการศึกษาหรือการสอบนั้น ๆ และสุดท้ายโหนดปลายแต่ละอันแสดงถึงแท็กของคลาส
วัตถุประสงค์หลักของการสร้างโครงสร้างการตัดสินใจคือการสร้างอุดมคติที่สามารถใช้เพื่อคาดการณ์ชั้นเฉพาะโดยใช้ขั้นตอนการตัดสินใจเกี่ยวกับข้อมูลก่อนหน้า
เราเริ่มต้นด้วยโหนดรูท สร้างความสัมพันธ์บางอย่างกับตัวแปรรูท และสร้างส่วนต่างๆ ที่ยอมรับค่าเหล่านั้น ตามตัวเลือกพื้นฐาน เราข้ามไปยังโหนดที่ตามมา

โหนดสำคัญใดบ้างที่ใช้ในแผนผังการตัดสินใจ

Decision Trees ใน Data mining มีความสามารถในการจัดการข้อมูลที่ซับซ้อนมาก ต้นไม้การตัดสินใจทั้งหมดมีสามโหนดหรือส่วนที่สำคัญ มาพูดคุยกันด้านล่าง

  • โหนดการตัดสินใจ – โหนดการตัดสินใจแต่ละโหนดแสดงถึงการตัดสินใจเฉพาะ และโดยทั่วไปจะแสดงโดยใช้สี่เหลี่ยมจัตุรัส
  • Chance Nodes – มักจะเป็นตัวแทนของโอกาสหรือความสับสนและแสดงด้วยความช่วยเหลือของแวดวง
  • โหนดปลายทาง – จะแสดงโดยใช้สามเหลี่ยมและแสดงผลลัพธ์หรือคลาส

เมื่อเราเชื่อมต่อโหนดเหล่านี้ทั้งหมด เราจะได้รับการแบ่งส่วน เราสามารถสร้างต้นไม้ที่มีความยากได้หลากหลายโดยใช้โหนดและส่วนเหล่านี้ในจำนวนครั้งไม่สิ้นสุด

ข้อดีของการใช้ Decision Trees คืออะไร?

ตอนนี้เราเข้าใจการทำงานของ Decision tree แล้ว เรามาลองดูข้อดีบางประการของการใช้ Decision tree ในการทำ Data Mining
1. เมื่อเราเปรียบเทียบกับวิธีอื่น โครงสร้างการตัดสินใจไม่ต้องการการคำนวณมากสำหรับการฝึกข้อมูลระหว่างการประมวลผลล่วงหน้า
2. การรักษาเสถียรภาพของข้อมูลไม่เกี่ยวข้องกับแผนผังการตัดสินใจ
3. นอกจากนี้ พวกเขายังไม่ต้องการการปรับขนาดข้อมูลด้วยซ้ำ
4. แม้ว่าค่าบางค่าจะถูกละไว้ในชุดข้อมูล แต่ก็ไม่รบกวนการสร้างต้นไม้
5. โมเดลเหล่านี้มีสัญชาตญาณเหมือนกัน คำอธิบายเหล่านี้ปราศจากความเครียดเช่นกัน