ทำความเข้าใจกับแนวคิดของการจัดกลุ่มตามลำดับชั้นในการวิเคราะห์ข้อมูล: ฟังก์ชัน ประเภท และขั้นตอน

เผยแพร่แล้ว: 2023-04-08

การทำคลัสเตอร์หมายถึงการจัดกลุ่มข้อมูลที่คล้ายคลึงกันในกลุ่มหรือคลัสเตอร์ในการวิเคราะห์ข้อมูล คลัสเตอร์เหล่านี้ช่วยให้นักวิเคราะห์ข้อมูลจัดระเบียบจุดข้อมูลที่คล้ายกันเป็นกลุ่มเดียว ขณะเดียวกันก็แยกความแตกต่างจากข้อมูลอื่นๆ ที่ไม่คล้ายกัน

การจัดกลุ่ม ข้อมูลแบบลำดับชั้นเป็นวิธีการหนึ่งที่ใช้ในการจัดกลุ่มข้อมูลเป็นแผนผังของคลัสเตอร์ เป็นวิธีการจัดกลุ่มข้อมูลที่ได้รับความนิยมและมีประโยชน์มากที่สุดวิธีหนึ่ง หากคุณต้องการเป็นส่วนหนึ่งของ สาขาวิทยาศาสตร์ข้อมูลและการวิเคราะห์ข้อมูลที่กำลังเติบโต การจัดกลุ่มแบบลำดับชั้นเป็นหนึ่งในสิ่งที่สำคัญที่สุดที่ต้องเรียนรู้

บทความนี้จะช่วยให้คุณเข้าใจธรรมชาติของการจัดกลุ่มแบบลำดับชั้น ฟังก์ชัน ประเภท และข้อดี

สารบัญ

การทำคลัสเตอร์แบบลำดับชั้นคืออะไร?

ตามชื่อที่แนะนำ การแบ่งกลุ่มแบบลำดับชั้น จะจัดกลุ่มข้อมูลต่างๆ เป็นกลุ่มในรูปแบบลำดับชั้นหรือแบบต้นไม้ ทุกจุดข้อมูลถือเป็นคลัสเตอร์แยกต่างหากในวิธีนี้ การวิเคราะห์คลัสเตอร์แบบลำดับชั้น เป็นที่นิยมมากในหมู่นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูล เนื่องจากเป็นการสรุปข้อมูลเป็นลำดับชั้นของกลุ่มที่สามารถจัดการได้ซึ่งง่ายต่อการวิเคราะห์

อั ลกอริทึม การจัดกลุ่มแบบลำดับชั้น ใช้จุดข้อมูลที่แตกต่างกันหลายจุด และนำจุดที่ใกล้ที่สุดของสองจุดมาสร้างเป็นคลัสเตอร์ ทำซ้ำขั้นตอนเหล่านี้จนกว่าจุดข้อมูลทั้งหมดจะกลายเป็นคลัสเตอร์เดียว กระบวนการยังสามารถกลับด้านเพื่อแบ่งคลัสเตอร์ที่ผสานเดียวออกเป็นคลัสเตอร์ขนาดเล็กต่างๆ และท้ายที่สุดเป็นจุดข้อมูล

วิธีการจัดกลุ่มแบบลำดับชั้นสามารถแสดงเป็นภาพ dendrogram ซึ่งเป็นไดอะแกรมแบบต้นไม้ dendrogram สามารถตัดออกได้ทุกเมื่อในระหว่างกระบวนการจัดกลุ่มเมื่อสร้างกลุ่มตามจำนวนที่ต้องการแล้ว นอกจากนี้ยังทำให้กระบวนการวิเคราะห์ข้อมูลง่ายขึ้น

Hierarchical Clustering ทำงานอย่างไร?

กระบวนการจัดกลุ่มตามลำดับชั้นนั้นค่อนข้างง่ายที่จะเข้าใจ อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นถือว่าชุดข้อมูลที่มีอยู่ทั้งหมดเป็นคลัสเตอร์ที่แตกต่างกัน จากนั้น จะระบุชุดข้อมูลสองชุดที่มีความคล้ายคลึงกันมากที่สุดและรวมเข้าด้วยกันเป็นคลัสเตอร์ หลังจากนั้น ระบบจะทำขั้นตอนเหล่านี้ซ้ำไปเรื่อยๆ จนกว่าจุดข้อมูลทั้งหมดจะรวมกันเป็นคลัสเตอร์ขนาดใหญ่เดียว กระบวนการยังสามารถหยุดได้เมื่อจำนวนคลัสเตอร์ที่ต้องการพร้อมสำหรับการวิเคราะห์

ความคืบหน้าและผลลัพธ์ของกระบวนการจัดกลุ่มตามลำดับชั้นสามารถแสดงเป็นภาพ dendrogram ที่สามารถช่วยคุณระบุความสัมพันธ์ระหว่างคลัสเตอร์ต่างๆ และความคล้ายคลึงหรือแตกต่างกันโดยธรรมชาติ

ประเภทของการรวมกลุ่มตามลำดับชั้น

อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นสามารถใช้ได้ในสองวิธีที่แตกต่างกัน ต่อไปนี้คือลักษณะของการจัดกลุ่มลำดับชั้นสองประเภทที่คุณสามารถใช้ได้

1. การรวมกลุ่มแบบลำดับชั้นแบบรวมกลุ่ม

วิธีการรวมเป็นวิธีที่นิยมใช้ในการจัดกลุ่มข้อมูลแบบลำดับชั้น ในวิธีนี้ อัลกอริทึมจะแสดงด้วยชุดข้อมูลที่แตกต่างกันหลายชุด ซึ่งแต่ละชุดจะถือว่าเป็นคลัสเตอร์ของตัวเอง จากนั้นอัลกอริทึมจะเริ่มรวมเป็นกลุ่มสองกลุ่มตามความคล้ายคลึงกัน ทำซ้ำขั้นตอนเหล่านี้จนกว่าจะถึงจำนวนคลัสเตอร์ที่ต้องการ วิธีนี้เป็นที่นิยมใช้ใน การวิเคราะห์คลัสเตอร์แบบลำดับ ชั้น

2. การแบ่งกลุ่มแบบลำดับชั้น

วิธีการแบ่งการจัดกลุ่มแบบลำดับชั้นเป็นวิธีที่ตรงกันข้ามกับวิธีการรวมกลุ่ม ในวิธีนี้ อัลกอริทึมจะถูกนำเสนอด้วยคลัสเตอร์เดียวขนาดใหญ่ของจุดข้อมูลจำนวนมาก ซึ่งแยกความแตกต่างทีละขั้นตอนตามความเหลื่อมล้ำ ส่งผลให้ชุดข้อมูลหลายชุดมีคุณสมบัติต่างกัน วิธีการหารไม่ได้ใช้บ่อยนักในทางปฏิบัติ

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโทเพื่อความก้าวหน้าในอาชีพของคุณ

ขั้นตอนในการทำคลัสเตอร์แบบลำดับชั้น

ดังที่ได้กล่าวไว้ก่อนหน้านี้ มีสามขั้นตอนหลักในการจัดกลุ่มข้อมูลตามลำดับชั้น

  1. การระบุความคล้ายคลึงกันระหว่างจุดข้อมูลสองจุดที่แตกต่างกัน
  2. รวมเป็นคลัสเตอร์เดียว
  3. ทำซ้ำขั้นตอนเหล่านี้กับจุดข้อมูลทั้งหมดจนกว่าจะรวมเป็นคลัสเตอร์ข้อมูลขนาดใหญ่กลุ่มเดียว

อย่างไรก็ตาม สิ่งสำคัญคือต้องจดจำวิธีระบุจุดที่คล้ายกันในการจัดกลุ่มแบบลำดับชั้น หากคุณศึกษา dendrogram ที่สร้างโดยอัลกอริทึม คุณสามารถระบุจุดศูนย์กลางของแต่ละคลัสเตอร์ที่แตกต่างกันได้อย่างง่ายดาย กลุ่มที่มีระยะห่างจากกันน้อยที่สุดใน dendrogram นั้นมีความคล้ายคลึงกันมากที่สุด นี่คือเหตุผลว่าทำไมจึงเรียกว่าอัลกอริทึมตามระยะทาง ความคล้ายคลึงกันระหว่างคลัสเตอร์หนึ่งกับกลุ่มอื่น ๆ ทั้งหมดใน dendrogram เรียกว่าเมทริกซ์ความใกล้ชิด

คุณต้องเลือกการวัดระยะทางที่ถูกต้องในขณะที่ใช้การจัดกลุ่มแบบลำดับชั้น ตัวอย่างเช่น ขึ้นอยู่กับว่าคุณเลือกมาตรวัดระยะทางเป็นเพศหรือภูมิหลังทางการศึกษาของพวกเขา ชุดข้อมูลที่เกี่ยวข้องกับข้อมูลเกี่ยวกับคนๆ เดียวกันจะสร้าง dendrograms ที่แตกต่างกัน

อ่านบทความวิทยาศาสตร์ข้อมูลยอดนิยมของเรา

เส้นทางอาชีพด้านวิทยาศาสตร์ข้อมูล: คู่มืออาชีพที่ครอบคลุม Data Science Career Growth: อนาคตของงานมาถึงแล้ว เหตุใดวิทยาศาสตร์ข้อมูลจึงมีความสำคัญ 8 วิธีที่วิทยาการข้อมูลนำคุณค่ามาสู่ธุรกิจ
ความเกี่ยวข้องของวิทยาศาสตร์ข้อมูลสำหรับผู้จัดการ สุดยอดสูตรโกงวิทยาศาสตร์ข้อมูลที่นักวิทยาศาสตร์ข้อมูลทุกคนควรมี เหตุผล 6 อันดับแรกที่คุณควรมาเป็นนักวิทยาศาสตร์ข้อมูล
หนึ่งวันในชีวิตของ Data Scientist: พวกเขาทำอะไร? Myth Busted: Data Science ไม่ต้องการการเข้ารหัส Business Intelligence vs Data Science: อะไรคือความแตกต่าง?

Python การทำคลัสเตอร์แบบลำดับชั้น

ตอนนี้ คุณมีความเข้าใจที่ชัดเจนเกี่ยวกับการทำคลัสเตอร์ แบบ ลำดับชั้นแล้ว ให้เราดูวิธีดำเนินการ Python แบบคลัสเตอร์แบบลำดับชั้น นี่คือลักษณะของการทำคลัสเตอร์แบบลำดับชั้นโดยใช้ ไลบรารี'scikit-learn' ของ Python

สมมติว่ามีตัวแปรสองตัว ( x และ y) ในชุดข้อมูลที่มีการสังเกต 6 ตัว:

ข้อสังเกต x
1 1 1
2 2 1
3 4 3
4 5 4
5 6 5
6 7 5

ในฐานะที่เป็นแผนภาพกระจาย การสังเกตเหล่านี้จะถูกทำให้เห็นภาพ:

หลาม

นำเข้า numpy เป็น

นำเข้า matplotlib.pyplot เป็น plt

#กำหนดชุดข้อมูล

X = np.array([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])

#ปักหมุดข้อมูล

plt.scatter(X[:, 0], X[:,1])

plt.show()

มีการสังเกตสองกลุ่มในพล็อตนี้ กลุ่มหนึ่งมีค่า x และ yต่ำ กว่า และอีกกลุ่มหนึ่งมีค่าxและyสูงกว่า

คุณสามารถใช้'scikit learn' เพื่อทำการจัดกลุ่มแบบลำดับชั้นในชุดข้อมูลนี้ได้

การสังเกตสองกลุ่มในพล็อตมีค่าต่างกัน หนึ่งประกอบด้วยค่า x และ yที่สูงกว่า และอีกอันมีค่าต่ำกว่า

ตรวจสอบหลักสูตรวิทยาศาสตร์ข้อมูลฟรี ของเรา เพื่อรับความได้เปรียบเหนือการแข่งขัน

จากสองวิธีหลักของการจัดกลุ่มแบบลำดับชั้นที่เราได้กล่าวถึงก่อนหน้านี้ เราจะใช้วิธีการจัดกลุ่มแบบรวมเข้ากับวิธี การเชื่อมโยง 'วอร์ด 'วิธี 'วอร์ด' ช่วยลดความแตกต่างของคลัสเตอร์ที่รวมเข้าด้วยกัน ดังนั้นจึงสร้างคลัสเตอร์ที่มีขนาดและรูปร่างใกล้เคียงกัน

สำรวจหลักสูตรวิทยาศาสตร์ข้อมูลยอดนิยมของเรา

หลักสูตรบริหารธุรกิจบัณฑิตสาขาวิทยาศาสตร์ข้อมูลจาก IIITB หลักสูตรประกาศนียบัตรวิชาชีพด้านวิทยาศาสตร์ข้อมูลเพื่อการตัดสินใจทางธุรกิจ วิทยาศาสตรมหาบัณฑิต สาขา Data Science จาก University of Arizona
หลักสูตรประกาศนียบัตรขั้นสูงด้านวิทยาศาสตร์ข้อมูลจาก IIITB หลักสูตรประกาศนียบัตรวิชาชีพด้าน Data Science and Business Analytics จาก University of Maryland หลักสูตรวิทยาศาสตร์ข้อมูล

หลาม

จาก sklearn.clusterนำเข้าAgglomerativeClustering

# ดำเนินการจัดกลุ่มตามลำดับชั้น

การทำคลัสเตอร์ AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)

ที่นี่ใช้พารามิเตอร์ 'n-clusters ' เพื่อระบุว่าเราต้องการสองคลัสเตอร์

เราสามารถใช้สีที่แตกต่างกันสำหรับแต่ละคลัสเตอร์เมื่อเราพล็อต:

หลาม

#วางแผนกลุ่ม

color= np.array([' r', 'b'])

plt.scatter (X[:, 0], X[:,1], c=สี [clustering.labels_])

plt.show()

สองคลัสเตอร์ในข้อมูลได้รับการระบุอย่างถูกต้องโดยอัลกอริทึมการจัดกลุ่ม คุณยังสามารถใช้ป้ายกำกับที่อัลกอริทึมการจัดกลุ่มกำหนดให้กับการสังเกตแต่ละครั้ง:

หลาม

พิมพ์ (clustering.labels_)

คมชัด

[ 0 0 1 1 1 1]

การสังเกตสี่ครั้งล่าสุดถูกกำหนดให้กับคลัสเตอร์ 1 ในขณะที่สองรายการแรกถูกกำหนดให้กับคลัสเตอร์ 0

หากคุณต้องการแสดงภาพโครงสร้างลำดับชั้นของคลัสเตอร์เหล่านี้ คุณสามารถสร้าง dendrogram ได้:

หลาม

จาก scipy.cluster.hierarchyนำเข้าdendrogram, การเชื่อมโยง

# คำนวณเมทริกซ์การเชื่อมโยง

Z = การเชื่อมโยง (X, ' วอร์ด')

# พล็อต dendrogram

เดนโดรแกรม(Z)

plt.show()

dendrogram สามารถช่วยให้เราเห็นภาพลำดับชั้นของคลัสเตอร์ที่ผสาน

ทักษะด้านวิทยาศาสตร์ข้อมูลอันดับต้น ๆ ที่ต้องเรียนรู้

ทักษะด้านวิทยาศาสตร์ข้อมูลอันดับต้น ๆ ที่ต้องเรียนรู้
1 หลักสูตรการวิเคราะห์ข้อมูล หลักสูตร สถิติอนุมาน
2 โปรแกรมทดสอบสมมติฐาน หลักสูตรการถดถอยโลจิสติก
3 หลักสูตรการถดถอยเชิงเส้น พีชคณิตเชิงเส้นสำหรับการวิเคราะห์

บทสรุป

การจัดกลุ่มข้อมูลเป็นส่วนสำคัญของวิทยาการข้อมูลและการวิเคราะห์ข้อมูล หากคุณต้องการเรียนรู้วิธีการจัดกลุ่มแบบต่างๆ upGrad สามารถช่วยคุณเริ่มต้นเส้นทางการเรียนรู้ของคุณได้! ด้วยความช่วยเหลือจากชั้นเรียนปริญญาโท เซสชันอุตสาหกรรม เซสชันการให้คำปรึกษา Python Programming Bootcamp และเซสชันการเรียนรู้สด หลักสูตร วิทยาศาสตรมหาบัณฑิตสาขาวิทยาศาสตร์ข้อมูล ของ upGrad เป็นหลักสูตรที่ออกแบบมาสำหรับมืออาชีพเพื่อให้ได้เปรียบเหนือคู่แข่ง

เปิดสอนภายใต้คำแนะนำของมหาวิทยาลัยแอริโซนา หลักสูตรนี้ส่งเสริมอาชีพด้านวิทยาศาสตร์ข้อมูลของคุณด้วยหลักสูตรที่ทันสมัย ​​ประสบการณ์การเรียนรู้ที่ดื่มด่ำกับผู้เชี่ยวชาญในอุตสาหกรรมและโอกาสในการทำงาน

ถาม: เหตุใดเราจึงทำการจัดกลุ่มตามลำดับชั้นในวิทยาศาสตร์ข้อมูล

การจัดกลุ่มแบบลำดับชั้นใช้เพื่อจัดกลุ่มข้อมูลตามแอตทริบิวต์ที่คล้ายคลึงกันต่างๆ การกระจายแง่มุมของข้อมูลในกลุ่มที่เข้าใจได้ด้วยภาพทำให้การใช้งานจริงง่ายขึ้นโดยดูที่ dendrogram อย่างง่ายดาย

ถาม การจัดกลุ่มแบบลำดับชั้นใช้ทำอะไร

การจัดกลุ่มตามลำดับชั้นเป็นรูปแบบการจัดกลุ่มข้อมูลที่ใช้กันอย่างแพร่หลายซึ่งสร้างผ่านไซต์เครือข่ายสังคม เมื่อใช้ข้อมูลนี้ นักวิเคราะห์สามารถเก็บเกี่ยวข้อมูลเชิงลึกอันมีค่าที่เกี่ยวข้องเพื่อปรับปรุงกระบวนการทางธุรกิจและสร้างรายได้ให้ดีขึ้น

ถาม ข้อจำกัดของการจัดกลุ่มแบบลำดับชั้นคืออะไร

การจัดกลุ่มแบบลำดับชั้นไม่เหมาะกับประเภทผสมหรือข้อมูลที่ขาดหายไป ข้อจำกัดอีกประการของการจัดกลุ่มแบบลำดับชั้นคือทำงานได้ไม่ดีนักกับชุดข้อมูลขนาดใหญ่