ทำความเข้าใจกับแนวคิดของการจัดกลุ่มตามลำดับชั้นในการวิเคราะห์ข้อมูล: ฟังก์ชัน ประเภท และขั้นตอน
เผยแพร่แล้ว: 2023-04-08การทำคลัสเตอร์หมายถึงการจัดกลุ่มข้อมูลที่คล้ายคลึงกันในกลุ่มหรือคลัสเตอร์ในการวิเคราะห์ข้อมูล คลัสเตอร์เหล่านี้ช่วยให้นักวิเคราะห์ข้อมูลจัดระเบียบจุดข้อมูลที่คล้ายกันเป็นกลุ่มเดียว ขณะเดียวกันก็แยกความแตกต่างจากข้อมูลอื่นๆ ที่ไม่คล้ายกัน
การจัดกลุ่ม ข้อมูลแบบลำดับชั้นเป็นวิธีการหนึ่งที่ใช้ในการจัดกลุ่มข้อมูลเป็นแผนผังของคลัสเตอร์ เป็นวิธีการจัดกลุ่มข้อมูลที่ได้รับความนิยมและมีประโยชน์มากที่สุดวิธีหนึ่ง หากคุณต้องการเป็นส่วนหนึ่งของ สาขาวิทยาศาสตร์ข้อมูลและการวิเคราะห์ข้อมูลที่กำลังเติบโต การจัดกลุ่มแบบลำดับชั้นเป็นหนึ่งในสิ่งที่สำคัญที่สุดที่ต้องเรียนรู้
บทความนี้จะช่วยให้คุณเข้าใจธรรมชาติของการจัดกลุ่มแบบลำดับชั้น ฟังก์ชัน ประเภท และข้อดี
สารบัญ
การทำคลัสเตอร์แบบลำดับชั้นคืออะไร?
ตามชื่อที่แนะนำ การแบ่งกลุ่มแบบลำดับชั้น จะจัดกลุ่มข้อมูลต่างๆ เป็นกลุ่มในรูปแบบลำดับชั้นหรือแบบต้นไม้ ทุกจุดข้อมูลถือเป็นคลัสเตอร์แยกต่างหากในวิธีนี้ การวิเคราะห์คลัสเตอร์แบบลำดับชั้น เป็นที่นิยมมากในหมู่นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูล เนื่องจากเป็นการสรุปข้อมูลเป็นลำดับชั้นของกลุ่มที่สามารถจัดการได้ซึ่งง่ายต่อการวิเคราะห์
อั ลกอริทึม การจัดกลุ่มแบบลำดับชั้น ใช้จุดข้อมูลที่แตกต่างกันหลายจุด และนำจุดที่ใกล้ที่สุดของสองจุดมาสร้างเป็นคลัสเตอร์ ทำซ้ำขั้นตอนเหล่านี้จนกว่าจุดข้อมูลทั้งหมดจะกลายเป็นคลัสเตอร์เดียว กระบวนการยังสามารถกลับด้านเพื่อแบ่งคลัสเตอร์ที่ผสานเดียวออกเป็นคลัสเตอร์ขนาดเล็กต่างๆ และท้ายที่สุดเป็นจุดข้อมูล
วิธีการจัดกลุ่มแบบลำดับชั้นสามารถแสดงเป็นภาพ dendrogram ซึ่งเป็นไดอะแกรมแบบต้นไม้ dendrogram สามารถตัดออกได้ทุกเมื่อในระหว่างกระบวนการจัดกลุ่มเมื่อสร้างกลุ่มตามจำนวนที่ต้องการแล้ว นอกจากนี้ยังทำให้กระบวนการวิเคราะห์ข้อมูลง่ายขึ้น
Hierarchical Clustering ทำงานอย่างไร?
กระบวนการจัดกลุ่มตามลำดับชั้นนั้นค่อนข้างง่ายที่จะเข้าใจ อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นถือว่าชุดข้อมูลที่มีอยู่ทั้งหมดเป็นคลัสเตอร์ที่แตกต่างกัน จากนั้น จะระบุชุดข้อมูลสองชุดที่มีความคล้ายคลึงกันมากที่สุดและรวมเข้าด้วยกันเป็นคลัสเตอร์ หลังจากนั้น ระบบจะทำขั้นตอนเหล่านี้ซ้ำไปเรื่อยๆ จนกว่าจุดข้อมูลทั้งหมดจะรวมกันเป็นคลัสเตอร์ขนาดใหญ่เดียว กระบวนการยังสามารถหยุดได้เมื่อจำนวนคลัสเตอร์ที่ต้องการพร้อมสำหรับการวิเคราะห์
ความคืบหน้าและผลลัพธ์ของกระบวนการจัดกลุ่มตามลำดับชั้นสามารถแสดงเป็นภาพ dendrogram ที่สามารถช่วยคุณระบุความสัมพันธ์ระหว่างคลัสเตอร์ต่างๆ และความคล้ายคลึงหรือแตกต่างกันโดยธรรมชาติ
ประเภทของการรวมกลุ่มตามลำดับชั้น
อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นสามารถใช้ได้ในสองวิธีที่แตกต่างกัน ต่อไปนี้คือลักษณะของการจัดกลุ่มลำดับชั้นสองประเภทที่คุณสามารถใช้ได้
1. การรวมกลุ่มแบบลำดับชั้นแบบรวมกลุ่ม
วิธีการรวมเป็นวิธีที่นิยมใช้ในการจัดกลุ่มข้อมูลแบบลำดับชั้น ในวิธีนี้ อัลกอริทึมจะแสดงด้วยชุดข้อมูลที่แตกต่างกันหลายชุด ซึ่งแต่ละชุดจะถือว่าเป็นคลัสเตอร์ของตัวเอง จากนั้นอัลกอริทึมจะเริ่มรวมเป็นกลุ่มสองกลุ่มตามความคล้ายคลึงกัน ทำซ้ำขั้นตอนเหล่านี้จนกว่าจะถึงจำนวนคลัสเตอร์ที่ต้องการ วิธีนี้เป็นที่นิยมใช้ใน การวิเคราะห์คลัสเตอร์แบบลำดับ ชั้น
2. การแบ่งกลุ่มแบบลำดับชั้น
วิธีการแบ่งการจัดกลุ่มแบบลำดับชั้นเป็นวิธีที่ตรงกันข้ามกับวิธีการรวมกลุ่ม ในวิธีนี้ อัลกอริทึมจะถูกนำเสนอด้วยคลัสเตอร์เดียวขนาดใหญ่ของจุดข้อมูลจำนวนมาก ซึ่งแยกความแตกต่างทีละขั้นตอนตามความเหลื่อมล้ำ ส่งผลให้ชุดข้อมูลหลายชุดมีคุณสมบัติต่างกัน วิธีการหารไม่ได้ใช้บ่อยนักในทางปฏิบัติ
เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโทเพื่อความก้าวหน้าในอาชีพของคุณ
ขั้นตอนในการทำคลัสเตอร์แบบลำดับชั้น
ดังที่ได้กล่าวไว้ก่อนหน้านี้ มีสามขั้นตอนหลักในการจัดกลุ่มข้อมูลตามลำดับชั้น
- การระบุความคล้ายคลึงกันระหว่างจุดข้อมูลสองจุดที่แตกต่างกัน
- รวมเป็นคลัสเตอร์เดียว
- ทำซ้ำขั้นตอนเหล่านี้กับจุดข้อมูลทั้งหมดจนกว่าจะรวมเป็นคลัสเตอร์ข้อมูลขนาดใหญ่กลุ่มเดียว
อย่างไรก็ตาม สิ่งสำคัญคือต้องจดจำวิธีระบุจุดที่คล้ายกันในการจัดกลุ่มแบบลำดับชั้น หากคุณศึกษา dendrogram ที่สร้างโดยอัลกอริทึม คุณสามารถระบุจุดศูนย์กลางของแต่ละคลัสเตอร์ที่แตกต่างกันได้อย่างง่ายดาย กลุ่มที่มีระยะห่างจากกันน้อยที่สุดใน dendrogram นั้นมีความคล้ายคลึงกันมากที่สุด นี่คือเหตุผลว่าทำไมจึงเรียกว่าอัลกอริทึมตามระยะทาง ความคล้ายคลึงกันระหว่างคลัสเตอร์หนึ่งกับกลุ่มอื่น ๆ ทั้งหมดใน dendrogram เรียกว่าเมทริกซ์ความใกล้ชิด
คุณต้องเลือกการวัดระยะทางที่ถูกต้องในขณะที่ใช้การจัดกลุ่มแบบลำดับชั้น ตัวอย่างเช่น ขึ้นอยู่กับว่าคุณเลือกมาตรวัดระยะทางเป็นเพศหรือภูมิหลังทางการศึกษาของพวกเขา ชุดข้อมูลที่เกี่ยวข้องกับข้อมูลเกี่ยวกับคนๆ เดียวกันจะสร้าง dendrograms ที่แตกต่างกัน
อ่านบทความวิทยาศาสตร์ข้อมูลยอดนิยมของเรา
เส้นทางอาชีพด้านวิทยาศาสตร์ข้อมูล: คู่มืออาชีพที่ครอบคลุม | Data Science Career Growth: อนาคตของงานมาถึงแล้ว | เหตุใดวิทยาศาสตร์ข้อมูลจึงมีความสำคัญ 8 วิธีที่วิทยาการข้อมูลนำคุณค่ามาสู่ธุรกิจ |
ความเกี่ยวข้องของวิทยาศาสตร์ข้อมูลสำหรับผู้จัดการ | สุดยอดสูตรโกงวิทยาศาสตร์ข้อมูลที่นักวิทยาศาสตร์ข้อมูลทุกคนควรมี | เหตุผล 6 อันดับแรกที่คุณควรมาเป็นนักวิทยาศาสตร์ข้อมูล |
หนึ่งวันในชีวิตของ Data Scientist: พวกเขาทำอะไร? | Myth Busted: Data Science ไม่ต้องการการเข้ารหัส | Business Intelligence vs Data Science: อะไรคือความแตกต่าง? |
Python การทำคลัสเตอร์แบบลำดับชั้น
ตอนนี้ คุณมีความเข้าใจที่ชัดเจนเกี่ยวกับการทำคลัสเตอร์ แบบ ลำดับชั้นแล้ว ให้เราดูวิธีดำเนินการ Python แบบคลัสเตอร์แบบลำดับชั้น นี่คือลักษณะของการทำคลัสเตอร์แบบลำดับชั้นโดยใช้ ไลบรารี'scikit-learn' ของ Python
สมมติว่ามีตัวแปรสองตัว ( x และ y) ในชุดข้อมูลที่มีการสังเกต 6 ตัว:
ข้อสังเกต | x | ย |
1 | 1 | 1 |
2 | 2 | 1 |
3 | 4 | 3 |
4 | 5 | 4 |
5 | 6 | 5 |
6 | 7 | 5 |
ในฐานะที่เป็นแผนภาพกระจาย การสังเกตเหล่านี้จะถูกทำให้เห็นภาพ:
หลาม
นำเข้า numpy เป็น
น
นำเข้า matplotlib.pyplot เป็น plt
#กำหนดชุดข้อมูล
X = np.array([[ 1,1], [2,1], [4,3], [5,4], [6,5], [7,5]])
#ปักหมุดข้อมูล
plt.scatter(X[:, 0], X[:,1])
plt.show()
มีการสังเกตสองกลุ่มในพล็อตนี้ กลุ่มหนึ่งมีค่า x และ yต่ำ กว่า และอีกกลุ่มหนึ่งมีค่าxและyสูงกว่า
คุณสามารถใช้'scikit learn' เพื่อทำการจัดกลุ่มแบบลำดับชั้นในชุดข้อมูลนี้ได้
การสังเกตสองกลุ่มในพล็อตมีค่าต่างกัน หนึ่งประกอบด้วยค่า x และ yที่สูงกว่า และอีกอันมีค่าต่ำกว่า
ตรวจสอบหลักสูตรวิทยาศาสตร์ข้อมูลฟรี ของเรา เพื่อรับความได้เปรียบเหนือการแข่งขัน
จากสองวิธีหลักของการจัดกลุ่มแบบลำดับชั้นที่เราได้กล่าวถึงก่อนหน้านี้ เราจะใช้วิธีการจัดกลุ่มแบบรวมเข้ากับวิธี การเชื่อมโยง 'วอร์ด 'วิธี 'วอร์ด' ช่วยลดความแตกต่างของคลัสเตอร์ที่รวมเข้าด้วยกัน ดังนั้นจึงสร้างคลัสเตอร์ที่มีขนาดและรูปร่างใกล้เคียงกัน
สำรวจหลักสูตรวิทยาศาสตร์ข้อมูลยอดนิยมของเรา
หลักสูตรบริหารธุรกิจบัณฑิตสาขาวิทยาศาสตร์ข้อมูลจาก IIITB | หลักสูตรประกาศนียบัตรวิชาชีพด้านวิทยาศาสตร์ข้อมูลเพื่อการตัดสินใจทางธุรกิจ | วิทยาศาสตรมหาบัณฑิต สาขา Data Science จาก University of Arizona |
หลักสูตรประกาศนียบัตรขั้นสูงด้านวิทยาศาสตร์ข้อมูลจาก IIITB | หลักสูตรประกาศนียบัตรวิชาชีพด้าน Data Science and Business Analytics จาก University of Maryland | หลักสูตรวิทยาศาสตร์ข้อมูล |
หลาม
จาก sklearn.clusterนำเข้าAgglomerativeClustering
# ดำเนินการจัดกลุ่มตามลำดับชั้น
การทำคลัสเตอร์ AgglomerativeClustering (n_clusters= 2, linkage='ward').fit(X)
ที่นี่ใช้พารามิเตอร์ 'n-clusters ' เพื่อระบุว่าเราต้องการสองคลัสเตอร์
เราสามารถใช้สีที่แตกต่างกันสำหรับแต่ละคลัสเตอร์เมื่อเราพล็อต:
หลาม
#วางแผนกลุ่ม
color= np.array([' r', 'b'])
plt.scatter (X[:, 0], X[:,1], c=สี [clustering.labels_])
plt.show()
สองคลัสเตอร์ในข้อมูลได้รับการระบุอย่างถูกต้องโดยอัลกอริทึมการจัดกลุ่ม คุณยังสามารถใช้ป้ายกำกับที่อัลกอริทึมการจัดกลุ่มกำหนดให้กับการสังเกตแต่ละครั้ง:
หลาม
พิมพ์ (clustering.labels_)
คมชัด
[ 0 0 1 1 1 1]
การสังเกตสี่ครั้งล่าสุดถูกกำหนดให้กับคลัสเตอร์ 1 ในขณะที่สองรายการแรกถูกกำหนดให้กับคลัสเตอร์ 0
หากคุณต้องการแสดงภาพโครงสร้างลำดับชั้นของคลัสเตอร์เหล่านี้ คุณสามารถสร้าง dendrogram ได้:
หลาม
จาก scipy.cluster.hierarchyนำเข้าdendrogram, การเชื่อมโยง
# คำนวณเมทริกซ์การเชื่อมโยง
Z = การเชื่อมโยง (X, ' วอร์ด')
# พล็อต dendrogram
เดนโดรแกรม(Z)
plt.show()
dendrogram สามารถช่วยให้เราเห็นภาพลำดับชั้นของคลัสเตอร์ที่ผสาน
ทักษะด้านวิทยาศาสตร์ข้อมูลอันดับต้น ๆ ที่ต้องเรียนรู้
ทักษะด้านวิทยาศาสตร์ข้อมูลอันดับต้น ๆ ที่ต้องเรียนรู้ | ||
1 | หลักสูตรการวิเคราะห์ข้อมูล | หลักสูตร สถิติอนุมาน |
2 | โปรแกรมทดสอบสมมติฐาน | หลักสูตรการถดถอยโลจิสติก |
3 | หลักสูตรการถดถอยเชิงเส้น | พีชคณิตเชิงเส้นสำหรับการวิเคราะห์ |
บทสรุป
การจัดกลุ่มข้อมูลเป็นส่วนสำคัญของวิทยาการข้อมูลและการวิเคราะห์ข้อมูล หากคุณต้องการเรียนรู้วิธีการจัดกลุ่มแบบต่างๆ upGrad สามารถช่วยคุณเริ่มต้นเส้นทางการเรียนรู้ของคุณได้! ด้วยความช่วยเหลือจากชั้นเรียนปริญญาโท เซสชันอุตสาหกรรม เซสชันการให้คำปรึกษา Python Programming Bootcamp และเซสชันการเรียนรู้สด หลักสูตร วิทยาศาสตรมหาบัณฑิตสาขาวิทยาศาสตร์ข้อมูล ของ upGrad เป็นหลักสูตรที่ออกแบบมาสำหรับมืออาชีพเพื่อให้ได้เปรียบเหนือคู่แข่ง
เปิดสอนภายใต้คำแนะนำของมหาวิทยาลัยแอริโซนา หลักสูตรนี้ส่งเสริมอาชีพด้านวิทยาศาสตร์ข้อมูลของคุณด้วยหลักสูตรที่ทันสมัย ประสบการณ์การเรียนรู้ที่ดื่มด่ำกับผู้เชี่ยวชาญในอุตสาหกรรมและโอกาสในการทำงาน
ถาม: เหตุใดเราจึงทำการจัดกลุ่มตามลำดับชั้นในวิทยาศาสตร์ข้อมูล
การจัดกลุ่มแบบลำดับชั้นใช้เพื่อจัดกลุ่มข้อมูลตามแอตทริบิวต์ที่คล้ายคลึงกันต่างๆ การกระจายแง่มุมของข้อมูลในกลุ่มที่เข้าใจได้ด้วยภาพทำให้การใช้งานจริงง่ายขึ้นโดยดูที่ dendrogram อย่างง่ายดาย
ถาม การจัดกลุ่มแบบลำดับชั้นใช้ทำอะไร
การจัดกลุ่มตามลำดับชั้นเป็นรูปแบบการจัดกลุ่มข้อมูลที่ใช้กันอย่างแพร่หลายซึ่งสร้างผ่านไซต์เครือข่ายสังคม เมื่อใช้ข้อมูลนี้ นักวิเคราะห์สามารถเก็บเกี่ยวข้อมูลเชิงลึกอันมีค่าที่เกี่ยวข้องเพื่อปรับปรุงกระบวนการทางธุรกิจและสร้างรายได้ให้ดีขึ้น
ถาม ข้อจำกัดของการจัดกลุ่มแบบลำดับชั้นคืออะไร
การจัดกลุ่มแบบลำดับชั้นไม่เหมาะกับประเภทผสมหรือข้อมูลที่ขาดหายไป ข้อจำกัดอีกประการของการจัดกลุ่มแบบลำดับชั้นคือทำงานได้ไม่ดีนักกับชุดข้อมูลขนาดใหญ่