สถาปัตยกรรมข้อมูลขนาดใหญ่คืออะไร? คำจำกัดความ เลเยอร์ กระบวนการ และแนวทางปฏิบัติที่ดีที่สุด
เผยแพร่แล้ว: 2021-06-11การวิเคราะห์ข้อมูลขนาดใหญ่ได้กลายเป็นจุดศูนย์กลางในโลกปัจจุบัน ในขณะที่ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างจำนวนมากล้นหลามในโลกธุรกิจ แต่ก็ไม่อาจปฏิเสธได้ว่าข้อมูลจำนวนมหาศาลนี้และการวิเคราะห์ช่วยให้ธุรกิจสามารถตัดสินใจได้ดีขึ้นและชาญฉลาดยิ่งขึ้นได้อย่างไร ท้ายที่สุดแล้ว มันไม่ใช่ปริมาณที่มีความสำคัญ แต่สิ่งที่สร้างขึ้นจากข้อมูล
นั่นนำเราไปสู่อีกแง่มุมที่สำคัญมากของข้อมูลขนาดใหญ่ ซึ่งเป็น สถาปัตยกรรมข้อมูลขนาด ใหญ่ รากฐานสำหรับการวิเคราะห์ บิ๊กดาต้า สถาปัตยกรรมบิ๊กดาต้า ครอบคลุมระบบพื้นฐานที่อำนวยความสะดวกในการประมวลผลและวิเคราะห์บิ๊กดาต้าที่ซับซ้อนเกินกว่าที่ระบบฐานข้อมูลทั่วไปจะรับมือได้
นี่คือคำแนะนำเชิงลึกสำหรับคุณในการค้นพบ สถาปัตยกรรมบิ๊กดาต้า ในหลายแง่มุม และสิ่งที่คุณทำได้เพื่อเชี่ยวชาญในสาขาบิ๊กดาต้า
สารบัญ
สถาปัตยกรรมข้อมูลขนาดใหญ่คืออะไร?
สถาปัตยกรรมข้อมูลขนาดใหญ่ เป็นระบบสำคัญที่สนับสนุนการวิเคราะห์ข้อมูลขนาดใหญ่ พื้นฐานของการวิเคราะห์ บิ๊กดาต้า สถาปัตยกรรมบิ๊กดาต้า คือเลย์เอาต์ที่ช่วยให้นำเข้า ประมวลผล และวิเคราะห์ข้อมูลได้อย่างเหมาะสม กล่าวอีกนัยหนึ่ง สถาปัตยกรรมบิ๊กดาต้า เป็นหัวใจหลักที่ขับเคลื่อนการวิเคราะห์ข้อมูลและให้วิธีการที่เครื่องมือวิเคราะห์บิ๊กดาต้าสามารถดึงข้อมูลที่สำคัญจากข้อมูลที่คลุมเครือ และขับเคลื่อนการตัดสินใจทางธุรกิจเชิงกลยุทธ์ที่มีความหมาย
ต่อไปนี้คือภาพรวมโดยย่อของส่วนประกอบบางส่วนที่พบบ่อยที่สุดของสถาปัตยกรรมบิ๊กดาต้า:
- แหล่งข้อมูล: จุดเริ่มต้นที่ชัดเจนของแหล่งข้อมูลโซลูชันบิ๊กดาต้าทั้งหมดอาจเป็นไฟล์สแตติกที่สร้างโดยแอปพลิเคชัน (ไฟล์บันทึกของเว็บเซิร์ฟเวอร์) แหล่งข้อมูลแอปพลิเคชัน (ฐานข้อมูลเชิงสัมพันธ์) หรือแหล่งข้อมูลแบบเรียลไทม์ (อุปกรณ์ IoT)
- การจัดเก็บข้อมูล: มักเรียกว่า data lake ที่จัดเก็บไฟล์แบบกระจายมีไฟล์ขนาดใหญ่จำนวนมากในรูปแบบต่างๆ ซึ่งจะใช้สำหรับการประมวลผลแบบแบตช์ในภายหลัง
- การประมวลผลแบบแบตช์: เพื่อให้ชุดข้อมูลขนาดใหญ่พร้อมสำหรับการวิเคราะห์ การประมวลผลแบบแบตช์จะดำเนินการกรอง รวบรวม และเตรียมไฟล์ข้อมูลผ่านงานแบตช์ที่ใช้เวลานาน
- การนำเข้าข้อความ: ส่วนประกอบนี้ของ สถาปัตยกรรม Big Data รวมถึงวิธีการบันทึกและจัดเก็บข้อความจากแหล่งที่มาแบบเรียลไทม์สำหรับการประมวลผลสตรีม
- การประมวลผลสตรีม: อีกขั้นตอนการเตรียมการก่อนการวิเคราะห์ข้อมูล ตัวกรองการประมวลผลสตรีม และรวบรวมข้อมูลหลังจากจับข้อความแบบเรียลไทม์
- ที่เก็บข้อมูลเชิงวิเคราะห์: หลังจากเตรียมข้อมูลสำหรับการวิเคราะห์แล้ว โซลูชันบิ๊กดาต้าส่วนใหญ่จะให้บริการข้อมูลที่ประมวลผลในรูปแบบที่มีโครงสร้างสำหรับการสืบค้นเพิ่มเติมโดยใช้เครื่องมือวิเคราะห์ ที่เก็บข้อมูลเชิงวิเคราะห์ที่ให้บริการการสืบค้นเหล่านี้อาจเป็นคลังข้อมูลเชิงสัมพันธ์แบบ Kimball หรือเทคโนโลยี NoSQL ที่มีความหน่วงต่ำ
- การวิเคราะห์และการรายงาน: หนึ่งในเป้าหมายที่สำคัญของโซลูชันข้อมูลขนาดใหญ่ส่วนใหญ่ การวิเคราะห์ข้อมูล และการรายงานจะให้ข้อมูลเชิงลึกเกี่ยวกับข้อมูล เพื่อจุดประสงค์นี้ สถาปัตยกรรมบิ๊กดาต้า อาจมีเลเยอร์การสร้างแบบจำลองข้อมูล รองรับ BI แบบบริการตนเอง หรือแม้แต่รวมการสำรวจข้อมูลเชิงโต้ตอบ
- การประสานกัน: เทคโนโลยีการประสานกันสามารถทำให้เวิร์กโฟลว์ที่เกี่ยวข้องกับการดำเนินการประมวลผลข้อมูลซ้ำ ๆ เป็นไปโดยอัตโนมัติ เช่น การแปลงแหล่งข้อมูล การย้ายข้อมูลระหว่างแหล่งที่มาและที่เก็บข้อมูล การโหลดข้อมูลที่ประมวลผลลงในที่เก็บข้อมูลเชิงวิเคราะห์ และการรายงานขั้นสุดท้าย
เลเยอร์สถาปัตยกรรมข้อมูลขนาดใหญ่
ส่วนประกอบของสถาปัตยกรรมการวิเคราะห์บิ๊กดาต้าโดยหลักแล้วประกอบด้วยสี่ชั้นเชิงตรรกะที่ดำเนินการสี่ขั้นตอนหลัก เลเยอร์เป็นเพียงตรรกะและเป็นวิธีจัดระเบียบส่วนประกอบของสถาปัตยกรรม
- เลเยอร์แหล่งข้อมูลขนาดใหญ่: ข้อมูลที่มีสำหรับการวิเคราะห์จะแตกต่างกันไปตามแหล่งที่มาและรูปแบบ รูปแบบอาจมีโครงสร้าง ไม่มีโครงสร้าง หรือกึ่งโครงสร้าง ความเร็วของการมาถึงและการส่งมอบข้อมูลจะแตกต่างกันไปตามแหล่งที่มา โหมดการรวบรวมข้อมูลอาจเป็นโดยตรงหรือผ่านผู้ให้บริการข้อมูล ในโหมดแบทช์หรือแบบเรียลไทม์ และ ตำแหน่งของแหล่งข้อมูลอาจเป็นภายนอกหรือภายในองค์กร
- เลเยอร์การนวดและการจัดเก็บข้อมูล: ชั้นนี้รับข้อมูลจากแหล่งข้อมูล แปลง และจัดเก็บไว้ในรูปแบบที่เข้ากันได้กับเครื่องมือวิเคราะห์ข้อมูล นโยบายการกำกับดูแลและระเบียบข้อบังคับจะกำหนดรูปแบบการจัดเก็บที่เหมาะสมสำหรับข้อมูลประเภทต่างๆ เป็นหลัก
- ชั้นวิเคราะห์: จะดึงข้อมูลจากชั้นข้อมูลนวดและชั้นการจัดเก็บ (หรือโดยตรงจากแหล่งข้อมูล) เพื่อรับข้อมูลเชิงลึกจากข้อมูล
- ชั้นการบริโภค: ชั้นนี้รับผลลัพธ์จากชั้นวิเคราะห์และนำเสนอไปยังชั้นผลลัพธ์ที่เกี่ยวข้อง ผู้บริโภคของผลลัพธ์อาจเป็นกระบวนการทางธุรกิจ มนุษย์ แอปพลิเคชันการแสดงภาพ หรือบริการ
กระบวนการสถาปัตยกรรมข้อมูลขนาดใหญ่
นอกจากสี่เลเยอร์เชิงตรรกะแล้ว กระบวนการข้ามเลเยอร์สี่กระบวนการยังทำงานในสภาพแวดล้อมข้อมูลขนาดใหญ่
- การเชื่อมต่อแหล่งข้อมูล: การรับส่งข้อมูลที่ รวดเร็วและมีประสิทธิภาพต้องการการเชื่อมต่อที่ราบรื่นกับระบบจัดเก็บข้อมูล โปรโตคอล และเครือข่ายต่างๆ ซึ่งทำได้โดยตัวเชื่อมต่อและอะแดปเตอร์
- การกำกับดูแลข้อมูลขนาดใหญ่: การกำกับดูแลข้อมูลดำเนินการได้ทันทีจากการนำเข้าข้อมูลและดำเนินต่อไปผ่านการประมวลผลข้อมูล การวิเคราะห์ การจัดเก็บ การเก็บถาวรหรือการลบ และรวมถึงข้อกำหนดสำหรับการรักษาความปลอดภัยและความเป็นส่วนตัว
- การจัดการระบบ: สถาปัตยกรรมบิ๊กดาต้าสมัยใหม่ ประกอบด้วย คลัสเตอร์แบบกระจายที่ปรับขนาดได้สูงและขนาดใหญ่ ระบบเหล่านี้ต้องได้รับการตรวจสอบอย่างใกล้ชิดผ่านคอนโซลการจัดการส่วนกลาง
- คุณภาพของบริการ (QoS): QoS เป็นเฟรมเวิร์กที่สนับสนุนการกำหนดคุณภาพข้อมูล ความถี่และขนาดของการนำเข้า นโยบายการปฏิบัติตามข้อกำหนด รวมถึงการกรองข้อมูล
แนวทางปฏิบัติที่ดีที่สุดสำหรับสถาปัตยกรรมข้อมูลขนาดใหญ่
แนวทางปฏิบัติที่ดีที่สุดสำหรับสถาปัตยกรรมข้อมูลขนาดใหญ่หมายถึงชุดของหลักการของสถาปัตยกรรมข้อมูลสมัยใหม่ที่ช่วยในการพัฒนาแนวทางที่มุ่งเน้นบริการ ในขณะเดียวกันก็ตอบสนองความต้องการทางธุรกิจในโลกที่ขับเคลื่อนด้วยข้อมูลอย่างรวดเร็ว
- ปรับโครงการบิ๊กดาต้าให้สอดคล้องกับวิสัยทัศน์ทางธุรกิจ
โครงการบิ๊กดาต้าควรสอดคล้องกับเป้าหมายทางธุรกิจและบริบทขององค์กรด้วยความเข้าใจที่ชัดเจนเกี่ยวกับข้อกำหนดของงานสถาปัตยกรรมข้อมูล กรอบงาน และหลักการที่จะใช้ ตัวขับเคลื่อนหลักขององค์กร องค์ประกอบเทคโนโลยีทางธุรกิจที่ใช้อยู่ในปัจจุบัน กลยุทธ์ทางธุรกิจ และรูปแบบองค์กร กรอบการกำกับดูแลและกฎหมาย และกรอบงานสถาปัตยกรรมที่มีอยู่ก่อนและปัจจุบัน
- ระบุและจัดหมวดหมู่แหล่งข้อมูล
เพื่อให้ข้อมูลถูกทำให้เป็นมาตรฐานในรูปแบบมาตรฐาน จะต้องระบุและจัดหมวดหมู่แหล่งข้อมูล การจัดหมวดหมู่อาจเป็นข้อมูลที่มีโครงสร้างหรือข้อมูลที่ไม่มีโครงสร้าง ในขณะที่รูปแบบแรกมักจะถูกจัดรูปแบบโดยใช้เทคนิคฐานข้อมูลที่กำหนดไว้ล่วงหน้า ส่วนหลังนั้นไม่เป็นไปตามรูปแบบที่สอดคล้องและกำหนดไว้อย่างดี
- รวมข้อมูลไว้ในระบบจัดการข้อมูลหลักระบบเดียว
การประมวลผลแบบแบตช์และการประมวลผลแบบสตรีมเป็นสองวิธีที่สามารถรวมข้อมูลเพื่อการสืบค้นตามความต้องการได้ ในเรื่องนี้ จำเป็นต้องพูดถึงว่า Hadoop เป็นเฟรมเวิร์กการประมวลผลแบบโอเพนซอร์สยอดนิยมสำหรับการจัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลปริมาณมหาศาล สถาปัตยกรรม Hadoop ใน การวิเคราะห์บิ๊กดาต้าประกอบด้วยสี่องค์ประกอบ ได้แก่ MapReduce, HDFS ( สถาปัตยกรรม HDFS ใน การวิเคราะห์บิ๊กดาต้าเป็นไปตามโมเดลมาสเตอร์ทาสเพื่อการจัดเก็บข้อมูลที่เชื่อถือได้และปรับขนาดได้), YARN และ Hadoop Common นอกจากนี้ สำหรับการสืบค้น สามารถใช้ฐานข้อมูลเชิงสัมพันธ์ DBMS หรือ NoSQL เพื่อจัดเก็บระบบการจัดการข้อมูลหลัก
- จัดเตรียมอินเทอร์เฟซผู้ใช้ที่ช่วยลดการใช้ข้อมูล
อินเทอร์เฟซผู้ใช้ที่ใช้งานง่ายและปรับแต่งได้ของสถาปัตยกรรมแอปพลิเคชันข้อมูลขนาดใหญ่จะทำให้ผู้ใช้ใช้ข้อมูลได้ง่ายขึ้น ตัวอย่างเช่น อาจเป็นอินเทอร์เฟซ SQL สำหรับนักวิเคราะห์ข้อมูล อินเทอร์เฟซ OLAP สำหรับข่าวกรองธุรกิจ ภาษา R สำหรับนักวิทยาศาสตร์ข้อมูล หรือ API แบบเรียลไทม์สำหรับระบบการกำหนดเป้าหมาย
- มั่นใจในความปลอดภัยและการควบคุม
แทนที่จะบังคับใช้นโยบายข้อมูลและการควบคุมการเข้าถึงบนพื้นที่เก็บข้อมูลและแอปพลิเคชันดาวน์สตรีม จะทำโดยตรงบนข้อมูลดิบ แนวทางที่เป็นหนึ่งเดียวในการรักษาความปลอดภัยข้อมูลนี้มีความจำเป็นเพิ่มเติมจากการเติบโตของแพลตฟอร์ม เช่น Hadoop, Google BigQuery, Amazon Redshift และ Snowflake และได้ทำให้เป็นจริงโดยโครงการรักษาความปลอดภัยข้อมูล เช่น Apache Sentry
จะสร้างสถาปัตยกรรม Big Data ได้อย่างไร?
หากไม่มีเครื่องมือและกระบวนการที่เหมาะสม นักวิเคราะห์บิ๊กดาต้าจะใช้เวลาจัดระเบียบข้อมูลมากกว่าการวิเคราะห์ที่มีความหมายและรายงานสิ่งที่ค้นพบ ดังนั้น กุญแจสำคัญคือการพัฒนา สถาปัตยกรรมข้อมูลขนาดใหญ่ ที่สมเหตุสมผลและมีการตั้งค่าที่คล่องตัว
ต่อไปนี้เป็นขั้นตอนทั่วไปสำหรับการออกแบบ สถาปัตยกรรมข้อมูลขนาดใหญ่ :
- การพิจารณาว่าธุรกิจมีปัญหาข้อมูลขนาดใหญ่หรือไม่ โดยพิจารณาจากความหลากหลายของข้อมูล ความเร็วของข้อมูล และความท้าทายในปัจจุบัน
- การเลือกผู้จำหน่ายเพื่อจัดการสถาปัตยกรรมแบบ end-to-end ของข้อมูลขนาดใหญ่ เมื่อพูดถึงเครื่องมือเพื่อจุดประสงค์นี้ สถาปัตยกรรม Hadoop ใน การวิเคราะห์ข้อมูลขนาดใหญ่เป็นที่ต้องการค่อนข้างมาก Microsoft, AWS, MapR, Hortonworks, Cloudera และ BigInsights เป็นผู้จำหน่ายยอดนิยมสำหรับการแจกจ่าย Hadoop
- การเลือกกลยุทธ์การปรับใช้ที่อาจอยู่ในองค์กร บนคลาวด์ หรือทั้งสองอย่างผสมกัน
- วางแผนการปรับขนาดฮาร์ดแวร์และโครงสร้างพื้นฐานโดยพิจารณาจากปริมาณการนำเข้าข้อมูลรายวัน การปรับใช้ศูนย์ข้อมูลหลายศูนย์ ระยะเวลาการเก็บรักษาข้อมูล ปริมาณข้อมูลสำหรับการโหลดครั้งเดียวในประวัติ และเวลาที่มีการปรับขนาดคลัสเตอร์
- เพื่อติดตามการวางแผนความจุ ขั้นตอนต่อไปเกี่ยวข้องกับการปรับขนาดโครงสร้างพื้นฐานเพื่อกำหนดประเภทของฮาร์ดแวร์และจำนวนคลัสเตอร์หรือสภาพแวดล้อมที่จำเป็น
- สุดท้ายแต่ไม่ท้ายสุด แผนสำรองและกู้คืนข้อมูลหลังภัยพิบัติควรถูกนำมาใช้โดยคำนึงถึงความสำคัญของข้อมูลที่เก็บไว้ ข้อกำหนด Recovery Time Objective และ Recovery Point การปรับใช้ศูนย์ข้อมูลหลายจุด ช่วงเวลาการสำรองข้อมูล และประเภทของภัยพิบัติ การกู้คืน (Active-Active หรือ Active-Passive) ที่เหมาะสมที่สุด
การเรียนรู้ข้อมูลขนาดใหญ่ด้วย upGrad
หากคุณต้องการทราบวิธีการจัดระเบียบ วิเคราะห์ และตีความข้อมูลขนาดใหญ่ ให้เริ่มต้นเส้นทางการเรียนรู้ของคุณด้วย โปรแกรม Executive PG ของ upGrad ในการพัฒนาซอฟต์แวร์ – ความเชี่ยวชาญใน Big Data !
Executive PGP เป็นโปรแกรมออนไลน์ที่มีส่วนร่วมและเข้มงวดสำหรับมืออาชีพที่ต้องการขยายเครือข่ายและพัฒนาความรู้และทักษะเชิงปฏิบัติที่จำเป็นในการเข้าสู่ขอบเขตของอาชีพข้อมูลขนาดใหญ่
นี่คือไฮไลท์ของหลักสูตรโดยย่อ:
- ได้รับการรับรองโดย IIIT Bangalore
- Software Career Transition Bootcamp สำหรับผู้เขียนโค้ดที่ไม่ใช่เทคโนโลยีและใหม่
- การเข้าถึงพิเศษและฟรีใน Data Science และ Machine Learning
- ครอบคลุมถึง 10 เครื่องมือและภาษาการเขียนโปรแกรม
- กว่า 7 กรณีศึกษาและโครงการที่เกี่ยวข้องกับอุตสาหกรรม
- การบรรยายแบบโต้ตอบและเซสชันสดจากคณาจารย์ระดับโลกและผู้นำในอุตสาหกรรม
บทสรุป
การเติบโตอย่างไม่เคยปรากฏมาก่อนของข้อมูลขนาดใหญ่ ปัญญาประดิษฐ์ และการเรียนรู้ของเครื่อง ทำให้เกิดวิธีที่มีประสิทธิภาพในการวิเคราะห์ข้อมูลจำนวนมหาศาลที่สร้างขึ้นทุกวัน ไม่เพียงแค่นั้น รายงานการวิเคราะห์จะต้องสามารถเสนอประเด็นที่นำไปดำเนินการได้จริง เพื่อขับเคลื่อนการตัดสินใจเชิงกลยุทธ์ในธุรกิจ แผน สถาปัตยกรรมบิ๊กดาต้า ที่แข็งแกร่งและมีการบูรณาการอย่างดี ไม่เพียงแต่ทำให้การวิเคราะห์เป็นไปได้ แต่ยังมีประโยชน์มากมาย ทั้งในแง่ของการประหยัดเวลาและข้อมูลเชิงลึกที่สร้างและดำเนินการ
ตรวจสอบหลักสูตรวิศวกรรมซอฟต์แวร์อื่นๆ ของเราที่ upGrad