กระบวนการวิทยาศาสตร์ข้อมูล: ความเข้าใจ การเก็บรวบรวมข้อมูล การสร้างแบบจำลอง การปรับใช้ & การตรวจสอบ
เผยแพร่แล้ว: 2021-02-09โครงการ Data Science ในอุตสาหกรรมมักจะถูกติดตามเป็นวงจรชีวิตที่กำหนดไว้อย่างดี ซึ่งจะเพิ่มโครงสร้างให้กับโครงการและกำหนดเป้าหมายที่ชัดเจนสำหรับแต่ละขั้นตอน มีวิธีการดังกล่าวมากมาย เช่น CRISP-DM, OSEMN, TDSP เป็นต้น มีหลายขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับงานเฉพาะที่สมาชิกแต่ละคนในทีมดำเนินการ
เมื่อใดก็ตามที่ปัญหา Data Science มาจากไคลเอนต์ จะต้องแก้ไขและผลิตให้กับลูกค้าในลักษณะที่มีโครงสร้าง โครงสร้างนี้ช่วยให้แน่ใจว่ากระบวนการทั้งหมดดำเนินไปอย่างราบรื่น เนื่องจากเกี่ยวข้องกับคนหลายคนที่ทำงานในบทบาทเฉพาะของตน เช่น สถาปนิกโซลูชัน ผู้จัดการโครงการ หัวหน้าผลิตภัณฑ์ วิศวกรข้อมูล นักวิทยาศาสตร์ข้อมูล หัวหน้าฝ่าย DevOps เป็นต้น หลังจากกระบวนการทางวิทยาศาสตร์ข้อมูลยังทำให้ ตรวจสอบให้แน่ใจว่าคุณภาพของผลิตภัณฑ์ขั้นสุดท้ายนั้นดีและโครงการจะแล้วเสร็จตรงเวลา
ในตอนท้ายของบทช่วยสอนนี้ คุณจะทราบสิ่งต่อไปนี้:
- ความเข้าใจทางธุรกิจ
- การเก็บรวบรวมข้อมูล
- การสร้างแบบจำลอง
- การปรับใช้
- การตรวจสอบลูกค้า
สารบัญ
ความเข้าใจทางธุรกิจ
การมีความรู้ด้านธุรกิจและข้อมูลมีความสำคัญสูงสุด เราจำเป็นต้องตัดสินใจว่าเป้าหมายใดที่เราจำเป็นต้องทำนายเพื่อแก้ปัญหาในมือ เราต้องเข้าใจด้วยว่าแหล่งใดที่เราสามารถรับข้อมูลได้ และหากจำเป็นต้องสร้างแหล่งข้อมูลใหม่
เป้าหมายของแบบจำลองอาจเป็นราคาบ้าน อายุลูกค้า การคาดการณ์ยอดขาย ฯลฯ เป้าหมายเหล่านี้ต้องตัดสินใจโดยทำงานร่วมกับลูกค้าที่มีความรู้ครบถ้วนเกี่ยวกับผลิตภัณฑ์และปัญหาของตน งานที่สำคัญที่สุดอันดับสองคือการรู้ว่าการคาดการณ์ของเป้าหมายเป็นอย่างไร
ไม่ว่าจะเป็นการถดถอยหรือการจำแนกประเภทหรือการจัดกลุ่มหรือแม้แต่ข้อเสนอแนะ บทบาทของสมาชิกจะต้องได้รับการตัดสินและต้องกำหนดอะไรบ้างและต้องใช้คนกี่คนในการทำโครงการให้เสร็จ เมตริกเพื่อความสำเร็จได้รับการตัดสินด้วยเพื่อให้แน่ใจว่าโซลูชันสร้างผลลัพธ์ที่ยอมรับได้เป็นอย่างน้อย
ต้องมีการระบุแหล่งข้อมูลซึ่งสามารถให้ข้อมูลที่จำเป็นในการทำนายเป้าหมายที่ตัดสินใจข้างต้น นอกจากนี้ยังอาจมีความจำเป็นในการสร้างไปป์ไลน์เพื่อรวบรวมข้อมูลจากแหล่งเฉพาะ ซึ่งอาจเป็นปัจจัยสำคัญต่อความสำเร็จของโครงการ
การเก็บรวบรวมข้อมูล
เมื่อระบุข้อมูลได้แล้ว ขั้นต่อไป เราต้องการให้ระบบนำเข้าข้อมูลอย่างมีประสิทธิภาพและใช้สำหรับการประมวลผลและการสำรวจเพิ่มเติมโดยการตั้งค่าไปป์ไลน์ ขั้นตอนแรกคือการระบุประเภทแหล่งที่มา หากเป็นแบบ on-premise หรือ on-cloud เราจำเป็นต้องนำเข้าข้อมูลนี้ในสภาพแวดล้อมการวิเคราะห์ที่เราจะดำเนินการต่อไป
เมื่อนำเข้าข้อมูลแล้ว เราจะไปยังขั้นตอนที่สำคัญที่สุดของกระบวนการ Data Science นั่นคือ การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) EDA เป็นกระบวนการของการวิเคราะห์และการแสดงข้อมูลเป็นภาพเพื่อดูว่าปัญหาการจัดรูปแบบและข้อมูลขาดหายไปใดบ้าง
ความคลาดเคลื่อนทั้งหมดจะต้องถูกทำให้เป็นมาตรฐานก่อนดำเนินการสำรวจข้อมูลเพื่อค้นหารูปแบบและข้อมูลอื่นๆ ที่เกี่ยวข้อง นี่เป็นกระบวนการวนซ้ำและยังรวมถึงการพล็อตแผนภูมิและกราฟประเภทต่างๆ เพื่อดูความสัมพันธ์ระหว่างคุณลักษณะและคุณลักษณะกับเป้าหมาย
ต้องตั้งค่าไปป์ไลน์เพื่อสตรีมข้อมูลใหม่อย่างสม่ำเสมอในสภาพแวดล้อมของคุณและอัปเดตฐานข้อมูลที่มีอยู่ ก่อนตั้งค่าไปป์ไลน์ ต้องตรวจสอบปัจจัยอื่นๆ ก่อน เช่นว่าข้อมูลจะต้องมีการสตรีมแบบแบตช์หรือออนไลน์ไม่ว่าจะเป็นความถี่สูงหรือความถี่ต่ำ
การสร้างแบบจำลองและการประเมิน
กระบวนการสร้างแบบจำลองเป็นขั้นตอนหลักที่เกิดการเรียนรู้ด้วยเครื่อง จำเป็นต้องตัดสินใจเลือกชุดคุณสมบัติที่เหมาะสมและแบบจำลองที่ได้รับการฝึกฝนโดยใช้อัลกอริธึมที่เหมาะสม แบบจำลองที่ได้รับการฝึกอบรมจะต้องได้รับการประเมินเพื่อตรวจสอบประสิทธิภาพและประสิทธิภาพของข้อมูลจริง
ขั้นตอนแรกเรียกว่า วิศวกรรมคุณลักษณะ ซึ่งเราใช้ความรู้จากขั้นตอนก่อนหน้าเพื่อกำหนดคุณลักษณะที่สำคัญที่ทำให้แบบจำลองของเราทำงานได้ดีขึ้น วิศวกรรมคุณลักษณะคือกระบวนการในการเปลี่ยนรูปแบบคุณลักษณะเป็นแบบฟอร์มใหม่ และแม้กระทั่งการรวมคุณลักษณะต่างๆ เพื่อสร้างคุณลักษณะใหม่
ต้องทำอย่างระมัดระวังเพื่อหลีกเลี่ยงการใช้คุณสมบัติมากเกินไปซึ่งอาจทำให้ประสิทธิภาพลดลงมากกว่าการปรับปรุง การเปรียบเทียบเมตริกหากแต่ละโมเดลสามารถช่วยตัดสินใจปัจจัยนี้พร้อมกับความสำคัญของคุณลักษณะที่สัมพันธ์กับเป้าหมาย
เมื่อชุดคุณลักษณะพร้อมแล้ว โมเดลจะต้องได้รับการฝึกอบรมเกี่ยวกับอัลกอริธึมหลายประเภทเพื่อดูว่าอันใดทำงานได้ดีที่สุด สิ่งนี้เรียกว่าอัลกอริธึมการตรวจสอบเฉพาะจุด จากนั้นอัลกอริธึมที่ทำงานได้ดีที่สุดจะถูกนำไปปรับแต่งพารามิเตอร์เพื่อประสิทธิภาพที่ดียิ่งขึ้น เมตริกจะถูกเปรียบเทียบสำหรับแต่ละอัลกอริทึมและการกำหนดค่าพารามิเตอร์แต่ละรายการเพื่อพิจารณาว่าโมเดลใดดีที่สุด
การปรับใช้
แบบจำลองที่สรุปผลหลังจากขั้นตอนก่อนหน้านี้จำเป็นต้องปรับใช้ในสภาพแวดล้อมการผลิตเพื่อให้ใช้งานได้และทดสอบกับข้อมูลจริง โมเดลจำเป็นต้องดำเนินการในรูปแบบของ Mobile/Web Applications หรือ Dashboard หรือซอฟต์แวร์ภายในของบริษัท
โมเดลต่างๆ สามารถใช้งานได้บนคลาวด์ (AWS, GCP, Azure) หรือเซิร์ฟเวอร์ในองค์กร ขึ้นอยู่กับโหลดที่คาดหวังและแอปพลิเคชัน ต้องมีการตรวจสอบประสิทธิภาพของแบบจำลองอย่างต่อเนื่องเพื่อให้แน่ใจว่าปัญหาทั้งหมดได้รับการป้องกัน
โมเดลนี้ยังต้องได้รับการฝึกอบรมใหม่เกี่ยวกับข้อมูลใหม่ทุกครั้งที่เข้ามาผ่านไปป์ไลน์ที่ตั้งค่าไว้ในสเตจก่อนหน้า การอบรมขึ้นใหม่นี้สามารถเป็นแบบออฟไลน์หรือออนไลน์ก็ได้ ในโหมดออฟไลน์ แอปพลิเคชันจะถูกลบออก โมเดลได้รับการฝึกอบรมใหม่ จากนั้นจึงปรับใช้ใหม่บนเซิร์ฟเวอร์
เว็บเฟรมเวิร์กประเภทต่าง ๆ ถูกใช้เพื่อพัฒนาแอพพลิเคชั่นแบ็กเอนด์ซึ่งรับข้อมูลจากแอพพลิเคชั่นฟรอนต์เอนด์และฟีดไปยังโมเดลบนเซิร์ฟเวอร์ จากนั้น API นี้จะส่งการคาดคะเนกลับจากแบบจำลองกลับไปยังแอปพลิเคชันส่วนหน้า ตัวอย่างของกรอบงานเว็บ ได้แก่ Flask, Django และ FastAPI
การตรวจสอบลูกค้า
นี่เป็นขั้นตอนสุดท้ายของกระบวนการ Data Science ซึ่งในที่สุดโครงการจะถูกส่งไปยังไคลเอนต์สำหรับการใช้งานของพวกเขา ลูกค้าจะต้องเดินผ่านแอปพลิเคชัน รายละเอียด และพารามิเตอร์ของมัน นอกจากนี้ยังอาจรวมถึงรายงานการออกซึ่งมีแง่มุมทางเทคนิคทั้งหมดของแบบจำลองและพารามิเตอร์การประเมิน ลูกค้าต้องยืนยันการยอมรับประสิทธิภาพและความแม่นยำที่โมเดลทำได้
จุดที่สำคัญที่สุดที่ต้องจำไว้คือลูกค้าหรือลูกค้าอาจไม่มีความรู้ด้านเทคนิคของ Data Science ดังนั้นจึงเป็นหน้าที่ของทีมที่จะต้องให้รายละเอียดทั้งหมดในรูปแบบและภาษาที่ลูกค้าสามารถเข้าใจได้ง่าย
ก่อนที่คุณจะไป
กระบวนการ Data Science แตกต่างกันไปในแต่ละองค์กร แต่สามารถสรุปได้ใน 5 ขั้นตอนหลักที่เราพูดถึง อาจมีขั้นตอนเพิ่มเติมในระหว่างขั้นตอนเหล่านี้เพื่อพิจารณางานที่เฉพาะเจาะจงมากขึ้น เช่น การล้างข้อมูลและการรายงาน โดยรวมแล้ว โครงการ Data Science ใดๆ จะต้องดูแล 5 ขั้นตอนเหล่านี้และต้องแน่ใจว่าได้ปฏิบัติตามขั้นตอนเหล่านี้ในทุกโครงการ การทำตามขั้นตอนนี้เป็นขั้นตอนสำคัญในการรับรองความสำเร็จของโครงการ Data Science ทั้งหมด
โครงสร้างของโปรแกรม Data Science ออกแบบมาเพื่ออำนวยความสะดวกให้คุณกลายเป็นผู้มีความสามารถที่แท้จริงในด้าน Data Science ซึ่งทำให้ง่ายต่อการจ้างนายจ้างที่ดีที่สุดในตลาด ลงทะเบียนวันนี้เพื่อเริ่มต้นเส้นทางการเรียนรู้กับ upGrad!
ขั้นตอนแรกในกระบวนการวิทยาศาสตร์ข้อมูลคืออะไร?
ขั้นตอนแรกในกระบวนการวิทยาศาสตร์ข้อมูลคือการกำหนดเป้าหมายของคุณ ก่อนการรวบรวมข้อมูล การสร้างแบบจำลอง การปรับใช้ หรือขั้นตอนอื่นใด คุณต้องตั้งเป้าหมายของการวิจัยของคุณ
คุณควรจะละเอียดถี่ถ้วนเกี่ยวกับ "3W" ของโครงการของคุณ อะไร ทำไม และอย่างไร “ความคาดหวังของลูกค้าของคุณคืออะไร? เหตุใดบริษัทของคุณจึงให้ความสำคัญกับการวิจัยของคุณ และคุณจะดำเนินการวิจัยต่อไปอย่างไร”
หากคุณสามารถตอบคำถามเหล่านี้ได้ทั้งหมด คุณก็พร้อมสำหรับขั้นตอนต่อไปของการวิจัย เพื่อตอบคำถามเหล่านี้ ทักษะที่ไม่ใช่ด้านเทคนิค เช่น ความเฉียบแหลมทางธุรกิจ มีความสำคัญมากกว่าทักษะทางเทคนิคของคุณ
คุณสร้างแบบจำลองกระบวนการของคุณอย่างไร?
กระบวนการสร้างแบบจำลองเป็นขั้นตอนสำคัญในกระบวนการวิทยาศาสตร์ข้อมูล และด้วยเหตุนี้ เราใช้การเรียนรู้ของเครื่อง เราป้อนโมเดลของเราด้วยชุดข้อมูลที่ถูกต้องและฝึกมันด้วยอัลกอริธึมที่เหมาะสม ขั้นตอนต่อไปนี้ถูกนำมาพิจารณาในขณะที่สร้างแบบจำลองกระบวนการ:
1. ขั้นตอนแรกสุดคือวิศวกรรมคุณลักษณะ ขั้นตอนนี้จะนำข้อมูลที่รวบรวมไว้ก่อนหน้านี้มาพิจารณา กำหนดคุณลักษณะที่จำเป็นสำหรับโมเดล และรวมเข้าด้วยกันเพื่อสร้างคุณลักษณะใหม่และมีการพัฒนามากขึ้น
2, ขั้นตอนนี้ต้องดำเนินการด้วยความระมัดระวัง เนื่องจากคุณลักษณะมากเกินไปอาจจบลงด้วยการทำให้โมเดลของเราแย่ลงแทนที่จะพัฒนา
3. จากนั้นเราจะกำหนดอัลกอริธึมการตรวจสอบเฉพาะจุด อัลกอริธึมเหล่านี้เป็นอัลกอริธึมที่โมเดลต้องได้รับการฝึกอบรมหลังจากได้รับคุณสมบัติใหม่
4. จากทั้งหมดนั้น เราเลือกอัลกอริธึมที่มีประสิทธิภาพดีที่สุดและปรับแต่งเพื่อเพิ่มความสามารถ เพื่อเปรียบเทียบและค้นหาโมเดลที่ดีที่สุด เราจะพิจารณาเมตริกของอัลกอริธึมต่างๆ
แนวทางการนำเสนอโครงการแก่ลูกค้าควรเป็นอย่างไร?
นี่เป็นขั้นตอนสุดท้ายของวงจรชีวิตของโครงการวิทยาศาสตร์ข้อมูล ขั้นตอนนี้ต้องได้รับการจัดการอย่างระมัดระวัง ไม่เช่นนั้นความพยายามทั้งหมดของคุณอาจสูญเปล่า ลูกค้าควรเดินอย่างทั่วถึงในทุกแง่มุมของโครงการของคุณ การนำเสนอ PowerPoint บนแบบจำลองของคุณอาจเป็นข้อดีสำหรับคุณ
สิ่งหนึ่งที่ควรคำนึงถึงคือลูกค้าของคุณอาจหรืออาจไม่ได้มาจากด้านเทคนิค ดังนั้น คุณต้องไม่ใช้คำทางเทคนิคหลัก พยายามนำเสนอแอพพลิเคชั่นและพารามิเตอร์ของโครงการของคุณในภาษาธรรมดาเพื่อให้ลูกค้าของคุณชัดเจน