คำถามและคำตอบในการสัมภาษณ์การสร้างแบบจำลองข้อมูลยอดนิยม 20 อันดับแรก [สำหรับผู้เริ่มต้นและผู้มีประสบการณ์]

เผยแพร่แล้ว: 2021-06-10

Data Science เป็นหนึ่งในสาขาอาชีพที่ร่ำรวยที่สุดในตลาดงานปัจจุบัน และเมื่อการแข่งขันสูงขึ้น การสัมภาษณ์งานก็มีนวัตกรรมมากขึ้นในแต่ละวัน นายจ้างต้องการทดสอบความรู้เชิงแนวคิดของผู้สมัครและความเข้าใจเชิงปฏิบัติในวิชาที่เกี่ยวข้องและเครื่องมือทางเทคโนโลยี ในบล็อกนี้ เราจะหารือเกี่ยวกับคำถามสัมภาษณ์เกี่ยวกับการสร้างแบบจำลองข้อมูลที่เกี่ยวข้องเพื่อช่วยให้คุณสร้างความประทับใจแรกพบที่มีประสิทธิภาพ!

สารบัญ

คำถามและคำตอบในการสัมภาษณ์การสร้างแบบจำลองข้อมูลยอดนิยม

ต่อไปนี้คือคำถามสัมภาษณ์เกี่ยวกับการสร้างแบบจำลองข้อมูล 20 ข้อพร้อมตัวอย่างคำตอบที่จะนำคุณไปสู่ระดับเริ่มต้น ระดับกลาง และระดับสูงของหัวข้อ

1. การสร้างแบบจำลองข้อมูลคืออะไร? แสดงรายการประเภทของตัวแบบข้อมูล

การสร้างแบบจำลองข้อมูลเกี่ยวข้องกับการสร้างการแสดง (หรือแบบจำลอง) ของข้อมูลที่มีอยู่และจัดเก็บไว้ในฐานข้อมูล

โมเดลข้อมูลประกอบด้วยเอนทิตี (เช่น ลูกค้า ผลิตภัณฑ์ ผู้ผลิต และผู้ขาย) ที่ก่อให้เกิดออบเจกต์และแอตทริบิวต์ที่ผู้ใช้ต้องการติดตาม ตัวอย่างเช่น ชื่อลูกค้าเป็นแอตทริบิวต์ของเอนทิตีลูกค้า รายละเอียดเหล่านี้ใช้รูปร่างของตารางในฐานข้อมูลเพิ่มเติม

ตัวแบบข้อมูลมีสามประเภทพื้นฐาน ได้แก่:

  • แนวความคิด: สถาปนิกข้อมูลและผู้มีส่วนได้ส่วนเสียทางธุรกิจสร้างโมเดลนี้เพื่อจัดระเบียบ กำหนดขอบเขต และกำหนดแนวคิดทางธุรกิจ มันกำหนดว่าระบบควรมีอะไรบ้าง
  • ตรรกะ: สถาปนิกข้อมูลและนักวิเคราะห์ธุรกิจร่วมกันสร้างแบบจำลองนี้แมปกฎทางเทคนิคและโครงสร้างข้อมูล จึงกำหนดการใช้งานของระบบโดยไม่คำนึงถึงระบบการจัดการฐานข้อมูลหรือ DBMS
  • กายภาพ: สถาปนิกฐานข้อมูลและนักพัฒนาสร้างโมเดลนี้เพื่ออธิบายว่าระบบควรทำงานกับ DBMS เฉพาะอย่างไร

2. ตารางคืออะไร? อธิบายข้อเท็จจริงและตารางข้อเท็จจริง

ตารางเก็บข้อมูลในแถว (การจัดแนวแนวนอน) และคอลัมน์ (การจัดแนวแนวตั้ง) แถวเรียกอีกอย่างว่าเร็กคอร์ดหรือทูเพิลในขณะที่คอลัมน์อาจถูกอ้างถึงเป็นฟิลด์

ข้อเท็จจริงคือข้อมูลเชิงปริมาณ เช่น "ยอดขายสุทธิ" หรือ "จำนวนเงินที่ต้องชำระ" ตารางแฟคท์เก็บข้อมูลที่เป็นตัวเลขและบางแอ็ตทริบิวต์จากตารางไดเมนชัน

3. คุณหมายถึงอะไรโดย (i) มิติ (ii) ความละเอียด (iv) การกระจายข้อมูล (v) การแฮช (v) ระบบการจัดการฐานข้อมูล?

(i) ขนาดแสดงถึงข้อมูลเชิงคุณภาพ เช่น คลาสและผลิตภัณฑ์ ดังนั้น ตารางมิติที่มีข้อมูลผลิตภัณฑ์จะมีแอตทริบิวต์ เช่น หมวดหมู่ผลิตภัณฑ์ ชื่อผลิตภัณฑ์ เป็นต้น

(ii) ความละเอียดหมายถึงระดับของข้อมูลที่จัดเก็บไว้ในตาราง อาจสูงหรือต่ำ โดยตารางประกอบด้วยข้อมูลระดับธุรกรรมและตารางข้อเท็จจริง ตามลำดับ

(iii) Data sparsity หมายถึงจำนวนเซลล์ว่างในฐานข้อมูล กล่าวคือ จะระบุจำนวนข้อมูลที่เรามีสำหรับเอนทิตีหรือมิติเฉพาะในแบบจำลองข้อมูล ข้อมูลไม่เพียงพอนำไปสู่ฐานข้อมูลขนาดใหญ่เนื่องจากต้องใช้พื้นที่มากขึ้นในการบันทึกการรวม

(iv) เทคนิคการแฮชช่วยค้นหาค่าดัชนีสำหรับการดึงข้อมูลที่ต้องการ มันถูกใช้ในการคำนวณตำแหน่งโดยตรงของบันทึกข้อมูลด้วยความช่วยเหลือของโครงสร้างดัชนี

(v) ระบบจัดการฐานข้อมูล (DBMS) คือซอฟต์แวร์ที่ประกอบด้วยกลุ่มของโปรแกรมสำหรับจัดการฐานข้อมูล วัตถุประสงค์หลักคือเพื่อจัดเก็บและเรียกข้อมูลผู้ใช้

4. กำหนด Normalization จุดประสงค์ของมันคืออะไร?

เทคนิคการทำให้เป็นมาตรฐานจะแบ่งตารางที่ใหญ่ขึ้นเป็นตารางที่เล็กลง โดยเชื่อมโยงตารางโดยใช้ความสัมพันธ์ที่แตกต่างกัน จัดระเบียบตารางในลักษณะที่ลดการพึ่งพาและความซ้ำซ้อนของข้อมูลให้เหลือน้อยที่สุด

การทำให้เป็นมาตรฐานสามารถมีได้ห้าประเภท ได้แก่ :

  • ฟอร์มปกติครั้งแรก
  • รูปแบบปกติที่สอง
  • รูปแบบปกติที่สาม
  • Boyce-Codd ฟอร์มปกติที่สี่
  • รูปแบบปกติที่ห้า

5. ประโยชน์ของการดีนอร์มัลไลเซชันในการสร้างแบบจำลองข้อมูลคืออะไร?

ดีนอร์มัลไลเซชันใช้ในการสร้างคลังข้อมูล โดยเฉพาะอย่างยิ่งในสถานการณ์ที่มีตารางเกี่ยวข้องกันอย่างกว้างขวาง กลยุทธ์นี้ใช้กับฐานข้อมูลที่ทำให้เป็นมาตรฐานก่อนหน้านี้

6. อธิบายความแตกต่างระหว่างคีย์หลัก คีย์หลักแบบผสม คีย์นอก และคีย์ตัวแทน

คีย์หลักเป็นแกนนำในทุกตารางข้อมูล มันหมายถึงคอลัมน์หรือกลุ่มของคอลัมน์และช่วยให้คุณระบุแถวของตารางได้ ค่าคีย์หลักไม่สามารถเป็นค่าว่างได้ เมื่อใช้มากกว่าหนึ่งคอลัมน์เป็นส่วนหนึ่งของคีย์หลัก จะเรียกว่าคีย์หลักแบบผสม

ในทางกลับกัน คีย์ภายนอกคือกลุ่มของแอตทริบิวต์ที่อนุญาตให้คุณเชื่อมโยงตารางหลักและตารางรอง ค่าคีย์ภายนอกในตารางย่อยถูกอ้างอิงเป็นค่าคีย์หลักในตารางพาเรนต์

คีย์ตัวแทนใช้เพื่อระบุแต่ละเร็กคอร์ดในสถานการณ์ที่ผู้ใช้ไม่มีคีย์หลักตามธรรมชาติ โดยทั่วไปคีย์เทียมนี้จะแสดงเป็นจำนวนเต็มและไม่ได้ให้ความหมายใดๆ กับข้อมูลที่อยู่ในตาราง

7. เปรียบเทียบระบบ OLTP กับกระบวนการ OLAP

OLTP เป็นระบบธุรกรรมออนไลน์ที่อาศัยฐานข้อมูลแบบดั้งเดิมในการดำเนินธุรกิจแบบเรียลไทม์ ฐานข้อมูล OLTP มีตารางที่ทำให้เป็นมาตรฐาน และเวลาตอบสนองมักจะอยู่ภายในมิลลิวินาที

ในทางกลับกัน OLAP เป็นกระบวนการออนไลน์สำหรับการวิเคราะห์และดึงข้อมูล ได้รับการออกแบบมาเพื่อวิเคราะห์มาตรการทางธุรกิจจำนวนมากตามหมวดหมู่และคุณลักษณะ OLAP ต่างจาก OLTP ตรงที่คลังข้อมูล ตารางที่ไม่ได้ทำให้เป็นมาตรฐาน และทำงานด้วยเวลาตอบสนองตั้งแต่วินาทีถึงนาที

8. แสดงรายการการออกแบบสคีมาฐานข้อมูลมาตรฐาน

สคีมาคือไดอะแกรมหรือภาพประกอบของความสัมพันธ์และโครงสร้างข้อมูล มีการออกแบบสคีมาสองแบบในการสร้างแบบจำลองข้อมูล ได้แก่ สคีมาแบบดาวและสคีมาเกล็ดหิมะ

  • สคีมาแบบดาวประกอบด้วยตารางแฟคท์ส่วนกลางและตารางไดเมนชันหลายตารางที่เชื่อมต่อกัน คีย์หลักของตารางไดเมนชันคือคีย์นอกในตารางแฟคท์
  • สคีมาเกล็ดหิมะมีตารางข้อเท็จจริงเหมือนกับสคีมาแบบดาว แต่มีระดับการทำให้เป็นมาตรฐานสูงกว่า ตารางมิติถูกทำให้เป็นมาตรฐานหรือมีหลายชั้น ซึ่งคล้ายกับเกล็ดหิมะ

9. อธิบายข้อมูลที่ไม่ต่อเนื่องและต่อเนื่อง

ข้อมูลที่ไม่ต่อเนื่องมีขอบเขตจำกัดและกำหนด เช่น เพศ หมายเลขโทรศัพท์ ฯลฯ ในทางกลับกัน ข้อมูลอย่างต่อเนื่องจะเปลี่ยนแปลงในลักษณะที่มีคำสั่ง เช่น อายุ อุณหภูมิ ฯลฯ

10. อัลกอริทึมการจัดกลุ่มลำดับและอนุกรมเวลาคืออะไร

อัลกอริทึมการจัดกลุ่มลำดับรวบรวม:

  • ลำดับของข้อมูลที่มีเหตุการณ์และ
  • เส้นทางที่เกี่ยวข้องหรือคล้ายกัน

อัลกอริทึมอนุกรมเวลาทำนายค่าต่อเนื่องในตารางข้อมูล ตัวอย่างเช่น สามารถคาดการณ์ยอดขายและตัวเลขกำไรตามประสิทธิภาพของพนักงานในช่วงเวลาหนึ่ง

เมื่อคุณได้ขัดเกลาพื้นฐานของคุณแล้ว ต่อไปนี้คือคำถามเกี่ยวกับการสร้างแบบจำลองข้อมูลที่พบบ่อยอีกสิบคำถามสำหรับการปฏิบัติของคุณ!

11. อธิบายขั้นตอนการจัดเก็บข้อมูล

คลังข้อมูลเชื่อมต่อและจัดการข้อมูลดิบจากแหล่งที่ต่างกัน กระบวนการรวบรวมและวิเคราะห์ข้อมูลนี้ช่วยให้องค์กรธุรกิจได้รับข้อมูลเชิงลึกที่มีความหมายจากสถานที่ต่างๆ ในที่เดียว ซึ่งเป็นแกนหลักของ Business Intelligence

12. อะไรคือความแตกต่างที่สำคัญระหว่าง data mart และ data data?

ดาต้ามาร์ทช่วยให้ตัดสินใจเชิงกลยุทธ์สำหรับการเติบโตของธุรกิจโดยเน้นที่พื้นที่ธุรกิจเดียวและทำตามแบบจำลองจากล่างขึ้นบน ในทางกลับกัน คลังข้อมูลช่วยอำนวยความสะดวกในการตัดสินใจเชิงกลยุทธ์โดยเน้นหลายพื้นที่และแหล่งข้อมูล และใช้แนวทางจากบนลงล่าง

13. กล่าวถึงประเภทของความสัมพันธ์ที่สำคัญที่พบในตัวแบบข้อมูล

ความสัมพันธ์ที่สำคัญสามารถแบ่งออกเป็น:

  • การระบุ: เชื่อมต่อตารางผู้ปกครองและเด็กด้วยเส้นหนา คอลัมน์อ้างอิงของตารางย่อยเป็นส่วนหนึ่งของคีย์หลัก
  • ไม่ระบุ: ตารางเชื่อมต่อกันด้วยเส้นประ แสดงว่าคอลัมน์อ้างอิงของตารางย่อยไม่ได้เป็นส่วนหนึ่งของคีย์หลัก
  • Sef-recursive: คอลัมน์แบบสแตนด์อโลนของตารางเชื่อมต่อกับคีย์หลักในความสัมพันธ์แบบเรียกซ้ำ

14. ข้อผิดพลาดทั่วไปที่คุณพบขณะสร้างแบบจำลองข้อมูลมีอะไรบ้าง

การสร้างแบบจำลองข้อมูลแบบกว้างอาจเป็นเรื่องยาก โอกาสของความล้มเหลวก็เพิ่มขึ้นเช่นกันเมื่อตารางทำงานสูงกว่า 200 นอกจากนี้ยังเป็นสิ่งสำคัญสำหรับตัวสร้างแบบจำลองข้อมูลที่จะต้องมีความรู้เพียงพอเกี่ยวกับภารกิจทางธุรกิจ มิฉะนั้น โมเดลข้อมูลจะเสี่ยงต่อการยุ่งเหยิง

กุญแจตัวแทนที่ไม่จำเป็นก่อให้เกิดปัญหาอื่น จะต้องไม่ใช้เท่าที่จำเป็น แต่เมื่อคีย์ธรรมชาติไม่สามารถทำหน้าที่ของคีย์หลักได้

เรายังสามารถเผชิญกับสถานการณ์ของการดีนอร์มัลไลซ์ที่ไม่เหมาะสม ซึ่งการรักษาความซ้ำซ้อนของข้อมูลอาจกลายเป็นความท้าทายอย่างมาก

15. อภิปรายเกี่ยวกับ DBMS แบบลำดับชั้น ข้อเสียของโมเดลข้อมูลนี้คืออะไร?

DBMS แบบลำดับชั้นจัดเก็บข้อมูลในโครงสร้างแบบต้นไม้ รูปแบบนี้ใช้ความสัมพันธ์แบบพ่อแม่-ลูก โดยที่ผู้ปกครองอาจมีลูกหลายคน แต่เด็กสามารถมีผู้ปกครองได้เพียงคนเดียว

ข้อเสียของรุ่นนี้ได้แก่:

  • ขาดความยืดหยุ่นและการปรับตัวให้เข้ากับความต้องการทางธุรกิจที่เปลี่ยนแปลงไป
  • ประเด็นในการสื่อสารระหว่างแผนก ระหว่างหน่วยงาน และแนวดิ่ง
  • ปัญหาความแตกแยกในข้อมูล

16. รายละเอียดเทคนิคการสร้างแบบจำลองข้อมูลสองประเภท

Entity-Relationship (ER) และ Unified Modeling Language (UML) เป็นเทคนิคการสร้างแบบจำลองข้อมูลมาตรฐานสองแบบ

ER ใช้ในวิศวกรรมซอฟต์แวร์เพื่อผลิตแบบจำลองข้อมูลหรือไดอะแกรมของระบบสารสนเทศ UML เป็นภาษาเอนกประสงค์สำหรับการพัฒนาฐานข้อมูลและการสร้างแบบจำลองที่ช่วยให้เห็นภาพการออกแบบระบบ

17. มิติขยะคืออะไร?

มิติข้อมูลขยะเกิดจากการรวมแอตทริบิวต์คาร์ดินัลลิตี้ต่ำ (ตัวบ่งชี้ บูลีน หรือค่าแฟล็ก) เข้าเป็นมิติเดียว ค่าเหล่านี้จะถูกลบออกจากตารางอื่นแล้วจัดกลุ่มหรือ ”junked” ลงในตารางมิตินามธรรม ซึ่งเป็นวิธีการเริ่มต้น 'การเปลี่ยนแปลงขนาดอย่างรวดเร็ว' ภายในคลังข้อมูล

18. ระบุซอฟต์แวร์ DBMS ยอดนิยมบางตัว

MySQL, Oracle, Microsoft Access, dBase, SQLite, PostgreSQL, IBM DB2 และ Microsoft SQL Server เป็นเครื่องมือ DBMS ที่มีการใช้งานมากที่สุดในเวทีการพัฒนาซอฟต์แวร์สมัยใหม่

19. ข้อดีและข้อเสียของการใช้แบบจำลองข้อมูลมีอะไรบ้าง?

ข้อดีของการใช้การขุดข้อมูล:

  • ข้อมูลธุรกิจสามารถจัดการได้ดีขึ้นโดยการทำให้เป็นมาตรฐานและกำหนดแอตทริบิวต์
  • การทำเหมืองข้อมูลช่วยให้สามารถรวมข้อมูลระหว่างระบบต่างๆ และลดความซ้ำซ้อน
  • ทำให้การออกแบบฐานข้อมูลมีประสิทธิภาพ
  • ช่วยให้เกิดความร่วมมือระหว่างแผนกและการทำงานเป็นทีม
  • ช่วยให้เข้าถึงข้อมูลได้ง่าย

ข้อเสียของการใช้แบบจำลองข้อมูล:

  • การสร้างแบบจำลองข้อมูลอาจทำให้ระบบซับซ้อนขึ้นในบางครั้ง
  • มีการพึ่งพาโครงสร้างที่จำกัด

20. อธิบายการทำเหมืองข้อมูลและการวิเคราะห์แบบจำลองการคาดการณ์

การทำเหมืองข้อมูลเป็นทักษะด้านสหสาขาวิชาชีพ มันเกี่ยวข้องกับการใช้ความรู้จากสาขาต่างๆ เช่น ปัญญาประดิษฐ์ (AI), การเรียนรู้ของเครื่อง (ML) และเทคโนโลยีฐานข้อมูล ที่นี่ ผู้ปฏิบัติงานมีความกังวลเกี่ยวกับการเปิดเผยความลึกลับของข้อมูลและการค้นพบความสัมพันธ์ที่ไม่รู้จักก่อนหน้านี้

การสร้างแบบจำลองเชิงทำนายหมายถึงการทดสอบและตรวจสอบแบบจำลองที่สามารถทำนายผลลัพธ์ที่เฉพาะเจาะจงได้ กระบวนการนี้มีแอปพลิเคชันหลายตัวใน AI, ML และสถิติ

ข้อมูลเชิงลึกด้านอาชีพสำหรับผู้ต้องการสร้างแบบจำลองข้อมูล

ไม่ว่าคุณกำลังมองหางานใหม่ การเลื่อนตำแหน่ง หรือการเปลี่ยนสายอาชีพ การเพิ่มทักษะในสาขาที่เกี่ยวข้องสามารถช่วยเพิ่มโอกาสในการว่าจ้างของคุณได้อย่างมาก

คุณควรพิจารณาตรวจสอบ IIIT-B & upGrad's Executive PG Program in Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ, การประชุมเชิงปฏิบัติการเชิงปฏิบัติ, การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม, ตัวต่อตัวกับที่ปรึกษาในอุตสาหกรรม , การเรียนรู้และความช่วยเหลือมากกว่า 400 ชั่วโมงกับบริษัทชั้นนำ

ด้วยเหตุนี้ เราจึงยุติการสนทนาเกี่ยวกับงานการสร้างแบบจำลองข้อมูลและการสัมภาษณ์ เรามั่นใจว่าข้อมูลที่กล่าวไว้ข้างต้นแบบจำลองคำถามและคำตอบในการสัมภาษณ์จะช่วยให้คุณชี้แจงประเด็นปัญหาของคุณและทำงานได้ดีขึ้นในกระบวนการจัดตำแหน่ง!

Data Modeler ทำเงินได้เท่าไหร่ต่อปี?

มีปัจจัยมากมายที่จะส่งผลต่อเงินเดือนของบุคคลใด ๆ ในด้านการสร้างแบบจำลองข้อมูล โดยเฉลี่ยแล้ว เงินเดือนของผู้สร้างแบบจำลองข้อมูลคือ Rs. 12,00,000 ต่อปี จะขึ้นอยู่กับบริษัทที่คุณทำงานด้วยเป็นอย่างมาก แม้ว่าคุณจะเริ่มต้นเป็นนักสร้างแบบจำลองข้อมูล แพ็คเกจที่ต่ำที่สุดคือ Rs 600,000 ต่อปี ในขณะที่แพ็คเกจสูงสุดสามารถคาดหวังได้ถึง Rs. 20,00,000 ต่อปี

การเจาะสัมภาษณ์ Data Modeling ยากไหม?

การสร้างแบบจำลองข้อมูลเป็นสาขาที่เกิดขึ้นใหม่ซึ่งมีความต้องการอย่างมากในตลาด ในทางกลับกัน จำนวนผู้เชี่ยวชาญที่เชี่ยวชาญในการสร้างแบบจำลองข้อมูลนั้นค่อนข้างน้อย การสัมภาษณ์อาจดูยากสักหน่อยหากคุณไม่ได้เตรียมตัวอย่างเหมาะสม แต่คุณสามารถคาดหวังการสัมภาษณ์ที่เหมาะสมด้วยการเตรียมตัวที่เหมาะสม
นอกจากการล้างข้อมูลพื้นฐานของการสร้างแบบจำลองข้อมูลแล้ว คุณยังควรอ่านคำถามสัมภาษณ์ที่พบบ่อยบางคำถามอีกด้วย วิธีนี้จะช่วยให้คุณตอบคำถามที่ถูกถามในการสัมภาษณ์ได้ง่ายขึ้นมาก เนื่องจากคุณมีแนวคิดเกี่ยวกับคำถามต่างๆ ที่กำลังถูกถามและวิธีตอบคำถามอยู่แล้ว

ฉันต้องใช้ทักษะอะไรบ้างในการเป็น Data Modeler

ทักษะที่จำเป็นสำหรับการสร้างแบบจำลองข้อมูลค่อนข้างแตกต่างจากทักษะที่จำเป็นสำหรับการบริหารระบบหรือการเขียนโปรแกรม โดยปกติ งานประเภทนี้ต้องการทักษะทางเทคนิค แต่กรณีนี้จะแตกต่างออกไป เราต้องมีความรอบรู้ด้านตรรกะในการเป็นผู้สร้างแบบจำลองข้อมูล ทักษะสำคัญบางอย่างที่ต้องพัฒนาคือ:
1. การออกแบบแนวความคิด
2. การสื่อสารภายใน
3. การสื่อสารของผู้ใช้
4. การคิดเชิงนามธรรม
แม้ว่าคุณจะไม่เชี่ยวชาญด้านเทคนิคมากนัก คุณก็สามารถรับงานเป็นผู้สร้างแบบจำลองข้อมูลได้ หากคุณสามารถคิดเชิงนามธรรมและเชิงแนวคิดได้