ต้องอ่าน 24 คำถามและคำตอบในการสัมภาษณ์ Datastage [Ultimate Guide 2022]

เผยแพร่แล้ว: 2021-01-08

Datastage เป็นเครื่องมือ ETL เช่น Extract, Transform และ Load ที่ IBM จัดหาให้ในชุด InfoSphere และชุด Information Solutions Platforms เป็นเครื่องมือ ETL ยอดนิยมและใช้สำหรับทำงานกับชุดข้อมูลและคลังข้อมูลขนาดใหญ่เพื่อสร้างและบำรุงรักษาที่เก็บข้อมูล ในบทความนี้ เราจะพิจารณา คำถามสัมภาษณ์ DataStage ที่พบบ่อยที่สุด และเราจะให้คำตอบสำหรับคำถามเหล่านี้ด้วย หากคุณเป็นมือใหม่และสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล โปรดดูการฝึกอบรมด้านวิทยาศาสตร์ข้อมูลของเราจากมหาวิทยาลัยชั้นนำ

คำถามและคำตอบในการสัมภาษณ์ DataStage ที่พบบ่อยที่สุด มีดังนี้:

สารบัญ

คำถามและคำตอบสัมภาษณ์ DataStage

1. IBM DataStage คืออะไร และทำไมจึงใช้

DataStage เป็นเครื่องมือที่ IBM จัดเตรียมไว้ให้และใช้เพื่อออกแบบ พัฒนา และดำเนินการแอปพลิเคชันเพื่อกรอกข้อมูลลงในคลังข้อมูลโดยแยกข้อมูลจากฐานข้อมูลจากเซิร์ฟเวอร์ Windows มีคุณลักษณะของการแสดงภาพกราฟิกสำหรับการรวมข้อมูลและยังสามารถดึงข้อมูลจากแหล่งต่างๆ ดังนั้นจึงถือว่าเป็นหนึ่งในเครื่องมือ ETL ที่มีศักยภาพมากที่สุด DataStage มีเวอร์ชันต่างๆ ที่บริษัทสามารถใช้ได้ตามความต้องการ เวอร์ชันต่างๆ ได้แก่ Server Edition, MVS Edition และ Enterprise Edition

2. คุณสมบัติของ DataStage คืออะไร?

คุณสมบัติของ IBM DataStage มีดังนี้:

  • สามารถใช้งานได้บนเซิร์ฟเวอร์ภายในเครื่องเช่นเดียวกับระบบคลาวด์ตามความต้องการและข้อกำหนด
  • ใช้งานง่ายและสามารถเพิ่มความเร็วและความยืดหยุ่นในการรวมข้อมูลได้อย่างมีประสิทธิภาพ
  • รองรับข้อมูลขนาดใหญ่และสามารถเข้าถึงข้อมูลขนาดใหญ่ได้หลายวิธี เช่น JDBC integrator, การสนับสนุน JSON และระบบไฟล์แบบกระจาย

3. อธิบายสถาปัตยกรรม DataStage สั้นๆ

IBM DataStage ใช้โมเดลไคลเอ็นต์-เซิร์ฟเวอร์เป็นสถาปัตยกรรม และมีประเภทสถาปัตยกรรมที่แตกต่างกันสำหรับเวอร์ชันต่างๆ ส่วนประกอบของสถาปัตยกรรมไคลเอนต์-เซิร์ฟเวอร์คือ:

    1. ส่วนประกอบไคลเอ็นต์
    2. เซิร์ฟเวอร์
    3. สเตจ
    4. คำจำกัดความของตาราง
    5. ตู้คอนเทนเนอร์
    6. โครงการ
    7. งาน

4. เราจะเรียกใช้งานโดยใช้บรรทัดคำสั่งใน DataStage ได้อย่างไร

คำสั่งคือ: dsjob -run -jobstatus <projectname> <jobname>

5. ระบุฟังก์ชันบางอย่างที่เราสามารถทำได้โดยใช้คำสั่ง 'dsjob'

ฟังก์ชั่นต่างๆ ที่เราสามารถทำได้โดยใช้คำสั่ง $dsjob คือ:

    1. $dsjob -run: ใช้สำหรับเรียกใช้งาน DataStage
    2. $dsjob -stop: ใช้เพื่อหยุดงานที่มีอยู่ในกระบวนการ
    3. $dsjob -jobid: ใช้สำหรับให้ข้อมูลงาน
    4. $dsjob -report: ใช้สำหรับแสดงรายงานงานที่สมบูรณ์
    5. $dsjob -lprojects: ใช้สำหรับแสดงรายการโครงการทั้งหมดที่มีอยู่
    6. $dsjob -ljobs: ใช้สำหรับแสดงรายการงานทั้งหมดที่มีอยู่ในโครงการ
    7. $dsjob -lstages: ใช้สำหรับแสดงรายการทุกขั้นตอนของงานปัจจุบัน
    8. $dsjob -llinks: ใช้สำหรับแสดงรายการลิงก์ทั้งหมด
    9. $dsjobs -lparams: ใช้สำหรับแสดงรายการพารามิเตอร์ทั้งหมดของ job
    10. $dsjob -projectinfo: ใช้สำหรับดึงข้อมูลเกี่ยวกับโครงการ
    11. $dsjob -jobinfo: ใช้สำหรับดึงข้อมูลของงาน
    12. $dsjob -stageinfo: ใช้สำหรับดึงข้อมูลของสเตจของงานนั้น
    13. $dsjob -linkinfo: ใช้สำหรับรับข้อมูลของลิงค์นั้น
    14. $dsjob -paraminfo: ให้ข้อมูลของพารามิเตอร์ทั้งหมด
    15. $dsjob -loginfo: ใช้สำหรับรับข้อมูลเกี่ยวกับ log
    16. $dsjob -log: ใช้สำหรับเพิ่มข้อความในบันทึก
    17. $dsjob -logsum: ใช้สำหรับแสดงข้อมูลบันทึก
    18. $dsjob -logdetail: ใช้สำหรับแสดงรายละเอียดทั้งหมดของ log
    19. $dsjob -lognewest: ใช้สำหรับดึง id ของ log ใหม่ล่าสุด

6. ตัวออกแบบโฟลว์ใน IBM DataStage คืออะไร?

Flow designer คืออินเทอร์เฟซผู้ใช้บนเว็บของ DataStage และใช้เพื่อสร้าง แก้ไข โหลด และรันงานใน DataStage

แหล่งที่มา

7. คุณสมบัติหลักของโฟลว์ดีไซเนอร์คืออะไร?

คุณสมบัติหลักของตัวออกแบบโฟลว์คือ:

  1. มีประโยชน์มากในการทำงานกับขั้นตอนจำนวนมาก
  2. ไม่จำเป็นต้องย้ายงานเพื่อใช้ตัวออกแบบโฟลว์
  3. เราสามารถใช้จานสีที่ให้มาเพื่อเพิ่มและลบตัวเชื่อมต่อและตัวดำเนินการบนผืนผ้าใบของตัวออกแบบโดยใช้คุณลักษณะการลากแล้วปล่อย

เรียนรู้เกี่ยวกับ: Data Science Vs Data Mining: ความแตกต่างระหว่าง Data Science & Data Mining

8. วิธีการแปลงงานเซิร์ฟเวอร์เป็นงานคู่ขนานใน DataStage?

งานเซิร์ฟเวอร์สามารถแปลงเป็นงานคู่ขนานได้โดยใช้ตัวรวบรวมลิงก์และตัวรวบรวม IPC

9 . ตัวเชื่อมต่อ HBase คืออะไร?

ตัวเชื่อมต่อ HBase ใน DataStage เป็นเครื่องมือที่ใช้เชื่อมต่อฐานข้อมูลและตารางที่มีอยู่ในฐานข้อมูล HBase ใช้เป็นหลักในการทำงานต่อไปนี้:

  1. อ่านและเขียนข้อมูลจากและไปยังฐานข้อมูล HBase
  2. การอ่านข้อมูลในโหมดคู่ขนาน
  3. ใช้ HBase เป็นตารางแสดงผล

10. ตัวเชื่อมต่อ Hive คืออะไร?

ตัวเชื่อมต่อ Hive เป็นเครื่องมือที่ใช้เพื่อรองรับโหมดพาร์ติชั่นขณะอ่านข้อมูล สามารถทำได้สองวิธี:

  1. โหมดพาร์ติชั่นโมดูลัส
  2. โหมดพาร์ติชั่นขั้นต่ำ-สูงสุด

11. Infosphere ใน DataStage คืออะไร?

เซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์สามารถจัดการความต้องการที่มีปริมาณมากของบริษัทต่างๆ และให้ผลลัพธ์คุณภาพสูงและรวดเร็วยิ่งขึ้น โดยให้บริษัทต่างๆ มีแพลตฟอร์มเดียวสำหรับการจัดการข้อมูล ซึ่งพวกเขาสามารถเข้าใจ ทำความสะอาด เปลี่ยนแปลง และนำเสนอข้อมูลจำนวนมหาศาล

แหล่งที่มา

12. ระบุระดับต่างๆ ของ InfoSphere Information Server หรือไม่

ระดับต่างๆ ของเซิร์ฟเวอร์ข้อมูล InfoSphere ได้แก่:

  1. ระดับลูกค้า
  2. ระดับบริการ
  3. ระดับเครื่องยนต์
  4. ระดับพื้นที่เก็บข้อมูลเมตา

13. อธิบายระดับไคลเอนต์ของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป

ระดับไคลเอนต์ของเซิร์ฟเวอร์ข้อมูล Infosphere ใช้สำหรับการพัฒนาและการดูแลระบบคอมพิวเตอร์ทั้งหมดโดยใช้โปรแกรมไคลเอนต์และคอนโซล

14. อธิบายระดับบริการของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป

ระดับบริการของ Infosphere Information Server ใช้สำหรับให้บริการมาตรฐาน เช่น ข้อมูลเมตาและการบันทึก และบริการเฉพาะโมดูลอื่นๆ ประกอบด้วยแอปพลิเคชันเซิร์ฟเวอร์ โมดูลผลิตภัณฑ์ต่างๆ และบริการผลิตภัณฑ์อื่นๆ

15. อธิบายระดับเครื่องยนต์ของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป

ระดับเครื่องยนต์ของ Infosphere Information Server คือชุดของส่วนประกอบทางลอจิคัลที่ใช้ในการรันงานและงานอื่นๆ สำหรับโมดูลผลิตภัณฑ์

16. อธิบายระดับพื้นที่เก็บข้อมูลเมตาของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป

ระดับพื้นที่เก็บข้อมูลเมตาของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์ประกอบด้วยที่เก็บข้อมูลเมตา ฐานข้อมูลการวิเคราะห์ และคอมพิวเตอร์ ใช้เพื่อแบ่งปันข้อมูลเมตา ข้อมูลที่ใช้ร่วมกัน และข้อมูลการกำหนดค่า

17. การประมวลผลแบบขนานใน DataStage มีอะไรบ้าง

การประมวลผลแบบขนานมีสองประเภท ได้แก่:

  1. การแบ่งพาร์ติชั่นข้อมูล
  2. การวางท่อข้อมูล

18 . การแบ่งพาร์ติชั่นข้อมูลคืออะไร?

การแบ่งพาร์ติชั่นข้อมูลเป็นแนวทางแบบขนานสำหรับการประมวลผลข้อมูล มันเกี่ยวข้องกับกระบวนการแบ่งเร็กคอร์ดออกเป็นพาร์ติชั่นสำหรับการประมวลผล เพิ่มประสิทธิภาพของการประมวลผลในแบบจำลองเชิงเส้น

อ่านเพิ่มเติม: การประมวลผลข้อมูลล่วงหน้าในการเรียนรู้ของเครื่อง: 7 ขั้นตอนง่ายๆ ในการปฏิบัติตาม

19. Data Pipelining คืออะไร?

Data Pipelining เป็นแนวทางแบบคู่ขนานสำหรับการประมวลผลข้อมูลที่เราทำการดึงข้อมูลจากต้นทางแล้วทำให้พวกเขาผ่านลำดับของฟังก์ชันการประมวลผลเพื่อให้ได้ผลลัพธ์ที่ต้องการ

20. OSH ใน DataStage คืออะไร?

OSH เป็นตัวย่อของ Orchestrate Shell และเป็นภาษาสคริปต์ที่ใช้ใน DataStage ภายในโดยเอ็นจิ้นคู่ขนาน

21. ผู้เล่นคืออะไร?

ผู้เล่นใน DataStage เป็นกระบวนการทำงาน พวกเขาช่วยเราดำเนินการประมวลผลแบบขนานและถูกกำหนดให้กับโอเปอเรเตอร์ในแต่ละโหนด

22. ไลบรารีคอลเลกชันใน DataStage คืออะไร?

ไลบรารีคอลเลกชันคือชุดของโอเปอเรเตอร์และใช้เพื่อรวบรวมข้อมูลที่แบ่งพาร์ติชัน

23. ตัวรวบรวมประเภทใดบ้างที่มีอยู่ในไลบรารีคอลเลกชันของ DataStage

ประเภทของตัวสะสมที่มีอยู่ในไลบรารีคอลเลกชันคือ:

  1. ตัวรวบรวมการเรียงลำดับ
  2. นักสะสม Roundrobin
  3. นักสะสมตามสั่ง

24. ไฟล์ต้นฉบับบรรจุใน DataStage อย่างไร

ไฟล์ต้นฉบับสามารถเติมได้โดยใช้แบบสอบถาม SQL และโดยใช้เครื่องมือแยกตัวสร้างแถว

ด้านล่าง

เราหวังว่าบทความของเราที่มี คำถามและคำตอบในการสัมภาษณ์ DataStage ทั้งหมด จะช่วยให้คุณเตรียมพร้อมสำหรับการสัมภาษณ์ DataStage คุณสามารถดูหลักสูตรเหล่านี้ที่นำเสนอโดย upGrad เพื่อเพิ่มพูนความรู้ของคุณในหัวข้อเหล่านี้:

  1. PG Diploma in Software Development Specialization in Big Data : หลักสูตรนี้จัดทำโดย upGrad ร่วมกับ IIIT-B เพื่อให้บุคคลมีความรู้ที่จำเป็นสำหรับการพัฒนาซอฟต์แวร์และครอบคลุมความรู้เกี่ยวกับการจัดการข้อมูลขนาดใหญ่
  2. PGC in Full Stack Development : หลักสูตรการพัฒนาฟูลสแตกนี้สร้างขึ้นโดย upGrad และผู้เชี่ยวชาญในอุตสาหกรรมจาก Tech Mahindra เพื่อให้บุคลากรสามารถแก้ปัญหาความท้าทายระดับอุตสาหกรรมและรับทักษะทั้งหมดที่จำเป็นในการเข้าและทำงานในอุตสาหกรรม

upGrad พร้อม ที่ จะช่วยคุณในการเตรียมตัวเสมอ คุณยังสามารถดูหลักสูตรของเราที่สามารถช่วยให้คุณเรียนรู้ทักษะและเทคนิคที่จำเป็นในอุตสาหกรรมทั้งหมด เพื่อเตรียมพร้อมสำหรับการสัมภาษณ์และความทะเยอทะยานในอนาคตของคุณได้ดี ดังที่เรามักพูดกันว่า 'Raho Ambitious' หลักสูตรเหล่านี้จัดทำขึ้นโดยผู้เชี่ยวชาญในอุตสาหกรรมและนักวิชาการที่มีประสบการณ์ เพื่อให้คุณมีความเชี่ยวชาญในด้านเทคโนโลยีและทักษะใดๆ ก็ตามที่คุณต้องการเรียนรู้

หากคุณสนใจที่จะเรียนรู้ python และต้องการทำให้เครื่องมือและไลบรารีต่างๆ สกปรก ให้ตรวจสอบ Executive PG Program ใน Data Science

สี่ขั้นตอนหลักของ Datastage คืออะไร?

IBM Datastage เป็นเครื่องมือที่ทรงพลังสำหรับการออกแบบ พัฒนา และดำเนินการแอปพลิเคชันเพื่อกรอกข้อมูลลงในคลังข้อมูลโดยแยกข้อมูลจากฐานข้อมูล ด้านล่างนี้คือสี่ขั้นตอนหลักของ Datastage ผู้ดูแลระบบใช้สำหรับงานการบริหารซึ่งรวมถึงการตั้งค่าผู้ใช้ DataStage และเกณฑ์การล้าง การระดมและการยกเลิกโครงการ ฯลฯ อินเทอร์เฟซผู้ออกแบบหรือการออกแบบพัฒนาแอปพลิเคชัน Datastage หรืองานที่ควบคุมโดยผู้อำนวยการและดำเนินการโดยเซิร์ฟเวอร์ ตามชื่อที่แนะนำ ผู้จัดการจะดูแลและจัดการที่เก็บข้อมูลและอนุญาตให้ผู้ใช้แก้ไขข้อมูลที่เก็บไว้ผ่านมัน ผู้อำนวยการทำหน้าที่ต่างๆ รวมทั้งตรวจสอบงาน กำหนดเวลา และดำเนินการพร้อมกับตรวจสอบงานคู่ขนาน

คำสั่ง "dsjob" ใช้เพื่อวัตถุประสงค์ใด?

คำสั่ง dsjob ใช้สำหรับฟังก์ชันต่างๆ รวมถึงการดึงและแสดงข้อมูลเกี่ยวกับโครงการหรืองาน นี่คือฟังก์ชันบางส่วนที่สามารถดำเนินการได้โดยใช้คำสั่ง dsjob $dsjob -run ใช้เพื่อรันงาน DataStage $dsjob -stop ใช้เพื่อหยุดงานที่มีอยู่ในกระบวนการ $dsjob -jobid ใช้สำหรับให้ข้อมูลงาน $dsjob -report ใช้สำหรับแสดงรายงานงานที่สมบูรณ์ ฯลฯ

คุณสมบัติของ DataStage คืออะไร?

Datastage เป็นเครื่องมือสถาปัตยกรรมข้อมูลที่ทรงพลังและมีลักษณะเฉพาะที่หลากหลาย คุณลักษณะบางอย่างของ Datastage มีดังนี้: Datastage สามารถปรับใช้บนเซิร์ฟเวอร์ภายในเครื่องและบนเซิร์ฟเวอร์คลาวด์ได้ ขึ้นอยู่กับความต้องการของผู้ใช้ ความเร็วและความยืดหยุ่นของการรวมข้อมูลสามารถเพิ่มขึ้นได้ตลอดเวลาและสามารถใช้งานได้อย่างมีประสิทธิภาพ รองรับข้อมูลขนาดใหญ่และสามารถเข้าถึงข้อมูลขนาดใหญ่ได้หลายวิธี เช่น JDBC integrator, การสนับสนุน JSON และระบบไฟล์แบบกระจาย