ต้องอ่าน 24 คำถามและคำตอบในการสัมภาษณ์ Datastage [Ultimate Guide 2022]
เผยแพร่แล้ว: 2021-01-08Datastage เป็นเครื่องมือ ETL เช่น Extract, Transform และ Load ที่ IBM จัดหาให้ในชุด InfoSphere และชุด Information Solutions Platforms เป็นเครื่องมือ ETL ยอดนิยมและใช้สำหรับทำงานกับชุดข้อมูลและคลังข้อมูลขนาดใหญ่เพื่อสร้างและบำรุงรักษาที่เก็บข้อมูล ในบทความนี้ เราจะพิจารณา คำถามสัมภาษณ์ DataStage ที่พบบ่อยที่สุด และเราจะให้คำตอบสำหรับคำถามเหล่านี้ด้วย หากคุณเป็นมือใหม่และสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล โปรดดูการฝึกอบรมด้านวิทยาศาสตร์ข้อมูลของเราจากมหาวิทยาลัยชั้นนำ
คำถามและคำตอบในการสัมภาษณ์ DataStage ที่พบบ่อยที่สุด มีดังนี้:
สารบัญ
คำถามและคำตอบสัมภาษณ์ DataStage
1. IBM DataStage คืออะไร และทำไมจึงใช้
DataStage เป็นเครื่องมือที่ IBM จัดเตรียมไว้ให้และใช้เพื่อออกแบบ พัฒนา และดำเนินการแอปพลิเคชันเพื่อกรอกข้อมูลลงในคลังข้อมูลโดยแยกข้อมูลจากฐานข้อมูลจากเซิร์ฟเวอร์ Windows มีคุณลักษณะของการแสดงภาพกราฟิกสำหรับการรวมข้อมูลและยังสามารถดึงข้อมูลจากแหล่งต่างๆ ดังนั้นจึงถือว่าเป็นหนึ่งในเครื่องมือ ETL ที่มีศักยภาพมากที่สุด DataStage มีเวอร์ชันต่างๆ ที่บริษัทสามารถใช้ได้ตามความต้องการ เวอร์ชันต่างๆ ได้แก่ Server Edition, MVS Edition และ Enterprise Edition
2. คุณสมบัติของ DataStage คืออะไร?
คุณสมบัติของ IBM DataStage มีดังนี้:
- สามารถใช้งานได้บนเซิร์ฟเวอร์ภายในเครื่องเช่นเดียวกับระบบคลาวด์ตามความต้องการและข้อกำหนด
- ใช้งานง่ายและสามารถเพิ่มความเร็วและความยืดหยุ่นในการรวมข้อมูลได้อย่างมีประสิทธิภาพ
- รองรับข้อมูลขนาดใหญ่และสามารถเข้าถึงข้อมูลขนาดใหญ่ได้หลายวิธี เช่น JDBC integrator, การสนับสนุน JSON และระบบไฟล์แบบกระจาย
3. อธิบายสถาปัตยกรรม DataStage สั้นๆ
IBM DataStage ใช้โมเดลไคลเอ็นต์-เซิร์ฟเวอร์เป็นสถาปัตยกรรม และมีประเภทสถาปัตยกรรมที่แตกต่างกันสำหรับเวอร์ชันต่างๆ ส่วนประกอบของสถาปัตยกรรมไคลเอนต์-เซิร์ฟเวอร์คือ:
- ส่วนประกอบไคลเอ็นต์
- เซิร์ฟเวอร์
- สเตจ
- คำจำกัดความของตาราง
- ตู้คอนเทนเนอร์
- โครงการ
- งาน
4. เราจะเรียกใช้งานโดยใช้บรรทัดคำสั่งใน DataStage ได้อย่างไร
คำสั่งคือ: dsjob -run -jobstatus <projectname> <jobname>
5. ระบุฟังก์ชันบางอย่างที่เราสามารถทำได้โดยใช้คำสั่ง 'dsjob'
ฟังก์ชั่นต่างๆ ที่เราสามารถทำได้โดยใช้คำสั่ง $dsjob คือ:
- $dsjob -run: ใช้สำหรับเรียกใช้งาน DataStage
- $dsjob -stop: ใช้เพื่อหยุดงานที่มีอยู่ในกระบวนการ
- $dsjob -jobid: ใช้สำหรับให้ข้อมูลงาน
- $dsjob -report: ใช้สำหรับแสดงรายงานงานที่สมบูรณ์
- $dsjob -lprojects: ใช้สำหรับแสดงรายการโครงการทั้งหมดที่มีอยู่
- $dsjob -ljobs: ใช้สำหรับแสดงรายการงานทั้งหมดที่มีอยู่ในโครงการ
- $dsjob -lstages: ใช้สำหรับแสดงรายการทุกขั้นตอนของงานปัจจุบัน
- $dsjob -llinks: ใช้สำหรับแสดงรายการลิงก์ทั้งหมด
- $dsjobs -lparams: ใช้สำหรับแสดงรายการพารามิเตอร์ทั้งหมดของ job
- $dsjob -projectinfo: ใช้สำหรับดึงข้อมูลเกี่ยวกับโครงการ
- $dsjob -jobinfo: ใช้สำหรับดึงข้อมูลของงาน
- $dsjob -stageinfo: ใช้สำหรับดึงข้อมูลของสเตจของงานนั้น
- $dsjob -linkinfo: ใช้สำหรับรับข้อมูลของลิงค์นั้น
- $dsjob -paraminfo: ให้ข้อมูลของพารามิเตอร์ทั้งหมด
- $dsjob -loginfo: ใช้สำหรับรับข้อมูลเกี่ยวกับ log
- $dsjob -log: ใช้สำหรับเพิ่มข้อความในบันทึก
- $dsjob -logsum: ใช้สำหรับแสดงข้อมูลบันทึก
- $dsjob -logdetail: ใช้สำหรับแสดงรายละเอียดทั้งหมดของ log
- $dsjob -lognewest: ใช้สำหรับดึง id ของ log ใหม่ล่าสุด
6. ตัวออกแบบโฟลว์ใน IBM DataStage คืออะไร?
Flow designer คืออินเทอร์เฟซผู้ใช้บนเว็บของ DataStage และใช้เพื่อสร้าง แก้ไข โหลด และรันงานใน DataStage
แหล่งที่มา
7. คุณสมบัติหลักของโฟลว์ดีไซเนอร์คืออะไร?
คุณสมบัติหลักของตัวออกแบบโฟลว์คือ:
- มีประโยชน์มากในการทำงานกับขั้นตอนจำนวนมาก
- ไม่จำเป็นต้องย้ายงานเพื่อใช้ตัวออกแบบโฟลว์
- เราสามารถใช้จานสีที่ให้มาเพื่อเพิ่มและลบตัวเชื่อมต่อและตัวดำเนินการบนผืนผ้าใบของตัวออกแบบโดยใช้คุณลักษณะการลากแล้วปล่อย
เรียนรู้เกี่ยวกับ: Data Science Vs Data Mining: ความแตกต่างระหว่าง Data Science & Data Mining
8. วิธีการแปลงงานเซิร์ฟเวอร์เป็นงานคู่ขนานใน DataStage?
งานเซิร์ฟเวอร์สามารถแปลงเป็นงานคู่ขนานได้โดยใช้ตัวรวบรวมลิงก์และตัวรวบรวม IPC
9 . ตัวเชื่อมต่อ HBase คืออะไร?
ตัวเชื่อมต่อ HBase ใน DataStage เป็นเครื่องมือที่ใช้เชื่อมต่อฐานข้อมูลและตารางที่มีอยู่ในฐานข้อมูล HBase ใช้เป็นหลักในการทำงานต่อไปนี้:
- อ่านและเขียนข้อมูลจากและไปยังฐานข้อมูล HBase
- การอ่านข้อมูลในโหมดคู่ขนาน
- ใช้ HBase เป็นตารางแสดงผล
10. ตัวเชื่อมต่อ Hive คืออะไร?
ตัวเชื่อมต่อ Hive เป็นเครื่องมือที่ใช้เพื่อรองรับโหมดพาร์ติชั่นขณะอ่านข้อมูล สามารถทำได้สองวิธี:
- โหมดพาร์ติชั่นโมดูลัส
- โหมดพาร์ติชั่นขั้นต่ำ-สูงสุด
11. Infosphere ใน DataStage คืออะไร?
เซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์สามารถจัดการความต้องการที่มีปริมาณมากของบริษัทต่างๆ และให้ผลลัพธ์คุณภาพสูงและรวดเร็วยิ่งขึ้น โดยให้บริษัทต่างๆ มีแพลตฟอร์มเดียวสำหรับการจัดการข้อมูล ซึ่งพวกเขาสามารถเข้าใจ ทำความสะอาด เปลี่ยนแปลง และนำเสนอข้อมูลจำนวนมหาศาล

แหล่งที่มา
12. ระบุระดับต่างๆ ของ InfoSphere Information Server หรือไม่
ระดับต่างๆ ของเซิร์ฟเวอร์ข้อมูล InfoSphere ได้แก่:
- ระดับลูกค้า
- ระดับบริการ
- ระดับเครื่องยนต์
- ระดับพื้นที่เก็บข้อมูลเมตา
13. อธิบายระดับไคลเอนต์ของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป
ระดับไคลเอนต์ของเซิร์ฟเวอร์ข้อมูล Infosphere ใช้สำหรับการพัฒนาและการดูแลระบบคอมพิวเตอร์ทั้งหมดโดยใช้โปรแกรมไคลเอนต์และคอนโซล
14. อธิบายระดับบริการของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป
ระดับบริการของ Infosphere Information Server ใช้สำหรับให้บริการมาตรฐาน เช่น ข้อมูลเมตาและการบันทึก และบริการเฉพาะโมดูลอื่นๆ ประกอบด้วยแอปพลิเคชันเซิร์ฟเวอร์ โมดูลผลิตภัณฑ์ต่างๆ และบริการผลิตภัณฑ์อื่นๆ
15. อธิบายระดับเครื่องยนต์ของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป
ระดับเครื่องยนต์ของ Infosphere Information Server คือชุดของส่วนประกอบทางลอจิคัลที่ใช้ในการรันงานและงานอื่นๆ สำหรับโมดูลผลิตภัณฑ์
16. อธิบายระดับพื้นที่เก็บข้อมูลเมตาของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์โดยสังเขป
ระดับพื้นที่เก็บข้อมูลเมตาของเซิร์ฟเวอร์ข้อมูลอินโฟสเฟียร์ประกอบด้วยที่เก็บข้อมูลเมตา ฐานข้อมูลการวิเคราะห์ และคอมพิวเตอร์ ใช้เพื่อแบ่งปันข้อมูลเมตา ข้อมูลที่ใช้ร่วมกัน และข้อมูลการกำหนดค่า
17. การประมวลผลแบบขนานใน DataStage มีอะไรบ้าง
การประมวลผลแบบขนานมีสองประเภท ได้แก่:
- การแบ่งพาร์ติชั่นข้อมูล
- การวางท่อข้อมูล
18 . การแบ่งพาร์ติชั่นข้อมูลคืออะไร?
การแบ่งพาร์ติชั่นข้อมูลเป็นแนวทางแบบขนานสำหรับการประมวลผลข้อมูล มันเกี่ยวข้องกับกระบวนการแบ่งเร็กคอร์ดออกเป็นพาร์ติชั่นสำหรับการประมวลผล เพิ่มประสิทธิภาพของการประมวลผลในแบบจำลองเชิงเส้น
อ่านเพิ่มเติม: การประมวลผลข้อมูลล่วงหน้าในการเรียนรู้ของเครื่อง: 7 ขั้นตอนง่ายๆ ในการปฏิบัติตาม
19. Data Pipelining คืออะไร?
Data Pipelining เป็นแนวทางแบบคู่ขนานสำหรับการประมวลผลข้อมูลที่เราทำการดึงข้อมูลจากต้นทางแล้วทำให้พวกเขาผ่านลำดับของฟังก์ชันการประมวลผลเพื่อให้ได้ผลลัพธ์ที่ต้องการ
20. OSH ใน DataStage คืออะไร?
OSH เป็นตัวย่อของ Orchestrate Shell และเป็นภาษาสคริปต์ที่ใช้ใน DataStage ภายในโดยเอ็นจิ้นคู่ขนาน
21. ผู้เล่นคืออะไร?
ผู้เล่นใน DataStage เป็นกระบวนการทำงาน พวกเขาช่วยเราดำเนินการประมวลผลแบบขนานและถูกกำหนดให้กับโอเปอเรเตอร์ในแต่ละโหนด
22. ไลบรารีคอลเลกชันใน DataStage คืออะไร?
ไลบรารีคอลเลกชันคือชุดของโอเปอเรเตอร์และใช้เพื่อรวบรวมข้อมูลที่แบ่งพาร์ติชัน
23. ตัวรวบรวมประเภทใดบ้างที่มีอยู่ในไลบรารีคอลเลกชันของ DataStage
ประเภทของตัวสะสมที่มีอยู่ในไลบรารีคอลเลกชันคือ:
- ตัวรวบรวมการเรียงลำดับ
- นักสะสม Roundrobin
- นักสะสมตามสั่ง
24. ไฟล์ต้นฉบับบรรจุใน DataStage อย่างไร
ไฟล์ต้นฉบับสามารถเติมได้โดยใช้แบบสอบถาม SQL และโดยใช้เครื่องมือแยกตัวสร้างแถว
ด้านล่าง
เราหวังว่าบทความของเราที่มี คำถามและคำตอบในการสัมภาษณ์ DataStage ทั้งหมด จะช่วยให้คุณเตรียมพร้อมสำหรับการสัมภาษณ์ DataStage คุณสามารถดูหลักสูตรเหล่านี้ที่นำเสนอโดย upGrad เพื่อเพิ่มพูนความรู้ของคุณในหัวข้อเหล่านี้:
- PG Diploma in Software Development Specialization in Big Data : หลักสูตรนี้จัดทำโดย upGrad ร่วมกับ IIIT-B เพื่อให้บุคคลมีความรู้ที่จำเป็นสำหรับการพัฒนาซอฟต์แวร์และครอบคลุมความรู้เกี่ยวกับการจัดการข้อมูลขนาดใหญ่
- PGC in Full Stack Development : หลักสูตรการพัฒนาฟูลสแตกนี้สร้างขึ้นโดย upGrad และผู้เชี่ยวชาญในอุตสาหกรรมจาก Tech Mahindra เพื่อให้บุคลากรสามารถแก้ปัญหาความท้าทายระดับอุตสาหกรรมและรับทักษะทั้งหมดที่จำเป็นในการเข้าและทำงานในอุตสาหกรรม
upGrad พร้อม ที่ จะช่วยคุณในการเตรียมตัวเสมอ คุณยังสามารถดูหลักสูตรของเราที่สามารถช่วยให้คุณเรียนรู้ทักษะและเทคนิคที่จำเป็นในอุตสาหกรรมทั้งหมด เพื่อเตรียมพร้อมสำหรับการสัมภาษณ์และความทะเยอทะยานในอนาคตของคุณได้ดี ดังที่เรามักพูดกันว่า 'Raho Ambitious' หลักสูตรเหล่านี้จัดทำขึ้นโดยผู้เชี่ยวชาญในอุตสาหกรรมและนักวิชาการที่มีประสบการณ์ เพื่อให้คุณมีความเชี่ยวชาญในด้านเทคโนโลยีและทักษะใดๆ ก็ตามที่คุณต้องการเรียนรู้
หากคุณสนใจที่จะเรียนรู้ python และต้องการทำให้เครื่องมือและไลบรารีต่างๆ สกปรก ให้ตรวจสอบ Executive PG Program ใน Data Science
สี่ขั้นตอนหลักของ Datastage คืออะไร?
IBM Datastage เป็นเครื่องมือที่ทรงพลังสำหรับการออกแบบ พัฒนา และดำเนินการแอปพลิเคชันเพื่อกรอกข้อมูลลงในคลังข้อมูลโดยแยกข้อมูลจากฐานข้อมูล ด้านล่างนี้คือสี่ขั้นตอนหลักของ Datastage ผู้ดูแลระบบใช้สำหรับงานการบริหารซึ่งรวมถึงการตั้งค่าผู้ใช้ DataStage และเกณฑ์การล้าง การระดมและการยกเลิกโครงการ ฯลฯ อินเทอร์เฟซผู้ออกแบบหรือการออกแบบพัฒนาแอปพลิเคชัน Datastage หรืองานที่ควบคุมโดยผู้อำนวยการและดำเนินการโดยเซิร์ฟเวอร์ ตามชื่อที่แนะนำ ผู้จัดการจะดูแลและจัดการที่เก็บข้อมูลและอนุญาตให้ผู้ใช้แก้ไขข้อมูลที่เก็บไว้ผ่านมัน ผู้อำนวยการทำหน้าที่ต่างๆ รวมทั้งตรวจสอบงาน กำหนดเวลา และดำเนินการพร้อมกับตรวจสอบงานคู่ขนาน
คำสั่ง "dsjob" ใช้เพื่อวัตถุประสงค์ใด?
คำสั่ง dsjob ใช้สำหรับฟังก์ชันต่างๆ รวมถึงการดึงและแสดงข้อมูลเกี่ยวกับโครงการหรืองาน นี่คือฟังก์ชันบางส่วนที่สามารถดำเนินการได้โดยใช้คำสั่ง dsjob $dsjob -run ใช้เพื่อรันงาน DataStage $dsjob -stop ใช้เพื่อหยุดงานที่มีอยู่ในกระบวนการ $dsjob -jobid ใช้สำหรับให้ข้อมูลงาน $dsjob -report ใช้สำหรับแสดงรายงานงานที่สมบูรณ์ ฯลฯ
คุณสมบัติของ DataStage คืออะไร?
Datastage เป็นเครื่องมือสถาปัตยกรรมข้อมูลที่ทรงพลังและมีลักษณะเฉพาะที่หลากหลาย คุณลักษณะบางอย่างของ Datastage มีดังนี้: Datastage สามารถปรับใช้บนเซิร์ฟเวอร์ภายในเครื่องและบนเซิร์ฟเวอร์คลาวด์ได้ ขึ้นอยู่กับความต้องการของผู้ใช้ ความเร็วและความยืดหยุ่นของการรวมข้อมูลสามารถเพิ่มขึ้นได้ตลอดเวลาและสามารถใช้งานได้อย่างมีประสิทธิภาพ รองรับข้อมูลขนาดใหญ่และสามารถเข้าถึงข้อมูลขนาดใหญ่ได้หลายวิธี เช่น JDBC integrator, การสนับสนุน JSON และระบบไฟล์แบบกระจาย