24のDatastageインタビューの質問と回答を読む必要があります[UltimateGuide2022]

公開: 2021-01-08

Datastageは、IBMがInfoSphereスイートおよびInformation Solutions Platformsスイートで提供するETL、つまり抽出、変換、およびロードツールです。これは人気のあるETLツールであり、大規模なデータセットやウェアハウスを操作してデータリポジトリを作成および維持するために使用されます。この記事では、最もよくあるDataStageインタビューの質問を見て、これらの質問への回答も提供します。初心者でデータサイエンスについて詳しく知りたい場合は、一流大学のデータサイエンストレーニングをご覧ください。

最も一般的なDataStageインタビューの質問と回答は次のとおりです。

DataStageインタビューの質問と回答

1. IBM DataStageとは何ですか、またなぜそれが使用されるのですか？

DataStageは、IBMが提供するツールであり、Windowsサーバーからデータベースからデータを抽出することにより、データをデータウェアハウスに入力するためのアプリケーションを設計、開発、および実行するために使用されます。データ統合のためのグラフィック視覚化の機能が含まれており、複数のソースからデータを抽出することもできます。したがって、これは最も強力なETLツールの1つと見なされます。 DataStageには、企業が要件に基づいて使用できるさまざまなバージョンがあります。バージョンは、Server Edition、MVS Edition、およびEnterpriseEditionです。

2. DataStageの特徴は何ですか？

IBMDataStageの特徴は次のとおりです。

必要性と要件に応じて、クラウドだけでなくローカルサーバーにも展開できます。
使用するのは簡単で、データ統合の速度と柔軟性を効率的に高めることができます。
ビッグデータをサポートし、JDBCインテグレーター、JSONサポート、分散ファイルシステムなど、さまざまな方法でビッグデータにアクセスできます。

3.DataStageアーキテクチャについて簡単に説明します。

IBM DataStageは、そのアーキテクチャーとしてクライアント・サーバー・モデルに従い、さまざまなバージョンに対して異なるアーキテクチャー・タイプを持っています。クライアント/サーバーアーキテクチャのコンポーネントは次のとおりです。

1. クライアントコンポーネント
2. サーバー
3. ステージ
4. テーブル定義
5. コンテナ
6. プロジェクト
7. ジョブズ

4. DataStageのコマンドラインを使用してジョブを実行するにはどうすればよいですか？

コマンドは次のとおりです。dsjob-run-jobstatus<projectname> <jobname>

5.「dsjob」コマンドを使用して実行できる関数をいくつかリストします。

$dsjobコマンドを使用して実行できるさまざまな機能は次のとおりです。

1. $ dsjob -run：DataStageジョブを実行するために使用されます
2. $ dsjob -stop：プロセスに現在存在するジョブを停止するために使用されます
3. $ dsjob -jobid：ジョブ情報を提供するために使用されます
4. $ dsjob -report：完全なジョブレポートを表示するために使用されます
5. $ dsjob -lprojects：存在するすべてのプロジェクトを一覧表示するために使用されます
6. $ dsjob -ljobs：プロジェクトに存在するすべてのジョブを一覧表示するために使用されます
7. $ dsjob -lstages：現在のジョブのすべてのステージを一覧表示するために使用されます
8. $ dsjob -llinks：すべてのリンクを一覧表示するために使用されます
9. $ dsjobs -lparams：ジョブのすべてのパラメーターをリストするために使用されます
10. $ dsjob -projectinfo：プロジェクトに関する情報を取得するために使用されます
11. $ dsjob -jobinfo：ジョブの情報検索に使用されます
12. $ dsjob -stageinfo：そのジョブのそのステージの情報検索に使用されます
13. $ dsjob -linkinfo：そのリンクの情報を取得するために使用されます
14. $ dsjob -paraminfo：すべてのパラメーターの情報を提供します
15. $ dsjob -loginfo：ログに関する情報を取得するために使用されます
16. $ dsjob -log：ログにテキストメッセージを追加するために使用されます
17. $ dsjob -logsum：ログデータを表示するために使用されます
18. $ dsjob -logdetail：ログのすべての詳細を表示するために使用されます
19. $ dsjob -lognewest：最新のログのIDを取得するために使用されます

6. IBM DataStageのフロー設計者とは何ですか？

フローデザイナは、DataStageのWebベースのユーザーインターフェイスであり、DataStageでジョブを作成、編集、ロード、および実行するために使用されます。

ソース

7.フローデザイナの主な機能は何ですか？

フローデザイナの主な機能は次のとおりです。

ステージ数の多いジョブを実行すると非常に便利です。
フローデザイナを使用するためにジョブを移行する必要はありません。
提供されているパレットを使用して、ドラッグアンドドロップ機能を使用してデザイナーキャンバス上のコネクタと演算子を追加および削除できます。

学ぶ：データサイエンスとデータマイニング：データサイエンスとデータマイニングの違い

8. DataStageでサーバージョブを並列ジョブに変換するにはどうすればよいですか？

サーバージョブは、リンクコレクターとIPCコレクターを使用して並列ジョブに変換できます。

9 。 HBaseコネクタとは何ですか？

DataStageのHBaseコネクターは、HBaseデータベースに存在するデータベースとテーブルを接続するために使用されるツールです。これは主に次のタスクを実行するために使用されます。

HBaseデータベースとの間でデータの読み取りと書き込みを行います。
パラレルモードでのデータの読み取り。
ビューテーブルとしてのHBaseの使用

10. Hiveコネクタとは何ですか？

ハイブコネクタは、データの読み取り中にパーティションモードをサポートするために使用されるツールです。これは2つの方法で実行できます。

モジュラスパーティションモード
最小-最大パーティションモード

11. DataStageのInfosphereとは何ですか？

情報空間情報サーバーは、企業の大量の要件を管理することができ、高品質でより高速な結果を提供します。これは、企業が膨大な量の情報を理解、クリーンアップ、変換、および配信できるデータを管理するための単一のプラットフォームを企業に提供します。

ソース

12. InfoSphere Information Serverのすべての異なる層をリストしますか？

InfoSphereInformationServerのさまざまな層は次のとおりです。

クライアント層
サービス層
エンジン層
メタデータリポジトリ層

13. InfosphereInformationServerのクライアント層について簡単に説明してください。

Infosphere Information Serverのクライアント層は、クライアント・プログラムとコンソールを使用したコンピューターの開発と完全な管理に使用されます。

14. InfosphereInformationServerのサービス層について簡単に説明してください。

Infosphere Information Serverのサービス層は、メタデータやロギングなどの標準サービスやその他のモジュール固有のサービスを提供するために使用されます。これには、アプリケーションサーバー、さまざまな製品モジュール、およびその他の製品サービスが含まれています。

15. InfosphereInformationServerのエンジン層について簡単に説明してください。

Infosphere Information Serverのエンジン層は、製品モジュールのジョブおよびその他のタスクを実行するために使用される論理コンポーネントのセットです。

16. InfosphereInformationServerのメタデータリポジトリー層について簡単に説明します。

Infosphere Information Serverのメタデータ・リポジトリー層には、メタデータ・リポジトリー、分析データベース、およびコンピューターが含まれます。メタデータ、共有データ、および構成情報を共有するために使用されます。

17.17。 DataStageの並列処理の種類は何ですか？

並列処理には、次の2つのタイプがあります。

データ分割
データパイプライン

18 。 データパーティショニングとは何ですか？

データ分割は、データ処理の並列アプローチの一種です。これには、レコードを処理のためにパーティションに分割するプロセスが含まれます。線形モデルでの処理効率が向上します。

続きを読む：機械学習でのデータ前処理：従うべき7つの簡単なステップ

19。 データパイプラインとは何ですか？

データパイプライン化は、データ処理の並列アプローチの一種であり、ソースからデータを抽出し、一連の処理関数を通過させて必要な出力を取得します。

20. DataStageのOSHとは何ですか？

OSHは、Orchestrate Shellの略語であり、並列エンジンによって内部的にDataStageで使用されるスクリプト言語です。

21.プレイヤーとは何ですか？

DataStageのプレーヤーは、主力のプロセスです。これらは並列処理の実行に役立ち、各ノードのオペレーターに割り当てられます。

22. DataStageのコレクションライブラリとは何ですか？

収集ライブラリは演算子のセットであり、パーティション化されたデータを収集するために使用されます。

23。 DataStageのコレクションライブラリで利用できるコレクターの種類は何ですか？

コレクションライブラリで使用できるコレクターのタイプは次のとおりです。

Sortmergコレクター
ラウンドロビンコレクター
注文したコレクター

24。 DataStageにソースファイルはどのように入力されますか？

ソースファイルは、SQLクエリを使用して、また行ジェネレーター抽出ツールを使用して入力できます。

結論

DataStageインタビューのすべての質問と回答を含む記事が、DataStageインタビューの準備に役立つことを願っています。 upGradが提供するこれらのコースを見て、これらのトピックに関する知識を深めることができます。

ビッグデータのソフトウェア開発専門分野のPGディプロマ：このコースは、ソフトウェア開発に必要な知識を個人に提供し、ビッグデータの管理に関する知識をカバーするために、IIIT-Bに関連してupGradによって作成されます。
フルスタック開発のPGC ：フルスタック開発に関するこのコースは、Tech MahindraのupGradと業界の専門家によって作成され、業界レベルの課題を解決し、業界に参入して働くために必要なすべてのスキルを習得できるようにします。

upGradは、お客様の準備をお手伝いします。また、私たちがいつも「ラホアンビシャス」と言っているように、面接や将来の仕事の野心に備えるために業界で必要なすべてのスキルとテクニックを学ぶのに役立つコースを見ることができます。これらのコースは、業界の専門家と経験豊富な学者によって作成されており、学習したいテクノロジーやスキルに習熟できるようになっています。

Pythonの学習に興味があり、さまざまなツールやライブラリを手に入れたい場合は、データサイエンスのエグゼクティブPGプログラムをご覧ください。

Datastageの4つの主要な段階は何ですか？

IBM Datastageは、データベースからデータを抽出することにより、データをデータウェアハウスに入力するためのアプリケーションを設計、開発、および実行するための強力なツールです。以下は、Datastageの4つの主要な段階です。管理者は、DataStageユーザーの設定と基準のパージ、プロジェクトの動員と動員解除などの管理タスクに使用されます。設計者または設計インターフェースは、ディレクターによって規制され、サーバーによって実行されるDatastageアプリケーションまたはジョブを開発します。名前が示すように、managerはリポジトリーを維持および管理し、ユーザーがリポジトリーを介して保管されたデータを変更できるようにします。ディレクターは、ジョブの検証、スケジューリング、実行、並列ジョブの監視など、さまざまな機能を実行します。

「dsjob」コマンドはどのような目的で使用されますか？

dsjobコマンドは、プロジェクトまたはジョブに関するデータの取得と表示を含むさまざまな機能に使用されます。 dsjobコマンドを使用して実行できる関数の一部を次に示します。 $ dsjob -runはDataStageジョブの実行に使用され、$ dsjob -stopは現在プロセスに存在するジョブの停止に使用され、$ dsjob -jobidはジョブ情報の提供に使用され、$dsjob-reportは完全なジョブレポートの表示に使用されます、など。

DataStageの特徴は何ですか？

Datastageは強力なデータアーキテクチャツールであり、さまざまな特性があります。 Datastageの特徴のいくつかは次のとおりです。Datastageは、ユーザーの要件に応じて、ローカルサーバーとクラウドサーバーにデプロイできます。データ統合の速度と柔軟性はいつでも向上でき、効率的に使用できます。ビッグデータをサポートし、JDBCインテグレーター、JSONサポート、分散ファイルシステムなど、さまざまな方法でビッグデータにアクセスできます。