26のデータアナリストインタビューの質問と回答を読む必要があります:Ultimate Guide 2022
公開: 2021-01-07データアナリストのインタビューに参加し、あなたが経験するすべての質問と議論は何であるか疑問に思いますか? データ分析の面接に参加する前に、データ分析者の面接の質問の種類を理解して、それらに対する回答を精神的に準備できるようにすることをお勧めします。
この記事では、いくつかの最も重要なデータアナリストのインタビューの質問と回答を見ていきます。 データサイエンスとデータ分析はどちらも現在、業界で繁栄している分野です。 当然、これらの分野でのキャリアは急上昇しています。 データサイエンス分野でのキャリア構築の最大のメリットは、さまざまなキャリアオプションから選択できることです。
世界中の組織がビッグデータを活用して全体的な生産性と効率を高めています。これは必然的に、データアナリスト、データエンジニア、データサイエンティストなどのエキスパートデータプロフェッショナルの需要も飛躍的に増加していることを意味します。 しかし、これらの仕事を手に入れるには、基本的な資格を持っているだけでは十分ではありません。 データサイエンス認定を取得すると、プロファイルの重みが増します。
最も難しい部分、つまり面接をクリアする必要があります。 心配はいりません。このデータアナリストのインタビューの質問と回答のガイドを作成して、質問の背後にある深さと本当の意図を理解します。
目次
トップデータアナリストインタビューの質問と回答
1.データアナリストになるための重要な要件は何ですか?
このデータアナリストのインタビューの質問は、データサイエンティストになるために必要なスキルセットについての知識をテストします。
データアナリストになるには、次のことを行う必要があります。
- プログラミング言語(XML、Javascript、またはETLフレームワーク)、データベース(SQL、SQLite、Db2など)に精通しており、レポートパッケージ(ビジネスオブジェクト)に関する幅広い知識も持っています。
- ビッグデータを効率的に分析、整理、収集、配布できるようになります。
- データベース設計、データマイニング、セグメンテーション手法などの分野で十分な技術的知識が必要です。
- いくつか例を挙げると、SAS、Excel、SPSSなどの大規模なデータセットを分析するための統計パッケージに関する十分な知識があります。
2.データアナリストの重要な責任は何ですか?
これは、最もよく聞かれるデータアナリストのインタビューの質問です。 あなたはあなたの仕事が何を伴うかについて明確な考えを持っている必要があります。
データアナリストは、を実行する必要があります
次のタスク:
- 複数のソースからデータを収集して解釈し、結果を分析します。
- 複数のソースから収集されたデータをフィルタリングして「クリーン」にします。
- データ分析のあらゆる側面をサポートします。
- 複雑なデータセットを分析し、それらの中に隠されたパターンを特定します。
- データベースを保護します。
3.「データクレンジング」とはどういう意味ですか? これを実践するための最良の方法は何ですか?
データアナリストの仕事に就いている場合、これはデータアナリストの面接で最もよく聞かれる質問の1つです。
データクレンジングとは、主に、データの品質を向上させるために、データからエラーや不整合を検出して削除するプロセスを指します。
データをクリーンアップする最良の方法は次のとおりです。
- それぞれの属性に従ってデータを分離します。
- データの大きなチャンクを小さなデータセットに分割してから、それらをクリーンアップします。
- 各データ列の統計を分析します。
- 一般的なクリーニングタスクを処理するためのユーティリティ関数またはスクリプトのセットを作成します。
- 必要に応じて、データセットへの追加またはデータセットからの削除を容易にするために、すべてのデータクレンジング操作を追跡します。
4.データ分析に使用する最適なツールに名前を付けます。
最もよく使用されるツールに関する質問は、データ分析のインタビューの質問によく見られるものです。
データ分析に最も役立つツールは次のとおりです。
- Tableau
- Google Fusion Tables
- Google検索演算子
- KNIME
- RapidMiner
- ソルバー
- OpenRefine
- NodeXL
- io
チェックアウト:インドのデータアナリスト給与
5.データプロファイリングとデータマイニングの違いは何ですか?
データプロファイリングは、データの個々の属性の分析に重点を置いており、データタイプ、頻度、長さなどのデータ属性に関する貴重な情報を、それらの個別の値や値の範囲とともに提供します。 それどころか、データマイニングは、いくつか例を挙げると、異常なレコードの識別、データクラスターの分析、およびシーケンスの検出を目的としています。
6. KNN代入法とは何ですか?
KNN代入法は、欠落している属性値に最も近い属性値を使用して、欠落している属性の値を代入しようとします。 2つの属性値間の類似性は、距離関数を使用して決定されます。
7.データアナリストは、欠落しているデータまたは疑わしいデータに対して何をすべきですか?
このような場合、データアナリストは次のことを行う必要があります。
- 欠落データを検出するには、削除方法、単一代入方法、モデルベースの方法などのデータ分析戦略を使用します。
- 疑わしいデータまたは欠落しているデータに関するすべての情報を含む検証レポートを作成します。
- 疑わしいデータを精査して、その有効性を評価します。
- すべての無効なデータ(存在する場合)を適切な検証コードに置き換えます。
8.データアナリストが使用するさまざまなデータ検証方法に名前を付けます。
データセットを検証する方法はたくさんあります。 データアナリストが最も一般的に使用するデータ検証方法には、次のものがあります。
- フィールドレベルの検証–この方法では、ユーザーがデータを入力したときに、各フィールドでデータの検証が行われます。 それはあなたが行くようにエラーを修正するのに役立ちます。
- フォームレベルの検証–この方法では、ユーザーがフォームに入力して送信した後にデータが検証されます。 データ入力フォーム全体を一度にチェックし、その中のすべてのフィールドを検証し、エラー(存在する場合)を強調表示して、ユーザーが修正できるようにします。
- データ保存検証–このデータ検証手法は、実際のファイルまたはデータベースレコードを保存するプロセス中に使用されます。 通常、これは複数のデータ入力フォームを検証する必要がある場合に行われます。
- 検索基準の検証–この検証手法は、検索されたキーワードまたはフレーズの正確で関連性のある一致をユーザーに提供するために使用されます。 この検証方法の主な目的は、ユーザーの検索クエリが最も関連性の高い結果を返すことができるようにすることです。
9.外れ値を定義する
データアナリストのインタビューの質問と回答のガイドは、この質問なしでは完了しません。 外れ値は、データアナリストが、サンプル内の設定されたパターンから遠く離れており、発散しているように見える値を指すときに一般的に使用される用語です。 外れ値には、単変量と多変量の2種類があります。
外れ値を検出するために使用される2つの方法は次のとおりです。
- 箱ひげ図法–この方法によると、値が1.5 * IQR(四分位範囲)よりも高いか低い場合、つまり、上位四分位数(Q3)より上または下位四分位数(Q1)より下にある場合、値は外れ値です。 。
- 標準偏差法–この方法では、値が平均±(3 *標準偏差)よりも高いまたは低い場合、それは外れ値であると述べています。 探索的データ分析とそのビジネスにとっての重要性
10.「クラスタリング」とは何ですか? クラスタリングアルゴリズムのプロパティに名前を付けます。
クラスタリングは、データをクラスターとグループに分類する方法です。 クラスタリングアルゴリズムには、次のプロパティがあります。

- 階層型またはフラット
- ハードとソフト
- 反復
- 選言的
11. K-meanアルゴリズムとは何ですか?
K-meanは、オブジェクトをKグループに分類する分割手法です。 このアルゴリズムでは、クラスターは球形であり、データポイントはそのクラスターの周囲に配置され、クラスターの分散は互いに類似しています。
12.「協調フィルタリング」を定義します。
協調フィルタリングは、ユーザーの行動データに基づいてレコメンデーションシステムを作成するアルゴリズムです。 たとえば、オンラインショッピングサイトは通常、閲覧履歴と以前の購入に基づいて、「推奨」の下にあるアイテムのリストを作成します。 このアルゴリズムの重要なコンポーネントには、ユーザー、オブジェクト、およびそれらの関心が含まれます。
13.データアナリストにとって非常に有益な統計手法を挙げてください。
データアナリストが主に使用する統計手法は次のとおりです。
- ベイズ法
- マルコフ過程
- シンプレックスアルゴリズム
- 代入
- 空間プロセスとクラスタープロセス
- ランク統計、パーセンタイル、外れ値の検出
- 数理最適化
14. N-gramとは何ですか?
n-gramは、特定のテキストまたはスピーチ内のn個のアイテムの接続されたシーケンスです。 正確には、N-gramは、(n-1)のように、特定のシーケンスの次の項目を予測するために使用される確率的言語モデルです。
15.ハッシュテーブルの衝突とは何ですか? どうすればそれを防ぐことができますか?
これは、データアナリストの重要なインタビューの質問の1つです。 2つの別々のキーが共通の値にハッシュされると、ハッシュテーブルの衝突が発生します。 これは、2つの異なるデータを同じスロットに保存できないことを意味します。
ハッシュの衝突は、次の方法で回避できます。
- 個別の連鎖–この方法では、データ構造を使用して、ハッシュ化された複数のアイテムを共通のスロットに格納します。
- オープンアドレッシング–このメソッドは、空のスロットを探し出し、使用可能な最初の空のスロットにアイテムを格納します。
16.「時系列分析」を定義します。
直列解析は通常、時間領域と周波数領域の2つの領域で実行できます。
時系列分析は、指数平滑化、対数線形回帰法などの手法を使用して、過去に収集されたデータを分析することにより、プロセスの出力予測を行う方法です。
17.マルチソースの問題にどのように取り組むべきですか?
マルチソースの問題に取り組むには、次のことを行う必要があります。
- 類似のデータレコードを特定し、それらを1つのレコードに結合します。このレコードには、冗長性を除いたすべての有用な属性が含まれます。
- スキーマの再構築を通じてスキーマの統合を促進します。
18.データ分析プロジェクトの手順に言及します。
データ分析プロジェクトのコアステップは次のとおりです。
- データ分析プロジェクトの最も重要な要件は、ビジネス要件を深く理解することです。
- 2番目のステップは、ビジネス要件に最適な最も関連性の高いデータソースを特定し、信頼できる検証済みのソースからデータを取得することです。
- 3番目のステップでは、データセットを探索し、データをクリーンアップし、手元のデータをよりよく理解するためにデータセットを整理します。
- 4番目のステップでは、データアナリストがデータを検証する必要があります。
- 5番目のステップでは、データセットの実装と追跡を行います。
- 最後のステップは、最も可能性の高い結果のリストを作成し、目的の結果が得られるまで繰り返すことです。
19.データ分析の実行中にデータアナリストが遭遇する可能性のある問題は何ですか?
あなたが知っておく必要がある重要なデータアナリストのインタビューの質問。 データアナリストは、データ分析の実行中に次の問題に直面する可能性があります。
- 重複したエントリとスペルミスの存在。 これらのエラーは、データ品質を妨げる可能性があります。
- 信頼できないソースから取得した質の悪いデータ。 このような場合、データアナリストはデータのクレンジングにかなりの時間を費やす必要があります。
- 複数のソースから抽出されたデータは、表現が異なる場合があります。 収集されたデータがクレンジングおよび整理された後に結合されると、データ表現の変動により、分析プロセスの遅延が発生する可能性があります。
- 不完全なデータは、データ分析プロセスにおけるもう1つの大きな課題です。 それは必然的に誤ったまたは誤った結果につながるでしょう。
20.優れたデータモデルの特徴は何ですか?
データモデルが優れていると見なされて開発されるためには、次の特性を表す必要があります。
- 結果を正確に、または少なくともほぼ正確に推定できるように、予測可能なパフォーマンスを備えている必要があります。
- 時々増大するビジネスニーズに対応できるように、変化に適応し、応答する必要があります。
- データの変化に比例してスケーリングできる必要があります。
- クライアント/顧客が具体的で収益性の高い結果を得ることができるようにすることは消耗品でなければなりません。
21.分散と共分散を区別します。
分散と共分散はどちらも統計用語です。 分散は、平均値に対して2つの数値(数量)がどれだけ離れているかを示します。 したがって、2つの量の間の関係の大きさ(データが平均の周りにどれだけ広がっているか)しかわかりません。 それどころか、共分散は、2つの確率変数がどのように一緒に変化するかを示しています。 したがって、共分散は、2つの量が相互にどのように変化するかの方向と大きさの両方を示します。
22.「正規分布」について説明します。
人気のあるデータアナリストのインタビューの質問の1つ。 ベル曲線またはガウス曲線としてよく知られている正規分布は、変数の値がどのように分布しているか、つまり、平均と標準偏差がどのように異なるかを記述および測定する確率関数を指します。 曲線では、分布は対称です。 ほとんどの観測値は中央のピークの周りに集まっていますが、値の確率は平均からさらに離れ、両方向に等しく先細りになっています。
23.単変量、二変量、および多変量解析について説明します。
単変量分析とは、単一の変数を含むデータセットに適用される記述統計手法を指します。 単変量分析では、値の範囲と値の中心傾向も考慮されます。
二変量解析は、2つの変数を同時に分析して、それらの間の経験的関係の可能性を調査します。 2つの変数と関連の強さの間に関連があるかどうか、または変数間に違いがあるかどうか、およびこれらの違いの重要性は何かを判断しようとします。
多変量解析は、二変量解析の拡張です。 多変量統計の原理に基づいて、多変量解析は複数の変数(2つ以上の独立変数)を同時に観察および分析して、個々の被験者の従属変数の値を予測します。
24.R-SquaredとAdjustedR-Squaredの違いを説明します。
R-Squared手法は、独立変数によって説明されるように、従属変数の変動の割合の統計的尺度です。 Adjusted R-Squaredは、基本的にR-squaredの修正バージョンであり、モデル内の予測子の数に合わせて調整されています。 これは、従属変数に直接影響を与える特定の独立変数によって説明される変動のパーセンテージを提供します。
25.バージョン管理の利点は何ですか?
バージョン管理の主な利点は次のとおりです–
- これにより、ファイルを比較し、違いを識別し、変更をシームレスに統合できます。
- 開発、テスト、QA、本番など、どのバージョンがどのカテゴリに属しているかを特定することで、アプリケーションのビルドを追跡するのに役立ちます。
- 中央サーバーが故障した場合に役立つプロジェクトファイルの完全な履歴を保持します。
- これは、コードファイルの複数のバージョンとバリアントを安全に保存および維持するのに最適です。
- これにより、さまざまなファイルのコンテンツに加えられた変更を確認できます。
26.データアナリストはExcelシートで負の値を含むセルをどのように強調表示できますか?
データアナリストのインタビューの質問と回答ガイドの最後の質問。 データアナリストは、条件付き書式を使用して、Excelシートで負の値を持つセルを強調表示できます。 条件付き書式の手順は次のとおりです。
- まず、負の値を持つセルを選択します。
- 次に、[ホーム]タブに移動し、[条件付き書式]オプションを選択します。
- 次に、[セルルールの強調表示]に移動し、[未満]オプションを選択します。
- 最後のステップで、Less Thanオプションのダイアログボックスに移動し、値として「0」を入力する必要があります。
結論
これで、データアナリストのインタビューの質問と回答のガイドのリストは終わりになりました。 これらのデータアナリストの面接の質問は、考えられる質問の膨大なプールから選択されますが、意欲的なデータアナリストの場合、これらの質問に直面する可能性が最も高くなります。 これらの質問は、データアナリストのインタビューの基礎を築き、それらに対する答えを知ることは、あなたを長い道のりに連れて行くことは確実です!
急速な技術進歩の最前線に立つための詳細なデータ分析、データサイエンスの学習に興味がある場合は、upGrad&IIIT-BのデータサイエンスのエグゼクティブPGプログラムをご覧ください。
データ分析業界の才能の傾向は何ですか?
データサイエンスが徐々に成長しているため、一部のドメインでも大幅な成長が見られます。 これらのドメインは次のとおりです。データサイエンスおよびデータ分析業界の大幅な成長に伴い、データエンジニアの欠員が増えており、ITプロフェッショナルの需要が高まっています。 技術の進歩に伴い、データサイエンティストの役割は徐々に進化しています。 分析タスクは自動化されており、データサイエンティストは後れを取っています。 自動化は、データサイエンティストが現在、時間の70〜80%を費やしているデータ準備タスクを引き受ける可能性があります。
クラスター分析とその特徴を説明します。
ラベルを付けずにオブジェクトを定義するプロセスは、クラスター分析と呼ばれます。 判別分析の場合と同様に、データマイニングを使用して、さまざまな類似オブジェクトを1つのクラスターにグループ化します。 そのアプリケーションには、パターン認識、情報分析、画像分析、機械学習、コンピュータグラフィックス、およびその他のさまざまな分野が含まれます。 クラスター分析は、多くの点で互いに異なる他のいくつかのアルゴリズムを使用して実行されるタスクであり、クラスターを作成します。 クラスター分析の特徴の一部を次に示します。クラスター分析は非常にスケーラブルです。 異なる属性のセットを処理できます。 それは高次元性、解釈可能性を示しています。 機械学習や情報収集など、多くの分野で役立ちます。
外れ値とは何ですか?それらを処理する方法は?
外れ値は、データの異常またはわずかな分散を指します。 これは、データ収集中に発生する可能性があります。 データセット内の外れ値を検出する方法は4つあります。 これらの方法は次のとおりです。箱ひげ図は、四分位数でデータを分離する外れ値を検出する方法です。 散布図は、デカルト平面上にマークされた点のコレクションの形式で2つの変数のデータを表示します。 一方の変数の値は水平軸(x-ais)を表し、もう一方の変数の値は垂直軸(y軸)を表します。 Zスコアを計算する際に、中心から遠く離れたポイントを探し、それらを外れ値と見なします。