トップ11カフカインタビューの質問と回答[新入生向け]

公開: 2021-02-22

2011年にリリースされてから9年間で、Kafkaは技術分野でのデータ処理のための最も価値のあるツールの1つとしての地位を確立しました。 Airbnb、Goldman Sachs、Netflix、LinkedIn、Microsoft、Target、The New York Timesは、Kafkaを基盤とするほんの数社です。

しかし、カフカとは何ですか? それに対する簡単な答えは、Uberのドライバーが潜在的な乗客と一致するのを助けたり、LinkedInが何百万ものリアルタイムの分析または予測可能なサービスを実行するのを助けたりすることです。 つまり、Apacheは、2011年にLinkedInによって作成された、拡張性が高く、オープンソースで、フォールトトレラントな分散イベントストリーミングプラットフォームです。サブスクライブできるコミットログを使用して、多数のストリーミングアプリケーションで公開できます。

その低遅延、データ統合、および高スループットは、その人気の高まりに大きく貢献しているため、Kafkaの専門知識は候補者の履歴書への輝かしい追加であると見なされ、認定資格を持つ専門家は今日高い需要があります。 これはまた、カフカを中心とした雇用機会の増加をもたらしました。

この記事では、次の面接セッションで出てくる可能性が最も高いカフカ面接の質問と回答のリストをまとめました。 面接に行く前に、これらを調べて知識を磨くことをお勧めします。 だから、ここに行きます!

トップ11カフカインタビューの質問と回答

1. Apache Kafkaとは何ですか?

Kafkaは、ApacheSoftwareFoundationによって作成された無料のオープンソースデータ処理ツールです。 ScalaとJavaで記述されており、ストリーミングデータを処理するように設計された分散型のリアルタイムデータストアです。 それはまともなハードウェアで動作する高スループットを提供します。

何千ものデータソースが同時にデータレコードを継続的に送信すると、ストリーミングデータが生成されます。 このストリーミングデータを処理するには、ストリーミングプラットフォームは、データのノンストップ流入を処理しながら、このデータを順次および増分的に処理する必要があります。

Kafkaは、この着信データの流入を受け取り、システム間でデータを処理および移動するストリーミングデータパイプラインを構築します。

カフカの機能

  • データレコードのストリームを公開し、それらをサブスクライブする責任があります
  • 生成された順序でデータストリームの効果的なストレージを処理します
  • リアルタイムの日数処理を処理します

カフカの使用

  • データ統合
  • リアルタイム分析
  • リアルタイムストレージ
  • メッセージブローカーソリューション
  • 不正検出
  • 株取引

2.なぜKafkaを使用するのですか?

Apache Kafkaは、すべてのストリーミングアプリケーション(ストリーミングデータを使用するアプリケーションはストリーミングアプリケーションと呼ばれます)がストリーミングデータを利用できるようにする中枢神経系として機能します。 これは、データを使用する必要のある異なるシステム間でデータを処理および転送する役割を担うデータのリアルタイムパイプラインを構築することによって実現されます。

Kafkaは、通信を処理および仲介することにより、2つのアプリケーション間のメッセージブローカーシステムとして機能します。

メッセージング、処理、保存、転送、統合、リアルタイムデータの分析など、さまざまな用途があります。

3. Apache Kafkaの主な機能は何ですか?

Kafkaの顕著な特徴は次のとおりです。

1.耐久性– Kafkaを使用すると、サーバー間でのデータパーティションの分散とレプリケーションをシームレスにサポートし、サーバーをディスクに書き込むことができます。 これにより、サーバーに障害が発生する可能性が減り、データが永続的で障害に耐えられるようになり、耐久性が向上します。

2.スケーラビリティ– Kafkaは、単一のサーバーの容量を超えて、非常にスケーラブルになる多くのサーバー間で妨害および交換される可能性があります。 これにより、Kafkaのデータパーティションにダウンタイムは発生しません。

3.データ損失ゼロ–適切なサポートと適切な構成により、データ損失をゼロに減らすことができます。

4.速度–データストリームのデカップリングによりレイテンシが非常に低いため、ApacheKafkaは非常に高速です。 これは、Apache Spark、Apache Apex、Apache Flink、ApacheStormなどで使用されます。これらはすべてリアルタイムの外部ストリーミングアプリケーションです。

5.高スループットとレプリケーション– Kafkaには、複数のサブスクライバーへのアクセスを提供するために複数のサーバー間でレプリケートされる数百万のメッセージをサポートする能力があります。

4. Kafkaはどのように機能しますか?

Kafkaは、2つのメッセージングモデルを組み合わせてキューに入れ、それらを公開およびサブスクライブして、多くのコンシューマーインスタンスにアクセスできるようにすることで機能します。

キューイングは、データを処理して複数のコンシューマーサーバーに分散できるようにすることで、スケーラビリティを促進します。 ただし、これらのキューはマルチサブスクライバーには適していません。 これは、公開とサブスクライブのアプローチがステップインする場所です。ただし、すべてのメッセージインスタンスがすべてのサブスクライバーに送信されるため、このアプローチを複数のプロセス間でのデータの分散に使用することはできません。

したがって、Kafkaはデータパーティションを使用して2つのアプローチを組み合わせています。 これは、データレコードのシーケンスである各ログがより小さなセグメント(パーティション)に分割されるパーティション化されたログモデルを使用して、複数のサブスクライバーに対応します。

これにより、さまざまなサブスクライバーが同じトピックにアクセスできるようになり、各サブスクライバーにパーティションが提供されるため、スケーラブルになります。

Kafkaのパーティションログモデルも再生可能であり、データストリームからの読み取り中に、さまざまなアプリケーションが独立して機能できるようにします。

5.カフカの主要な4つのコンポーネントは何ですか?

Kafkaには4つのコンポーネントがあります。 彼らです:

- トピック

–プロデューサー

–ブローカー

- 消費者

トピックは、同じタイプのメッセージのストリームです。

プロデューサーは、特定のトピックにメッセージを公開できます。

ブローカーは、プロデューサーによって公開されたメッセージのストリームが保存されるサーバーです。

コンシューマーは、トピックをサブスクライブし、ブローカーによって保存されたデータにアクセスするサブスクライバーです。

6. KafkaにはいくつのAPIがありますか?

Kafkaには次の5つの主要なAPIがあります。

プロデューサーAPI:特定のトピックへのメッセージまたはレコードのストリームの公開を担当します。

–コンシューマーAPI:プロデューサーによって公開されたメッセージをプルするトピックのサブスクライバーとして知られています。

– Streams API:アプリケーションがストリームを処理できるようにします。 これには、特定のトピックの入力ストリームを処理し、それを出力ストリームに変換することが含まれます。 この出力ストリームは、さまざまな出力トピックに送信される場合があります。

–コネクタAPI:自動化システムとして機能し、既存のKafkaトピックにさまざまなアプリケーションを追加できるようにします。

–管理API:ブローカーや他のいくつかのKafkaオブジェクトと同様に、Kafkaトピックは管理APIによって管理されます。

7.オフセットの重要性は何ですか?

パーティションに保存されたメッセージに割り当てられる一意の識別番号は、オフセットと呼ばれます。 オフセットは、パーティションに含まれるすべてのメッセージの識別番号として機能します。

8.コンシューマーグループを定義します。

サブスクライブされたトピックの束が複数のコンシューマーによって共同で消費される場合、それはコンシューマーグループと呼ばれます。

9.動物園の飼育係の重要性を説明します。 KafkaはZookeeperなしで使用できますか?

特定のトピックのオフセット(一意のID番号)および特定のコンシューマーグループによって消費されるパーティションは、Zookeeperを使用して保存されます。 これは、ユーザー間の調整チャネルとして機能します。 ZookeeperがないKafkaを使用することはできません。 これにより、Kafkaサーバーにアクセスできなくなり、Zookeeperがバイパスされた場合、クライアント要求を処理できなくなります。

10.カフカのリーダーとフォロワーはどういう意味ですか?

Kafkaの各パーティションには、リーダーとして機能するサーバーが割り当てられています。 すべての読み取り/書き込み要求はリーダーによって処理されます。 フォロワーの役割は、リーダーの足跡をたどることです。 システムによってリーダーが失敗した場合、フォロワーの1つが複製を停止し、リーダーとして入力して負荷分散を処理します。

11. Kafkaサーバーをどのように起動しますか?

Kafkaサーバーを起動する前に、Zookeeperの電源を入れてください。 以下の手順に従ってください。

Zookeeperサーバー:

> bin / zookeeper-server-start.sh config / zookeeper.properties

Kafkaサーバー:

bin / kafka-server-start.sh config / server.properties

結論

ビッグデータについて詳しく知りたい場合は、ビッグデータプログラムのソフトウェア開発スペシャライゼーションのPGディプロマをチェックしてください。このプログラムは、働く専門家向けに設計されており、7つ以上のケーススタディとプロジェクトを提供し、14のプログラミング言語とツール、実践的なハンズオンをカバーしています。ワークショップ、トップ企業との400時間以上の厳格な学習と就職支援。

upGradで他のソフトウェアエンジニアリングコースを確認してください。

データ主導の技術革命をリードする

7つのケーススタディとプロジェクト。 トップ企業との仕事の援助。 熱心な学生メンター。
IIITバンガロアからのビッグデータの高度な証明書プログラム