Le 11 migliori domande e risposte dell'intervista a Kafka [per i matricole]

Pubblicato: 2021-02-22

Nei nove anni dalla sua uscita nel 2011, Kafka si è affermato come uno degli strumenti più preziosi per l'elaborazione dei dati in ambito tecnologico. Airbnb, Goldman Sachs, Netflix, LinkedIn, Microsoft, Target e The New York Times sono solo alcune delle aziende basate su Kafka.

Ma cos'è Kafka? La semplice risposta sarebbe: è ciò che aiuta un conducente Uber ad abbinare un potenziale passeggero o aiuta LinkedIn a eseguire milioni di servizi analitici o prevedibili in tempo reale. In breve, Apache è una piattaforma di streaming di eventi distribuiti altamente scalabile, open source e tollerante ai guasti creata da LinkedIn nel 2011. Utilizza un registro di commit a cui è possibile iscriversi, che può quindi essere pubblicato su una serie di applicazioni di streaming.

La sua bassa latenza, l'integrazione dei dati e l'elevato throughput contribuiscono alla sua crescente popolarità, tanto che un'esperienza in Kafka è considerata un'aggiunta brillante al curriculum di un candidato e i professionisti con una qualifica certificata sono oggi molto richiesti. Ciò ha comportato anche un aumento delle opportunità di lavoro incentrate su Kafka.

In questo articolo, abbiamo compilato un elenco di domande e risposte dell'intervista Kafka che è più probabile che emergano nella tua prossima sessione di intervista. Potresti voler dare un'occhiata a questi per rispolverare le tue conoscenze prima di andare per il tuo colloquio. Quindi, eccoci qui!

Le 11 migliori domande e risposte dell'intervista a Kafka

1. Cos'è Apache Kafka?

Kafka è uno strumento di elaborazione dati open source gratuito creato da Apache Software Foundation. È scritto in Scala e Java ed è un datastore distribuito in tempo reale progettato per elaborare i dati in streaming. Offre un elevato throughput lavorando su un hardware decente.

Quando migliaia di origini dati inviano continuamente record di dati contemporaneamente, vengono generati dati in streaming. Per gestire questi dati in streaming, una piattaforma di streaming dovrebbe elaborare questi dati sia in modo sequenziale che incrementale mentre gestisce l'afflusso continuo di dati.

Kafka prende questo afflusso di dati in entrata e crea pipeline di dati in streaming che elaborano e spostano i dati da un sistema all'altro.

Funzioni di Kafka :

È responsabile della pubblicazione di flussi di record di dati e della loro sottoscrizione
Gestisce l'archiviazione efficace dei flussi di dati nell'ordine in cui vengono generati
Si occupa dell'elaborazione dei giorni in tempo reale

Usi di Kafka :

Integrazione dei dati
Analisi in tempo reale
Archiviazione in tempo reale
Soluzione broker di messaggi
Intercettazione di una frode
Commercio di azioni

2. Perché utilizziamo Kafka?

Apache Kafka funge da sistema nervoso centrale rendendo i dati di streaming disponibili a tutte le applicazioni di streaming (un'applicazione che utilizza i dati di streaming è chiamata applicazione di streaming). Lo fa costruendo pipeline di dati in tempo reale responsabili dell'elaborazione e del trasferimento dei dati tra i diversi sistemi che devono utilizzarli.

Kafka funge da sistema di broker di messaggi tra due applicazioni elaborando e mediando la comunicazione.

Ha una vasta gamma di usi che includono messaggistica, elaborazione, archiviazione, trasporto, integrazione e analisi dei dati in tempo reale.

3. Quali sono le caratteristiche chiave di Apache Kafka?

Le caratteristiche salienti di Kafka includono quanto segue:

1. Durabilità – Kafka consente un supporto continuo per la distribuzione e la replica delle partizioni di dati tra i server che vengono poi scritte su disco. Ciò riduce la possibilità che i server si guastino, rende i dati persistenti e tolleranti ai guasti e ne aumenta la durata.

2. Scalabilità – Kafka può essere disturbato e sostituito su molti server, il che lo rende altamente scalabile, oltre la capacità di un singolo server. Le partizioni di dati di Kafka non hanno tempi di inattività per questo motivo.

3. Zero perdita di dati – Con un supporto adeguato e le giuste configurazioni, la perdita di dati può essere ridotta a zero.

4. Velocità : poiché la latenza è estremamente bassa a causa del disaccoppiamento dei flussi di dati, Apache Kafka è molto veloce. Viene utilizzato con Apache Spark, Apache Apex, Apache Flink, Apache Storm, ecc., Tutte applicazioni di streaming esterne in tempo reale.

5. High Throughput & Replication – Kafka ha la capacità di supportare milioni di messaggi che vengono replicati su più server per fornire l'accesso a più abbonati.

4. Come funziona Kafka?

Kafka funziona combinando due modelli di messaggistica, mettendoli in coda, pubblicandoli e sottoscrivendoli in modo che possano essere resi accessibili a molte istanze consumer.

L'accodamento promuove la scalabilità consentendo l'elaborazione e la distribuzione dei dati a più server consumer. Tuttavia, queste code non sono adatte per essere multi-abbonati. È qui che interviene l'approccio di pubblicazione e sottoscrizione. Tuttavia, poiché ogni istanza di messaggio verrebbe quindi inviata a ogni abbonato, questo approccio non può essere utilizzato per la distribuzione dei dati su più processi.

Pertanto, Kafka utilizza le partizioni di dati per combinare i due approcci. Utilizza un modello di registro partizionato in cui ogni registro, una sequenza di record di dati, è suddiviso in segmenti più piccoli (partizioni), per soddisfare più abbonati.

Ciò consente a diversi abbonati di accedere allo stesso argomento, rendendolo scalabile poiché a ciascun abbonato viene fornita una partizione.

Anche il modello di registro partizionato di Kafka è riproducibile, consentendo a diverse applicazioni di funzionare in modo indipendente mentre continuano a leggere dai flussi di dati.

5. Quali sono i quattro componenti principali di Kafka?

Ci sono quattro componenti di Kafka. Loro sono:

- Argomento

– Produttore

– Broker

– Consumatore

Gli argomenti sono flussi di messaggi dello stesso tipo.

I produttori sono in grado di pubblicare messaggi su un determinato argomento.

I broker sono server in cui vengono archiviati i flussi di messaggi pubblicati dai produttori.

I consumatori sono abbonati che si iscrivono agli argomenti e accedono ai dati archiviati dai broker.

6. Quante API ha Kafka?

Kafka ha cinque API principali che sono:

– Producer API: responsabile della pubblicazione di messaggi o flusso di record su un determinato argomento.

– API consumer: note come sottoscrittori di argomenti che estraggono i messaggi pubblicati dai produttori.

– Streams API: consente alle applicazioni di elaborare i flussi; ciò comporta l'elaborazione del flusso di input di un determinato argomento e la sua trasformazione in un flusso di output. Questo flusso di output può quindi essere inviato a diversi argomenti di output.

– Connector API: agisce come un sistema di automazione per consentire l'aggiunta di diverse applicazioni agli argomenti Kafka esistenti.

– Admin API: gli argomenti Kafka sono gestiti dall'Admin API, così come i broker e molti altri oggetti Kafka.

7. Qual è l'importanza dell'offset?

Il numero di identificazione univoco assegnato ai messaggi archiviati nelle partizioni è noto come Offset. Un offset funge da numero di identificazione per ogni messaggio contenuto in una partizione.

8. Definire un gruppo di consumatori.

Quando un gruppo di argomenti sottoscritti viene utilizzato congiuntamente da più di un consumatore, viene chiamato un gruppo di consumatori.

9. Spiega l'importanza del guardiano dello zoo. Kafka può essere utilizzato senza Zookeeper?

Gli offset (numeri ID univoci) per un argomento particolare e le partizioni consumate da un particolare gruppo di consumatori vengono archiviati con l'aiuto di Zookeeper. Serve come canale di coordinamento tra gli utenti. È impossibile usare Kafka che non ha Zookeeper. Rende inaccessibile il server Kafka e le richieste dei client non possono essere elaborate se Zookeeper viene bypassato.

10. Cosa significano Leader e Follower in Kafka?

A ciascuna delle partizioni in Kafka viene assegnato un server che funge da Leader. Ogni richiesta di lettura/scrittura viene elaborata dal Leader. Il ruolo dei Follower è di seguire le orme del Leader. Se il sistema fa fallire il Leader, uno dei Follower smetterà di replicarsi e assumerà il ruolo di Leader per occuparsi del bilanciamento del carico.

11. Come si avvia un server Kafka?

Prima di avviare il server Kafka, accendi Zookeeper. Segui i passaggi seguenti:

Server Zookeeper:

> bin/zookeeper-server-start.sh config/zookeeper.properties

Server Kafka:

bin/kafka-server-start.sh config/server.properties

Conclusione

Se sei interessato a saperne di più sui Big Data, dai un'occhiata al nostro PG Diploma in Software Development Specialization nel programma Big Data, progettato per professionisti che lavorano e fornisce oltre 7 casi di studio e progetti, copre 14 linguaggi e strumenti di programmazione, pratiche pratiche workshop, oltre 400 ore di apprendimento rigoroso e assistenza all'inserimento lavorativo con le migliori aziende.

Controlla i nostri altri corsi di ingegneria del software su upGrad.

Guida la rivoluzione tecnologica basata sui dati

7 CASI DI STUDIO E PROGETTI. ASSISTENZA LAVORATIVA CON LE MIGLIORI AZIENDE. MENTOR DELLO STUDENTE DEDICATO.

Programma di certificazione avanzato in Big Data da IIIT Bangalore