상위 11 Kafka 인터뷰 질문 및 답변 [신입생을 위한]
게시 됨: 2021-02-222011년 출시 이후 9년 동안 Kafka는 기술 영역에서 데이터 처리를 위한 가장 가치 있는 도구 중 하나로 자리 잡았습니다. Airbnb, Goldman Sachs, Netflix, LinkedIn, Microsoft, Target 및 The New York Times는 Kafka를 기반으로 구축된 몇 안되는 회사입니다.
그러나 카프카는 무엇입니까? 이에 대한 간단한 대답은 — Uber 드라이버가 잠재적인 승객과 매칭되도록 하거나 LinkedIn이 수백만 개의 실시간 분석 또는 예측 가능한 서비스를 수행하는 데 도움이 되는 것입니다. 간단히 말해서 Apache는 2011년 LinkedIn에서 만든 확장성이 뛰어난 오픈 소스 내결함성 분산 이벤트 스트리밍 플랫폼입니다. 구독할 수 있는 커밋 로그를 사용하여 여러 스트리밍 애플리케이션에 게시할 수 있습니다.
짧은 대기 시간, 데이터 통합 및 높은 처리량은 인기를 높이는 데 크게 기여하여 Kafka에 대한 전문 지식은 후보자의 이력서에 빛나는 추가 요소로 간주되고 인증 자격을 갖춘 전문가는 오늘날 수요가 높습니다. 이는 또한 Kafka를 중심으로 한 취업 기회의 증가로 이어졌습니다.
이 기사에서는 다음 인터뷰 세션에서 나올 가능성이 가장 높은 Kafka 인터뷰 질문과 답변 목록을 정리했습니다. 인터뷰를 하기 전에 지식을 정리하기 위해 이러한 정보를 찾아볼 수 있습니다. 자, 시작합니다!
상위 11개 Kafka 인터뷰 질문 및 답변
1. 아파치 카프카란?
Kafka는 Apache Software Foundation에서 만든 무료 오픈 소스 데이터 처리 도구입니다. Scala와 Java로 작성되었으며 스트리밍 데이터를 처리하도록 설계된 분산형 실시간 데이터 저장소입니다. 적절한 하드웨어에서 높은 처리량을 제공합니다.
수천 개의 데이터 소스가 지속적으로 데이터 레코드를 동시에 전송하면 스트리밍 데이터가 생성됩니다. 이 스트리밍 데이터를 처리하려면 스트리밍 플랫폼에서 이 데이터를 순차적으로, 증분적으로 처리하는 동시에 끊임없이 유입되는 데이터를 처리해야 합니다.
Kafka는 들어오는 데이터 유입을 받아 시스템에서 시스템으로 데이터를 처리하고 이동하는 스트리밍 데이터 파이프라인을 구축합니다.
카프카의 기능 :
- 데이터 레코드 스트림 게시 및 구독을 담당합니다.
- 생성된 순서대로 데이터 스트림의 효과적인 저장을 처리합니다.
- 실시간 요일 처리를 담당합니다.
카프카의 용도 :
- 데이터 통합
- 실시간 분석
- 실시간 저장
- 메시지 브로커 솔루션
- 사기 감지
- 주식 거래
2. 왜 Kafka를 사용합니까?
Apache Kafka는 모든 스트리밍 애플리케이션(스트리밍 데이터를 사용하는 애플리케이션을 스트리밍 애플리케이션이라고 함)에서 스트리밍 데이터를 사용할 수 있도록 하는 중추 신경계 역할을 합니다. 이를 위해 데이터를 사용해야 하는 서로 다른 시스템 간에 데이터를 처리하고 전송하는 데이터의 실시간 파이프라인을 구축합니다.
Kafka는 통신을 처리하고 중재하여 두 응용 프로그램 간의 메시지 브로커 시스템 역할을 합니다.
실시간 데이터의 메시징, 처리, 저장, 운송, 통합 및 분석을 포함하여 다양한 용도로 사용됩니다.
3. Apache Kafka의 주요 기능은 무엇입니까?
Kafka의 두드러진 기능은 다음과 같습니다.
1. 내구성 – Kafka를 사용하면 디스크에 기록되는 서버 전반의 데이터 파티션 배포 및 복제를 원활하게 지원할 수 있습니다. 이렇게 하면 서버가 실패할 가능성이 줄어들고 데이터가 영구적이고 오류에 내성이 생기며 내구성이 높아집니다.
2. 확장성 – Kafka는 여러 서버에서 방해를 받고 교체될 수 있으므로 단일 서버의 용량을 넘어 확장성이 뛰어납니다. 이로 인해 Kafka의 데이터 파티션에는 다운타임이 없습니다.
3. 데이터 손실 제로 – 적절한 지원과 올바른 구성으로 데이터 손실을 0으로 줄일 수 있습니다.
4. 속도 – 데이터 스트림의 분리로 인해 대기 시간이 매우 짧기 때문에 Apache Kafka는 매우 빠릅니다. 실시간 외부 스트리밍 애플리케이션인 Apache Spark, Apache Apex, Apache Flink, Apache Storm 등과 함께 사용됩니다.
5. 높은 처리량 및 복제 – Kafka는 여러 가입자에게 액세스를 제공하기 위해 여러 서버에 복제되는 수백만 개의 메시지를 지원할 수 있습니다.
4. 카프카는 어떻게 작동합니까?
Kafka는 두 가지 메시징 모델을 결합하여 대기열에 넣고 많은 소비자 인스턴스에서 액세스할 수 있도록 게시 및 구독하는 방식으로 작동합니다.
큐잉은 데이터를 처리하고 여러 소비자 서버에 배포할 수 있도록 하여 확장성을 높입니다. 그러나 이러한 대기열은 다중 가입자에게 적합하지 않습니다. 여기에서 게시 및 구독 접근 방식이 시작됩니다. 그러나 모든 메시지 인스턴스가 모든 구독자에게 전송되기 때문에 이 접근 방식은 여러 프로세스에 걸쳐 데이터를 배포하는 데 사용할 수 없습니다.
따라서 Kafka는 데이터 파티션을 사용하여 두 가지 접근 방식을 결합합니다. 여러 가입자를 수용하기 위해 데이터 레코드의 시퀀스인 각 로그가 더 작은 세그먼트(파티션)로 분할되는 분할된 로그 모델을 사용합니다.
이를 통해 다른 구독자가 동일한 주제에 액세스할 수 있으므로 각 구독자에게 파티션이 제공되므로 확장 가능합니다.
Kafka의 분할된 로그 모델도 재생 가능하므로 데이터 스트림에서 읽는 동안 다른 애플리케이션이 독립적으로 작동할 수 있습니다.
5. Kafka의 네 가지 주요 구성 요소는 무엇입니까?
Kafka에는 네 가지 구성 요소가 있습니다. 그들은:
- 주제
– 프로듀서
– 브로커
- 소비자
주제는 동일한 유형의 메시지 스트림입니다.
생산자는 주어진 주제에 메시지를 게시할 수 있습니다.
브로커는 생산자가 게시한 메시지 스트림이 저장되는 서버입니다.
소비자는 주제를 구독하고 브로커가 저장한 데이터에 액세스하는 구독자입니다.
6. Kafka에는 몇 개의 API가 있습니까?
Kafka에는 다음과 같은 5가지 주요 API가 있습니다.
– Producer API: 주어진 주제에 대한 메시지 또는 레코드 스트림 게시를 담당합니다.
– 소비자 API: 생산자가 게시한 메시지를 가져오는 주제의 구독자로 알려져 있습니다.
– Streams API: 애플리케이션이 스트림을 처리할 수 있도록 합니다. 여기에는 주어진 주제의 입력 스트림을 처리하고 이를 출력 스트림으로 변환하는 작업이 포함됩니다. 이 출력 스트림은 다른 출력 주제로 전송될 수 있습니다.
– 커넥터 API: 기존 Kafka 주제에 다른 애플리케이션을 추가할 수 있도록 하는 자동화 시스템 역할을 합니다.
– Admin API: Kafka 주제는 브로커 및 기타 여러 Kafka 객체와 마찬가지로 Admin API에 의해 관리됩니다.
7. 오프셋의 중요성은 무엇입니까?
파티션에 저장된 메시지에 할당되는 고유 식별 번호를 오프셋이라고 합니다. 오프셋은 파티션에 포함된 모든 메시지의 식별 번호 역할을 합니다.
8. 소비자 그룹을 정의합니다.
구독한 주제의 무리가 둘 이상의 소비자에 의해 공동으로 사용되는 경우 소비자 그룹이라고 합니다.
9. 사육사의 중요성을 설명하십시오. Zookeeper 없이 Kafka를 사용할 수 있습니까?
특정 소비자 그룹이 사용하는 파티션뿐만 아니라 특정 주제에 대한 오프셋(고유 ID 번호)은 Zookeeper의 도움으로 저장됩니다. 사용자 간의 조정 채널 역할을 합니다. Zookeeper가 없는 Kafka는 사용할 수 없습니다. Zookeeper를 우회하면 Kafka 서버에 액세스할 수 없고 클라이언트 요청을 처리할 수 없습니다.
10. Kafka에서 리더와 팔로워는 무엇을 의미합니까?
Kafka의 각 파티션에는 리더 역할을 하는 서버가 할당됩니다. 모든 읽기/쓰기 요청은 리더가 처리합니다. 추종자의 역할은 지도자의 발자취를 따르는 것입니다. 시스템으로 인해 리더가 실패하면 팔로어 중 하나가 복제를 중지하고 리더로 채워 로드 밸런싱을 처리합니다.
11. Kafka 서버를 어떻게 시작합니까?
Kafka 서버를 시작하기 전에 Zookeeper의 전원을 켜십시오. 아래 단계를 따르세요.
사육사 서버:
> bin/zookeeper-server-start.sh 구성/zookeeper.properties
카프카 서버:
bin/kafka-server-start.sh 구성/서버.속성
결론
빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하십시오. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.
upGrad에서 다른 소프트웨어 엔지니어링 과정을 확인하십시오.