2022년 기계 학습 인터뷰 질문 및 답변 15가지

게시 됨: 2021-01-08

머신러닝 분야에서 성공적인 경력을 쌓고 싶은 사람입니까? 그렇다면 당신에게 좋습니다!

그러나 먼저 쇄빙선인 ML 인터뷰를 준비해야 합니다.

인터뷰를 준비하는 과정이 압도적일 수 있기 때문에 저희가 참여하기로 결정했습니다. 머신 러닝 인터뷰에서 가장 자주 묻는 질문 15가지를 선별한 목록입니다!

딥 러닝과 머신 러닝의 차이점은 무엇입니까?

머신 러닝은 데이터를 구문 분석하고, 데이터 내의 숨겨진 패턴을 찾아내서 학습하고, 마지막으로 학습된 통찰력을 적용하여 정보에 입각한 비즈니스 결정을 내리기 위한 고급 알고리즘의 적용 및 사용을 포함합니다. 딥 러닝의 경우 인간 두뇌의 신경망 구조에서 영감을 얻은 인공 신경망을 사용하는 머신 러닝의 하위 집합입니다. 딥 러닝은 특징 탐지에 널리 사용됩니다.

정의 – 정밀도와 재현율.

정밀도 또는 긍정적인 예측 값은 실제로 주장하는 긍정적인 수와 비교하여 모델이 주장한 참 긍정적인 수를 측정하거나 더 정확하게 예측합니다.

재현율 또는 참 양성률은 데이터 전체에 존재하는 실제 양성 수와 비교하여 모델에서 주장한 양성 수를 나타냅니다.

세계 최고의 대학(석사, 대학원 대학원 과정, ML 및 AI 고급 인증 프로그램) 의 기계 학습 과정 에 온라인으로 참여 하여 경력을 빠르게 추적하십시오.

'편향'과 '분산'이라는 용어를 설명합니다. '

훈련 과정에서 학습 알고리즘의 예상 오류는 일반적으로 편향과 분산의 두 부분으로 분류되거나 분해됩니다. '편향'은 학습 알고리즘에서 단순한 가정을 사용하여 발생하는 오류 상황이라면, '분산'은 데이터 분석에서 해당 학습 알고리즘의 복잡성으로 인해 발생하는 오류를 의미합니다. Bias는 학습 알고리즘에 의해 생성된 평균 분류기의 목표 함수에 대한 근접도를 측정하고 분산은 학습 알고리즘의 예측이 서로 다른 학습 데이터 세트에 대해 얼마나 달라지는지를 측정합니다.

ROC 곡선은 어떻게 작동합니까?

ROC 또는 수신기 작동 특성 곡선은 다양한 임계값에서 참 양성률과 거짓 양성률 간의 변동을 그래픽으로 나타낸 것입니다. 이는 진단 테스트 평가를 위한 기본 도구이며 종종 모델의 민감도(참 긍정)와 오경보(거짓 긍정)를 유발할 확률 사이의 절충안을 나타내는 데 사용됩니다.

원천

곡선은 민감도와 특이성 간의 균형을 나타냅니다. 민감도가 증가하면 특이성은 감소합니다.
곡선이 왼쪽 축과 ROC 공간의 위쪽으로 더 많이 접하면 일반적으로 테스트가 더 정확합니다. 그러나 곡선이 ROC 공간의 45도 대각선에 가까워지면 테스트가 덜 정확하거나 신뢰할 수 없습니다.
절단점에서 접선의 기울기는 테스트의 특정 값에 대한 우도비(LR)를 나타냅니다.
곡선 아래 영역은 테스트 정확도를 측정합니다.

제1종 오류와 제2종 오류의 차이점을 설명하시겠습니까?

제1종 오류는 실제로 아무 일도 일어나지 않았는데 사건이 발생했다고 '주장'하는 가양성 오류입니다. 잘못된 긍정 오류의 가장 좋은 예는 잘못된 화재 경보입니다. 화재가 없을 때 경보가 울리기 시작합니다. 이와는 대조적으로 제2종 오류는 어떤 일이 확실히 일어났을 때 아무 일도 일어나지 않았다고 '주장'하는 위음성 오류입니다. 임신한 여성에게 아기가 없다고 말하는 것은 제2종 오류입니다.

Bayes를 "Naive Bayes"라고 하는 이유는 무엇입니까?

Naive Bayes는 실용적인 응용 프로그램이 많지만 실제 데이터에서 찾을 수 없다는 가정에 기반하기 때문에 "순진"이라고 합니다. 데이터 세트의 모든 기능은 중요하고 독립적이며 동일합니다. Naive Bayes 접근 방식에서 조건부 확률은 개별 구성 요소의 확률의 순수 곱으로 계산되므로 기능의 완전한 독립성을 의미합니다. 불행히도 이 가정은 실제 시나리오에서 결코 충족될 수 없습니다.

'과적합'이라는 용어는 무엇을 의미합니까? 피할 수 있습니까? 그렇다면 어떻게?

일반적으로 훈련 과정에서 모델에 많은 양의 데이터가 제공됩니다. 그 과정에서 데이터는 샘플 데이터 세트에 존재하는 부정확한 정보와 노이즈로부터 학습을 시작합니다. 이것은 새로운 데이터에 대한 모델의 성능에 부정적인 영향을 미칩니다. 즉, 모델은 훈련 세트의 것과 별도로 새 인스턴스/데이터를 정확하게 분류할 수 없습니다. 이것을 과적합이라고 합니다.

네, 과적합을 피할 수 있습니다. 방법은 다음과 같습니다.

서로 다른 소스에서 더 많은 데이터를 수집하여 다른 샘플로 모델을 훈련합니다.
데이터 세트의 다른 단위에 여러 의사 결정 트리의 결과를 병치하여 예측의 변동을 최소화하기 위해 배깅 방식을 사용하는 앙상블 방법(예: Random Forest)을 적용합니다.
교차 검증 기술을 사용해야 합니다.

지도 학습에서 보정에 사용된 두 가지 방법의 이름을 지정하십시오.

지도 학습의 두 가지 보정 방법은 Platt Calibration과 Isotonic Regression입니다. 이 두 가지 방법 모두 이진 분류를 위해 특별히 설계되었습니다.

왜 의사결정나무를 가지치기합니까?

예측 능력이 약한 가지를 제거하려면 의사결정나무를 가지치기해야 합니다. 이는 의사결정나무 모델의 복잡성 지수를 최소화하고 예측 정확도를 최적화하는 데 도움이 됩니다. 가지치기는 위에서 아래로 또는 아래에서 위로 수행할 수 있습니다. 감소된 오류 정리, 비용 복잡성 정리, 오류 복잡성 정리 및 최소 오류 정리는 가장 많이 사용되는 의사결정 트리 정리 방법 중 일부입니다.

F1 점수는 무엇을 의미합니까?

간단히 말해서 F1 점수는 모델의 성능을 측정한 것입니다. 모델의 정밀도와 재현율의 평균으로 결과가 1에 가까울수록 최상이고 0에 가까울수록 최악입니다. F1 점수는 진음성을 중요시하지 않는 분류 테스트에 사용할 수 있습니다.

생성 알고리즘과 판별 알고리즘을 구분합니다.

생성 알고리즘이 데이터 범주를 학습하는 동안 판별 알고리즘은 데이터의 서로 다른 범주 간의 구별을 학습합니다. 분류 작업과 관련하여 판별 모델은 일반적으로 생성 모델을 능가합니다.

앙상블 학습이란?

Ensemble Learning은 학습 알고리즘의 조합을 사용하여 모델의 예측 성능을 최적화합니다. 이 방법에서는 분류자 또는 전문가와 같은 여러 모델을 전략적으로 생성하고 모델에서 과적합을 방지하기 위해 결합합니다. 주로 모델의 예측, 분류, 함수 근사, 성능 등을 향상시키는 데 사용됩니다.

'커널 트릭'을 정의합니다.

커널 트릭 방법은 해당 차원 내의 포인트 좌표를 명시적으로 계산할 필요 없이 더 높은 차원의 암시적 기능 공간에서 작동할 수 있는 커널 함수의 사용을 포함합니다. 커널 함수는 기능 공간에 있는 모든 데이터 쌍의 이미지 간의 내적을 계산합니다. 이 절차는 좌표의 명시적 계산에 비해 계산적으로 저렴하며 커널 트릭이라고 합니다.

데이터 세트에서 누락되거나 손상된 데이터를 어떻게 처리해야 합니까?

데이터 세트에서 누락/손상된 데이터를 찾으려면 행과 열을 삭제하거나 다른 값으로 바꿔야 합니다. Pandas 라이브러리에는 누락/손상된 데이터를 찾는 두 가지 훌륭한 방법이 있습니다. isnull() 및 dropna(). 이 두 함수 모두 누락/손상된 데이터가 있는 데이터의 행/열을 찾고 해당 값을 삭제할 수 있도록 특별히 설계되었습니다.

해시 테이블이란 무엇입니까?

해시 테이블은 연관 배열을 생성하는 데이터 구조로, 해시 함수를 사용하여 키가 특정 값에 매핑됩니다. 해시 테이블은 주로 데이터베이스 인덱싱에 사용됩니다.

원천

이 질문 목록은 기계 학습의 기본 사항을 소개하기 위한 것일 뿐이며 솔직히 말해서 이 20개의 질문은 바다에 떨어진 한 방울에 불과합니다. 기계 학습은 우리가 말할 때 발전하고 있으므로 시간이 지남에 따라 새로운 개념이 나타날 것입니다. 따라서 ML 인터뷰를 제대로 하기 위한 열쇠는 배우고자 하는 끊임없는 욕구를 품고 기술을 향상시키는 데 있습니다. 따라서 시작하여 인터넷을 채찍질하고, 저널을 읽고, 온라인 커뮤니티에 가입하고, ML 컨퍼런스 및 세미나에 참석하십시오. 배울 수 있는 방법은 무궁무진합니다.

큰 조직에 들어가려면 유명 기관의 인증서가 필수적입니다. IIIT-B의 머신 러닝 및 AI 부문 PG 프로그램을 확인하고 최고의 ML 및 AI 회사로부터 취업 지원을 받으십시오.

앙상블 학습의 한계는 무엇입니까?

앙상블 접근 방식은 분산을 줄이고 보다 강력한 모델을 개발하는 데 도움이 될 수 있습니다. 그러나 앙상블 기법을 사용하는 데에는 설명 가능성 및 성능 부족과 같은 특정 단점이 있습니다. 또한 앙상블의 효율성은 문제의 다양한 측면에 초점을 맞춘 여러 모델을 집계하는 능력에서 비롯된다는 점을 명심하십시오. 그러나 수백 가지 모델의 예측이 필요할 수 있으므로 예측 기간이 더 깁니다. 더 나은 예측이 있더라도 정확도의 향상은 가치가 없을 수 있습니다.

기계 학습을 배우는 데 얼마나 많은 시간이 필요합니까?

기계 학습과 관련하여 동일한 기술에 사용되는 복잡한 기술은 사람들을 쉽게 놀라게 할 수 있습니다. 그러나 조금씩 이해하는 것은 어렵지 않습니다. 통계, 고급 수학 등의 사전 경험이 모든 개념을 빠르게 이해하는 데 틀림없이 도움이 될 것입니다. 그러나 교육 배경과 기술은 사람마다 다르기 때문에 한 사람은 ML을 3주 만에 배울 수 있고 다른 사람은 1년이 필요할 수 있습니다.

기계 학습은 일상 생활에서 어떻게 사용되고 있습니까?

Gmail은 이메일을 기계 학습을 사용하여 기본, 프로모션, 소셜 및 업데이트로 정렬하여 필수 이메일로 분류합니다. 기업들은 최근 거래 빈도, 거래 금액, 가맹점 유형 등의 데이터를 기반으로 사기 거래를 탐지하기 위해 신경망을 활용하고 있다. 표절 탐지기는 또한 기계 학습을 사용합니다. ML 엔지니어링의 경우 완료하는 데 약 6개월이 걸립니다.