Github에서 실습해야 할 상위 10개 데이터 과학 프로젝트 [2022]

게시 됨: 2021-01-09

데이터 과학이 업계를 강타하면서 숙련되고 자격을 갖춘 데이터 과학 전문가에 대한 엄청난 수요가 있습니다. 당연히 현재 시장의 경쟁은 치열합니다. 이러한 시나리오에서 고용주는 정규 교육 및 전문 인증을 찾을 뿐만 아니라 실무 경험도 요구합니다. 그리고 잠재적인 고용주에게 귀하의 가치를 증명하고 실제 데이터 과학 기술을 선보일 수 있는 데이터 과학 프로젝트보다 더 좋은 것은 없습니다!

데이터 과학 영역에 진입하기를 열망하는 경우 처음부터 포트폴리오를 구축하는 가장 좋은 방법은 데이터 과학 프로젝트에서 작업하는 것입니다. 자신의 데이터 과학 프로젝트를 개발할 수 있도록 영감을 주기 위해 이 게시물을 만들었습니다.

GitHub는 데이터 과학 프로젝트 아이디어의 훌륭한 리포지토리이므로 확인해야 하는 GitHub의 데이터 과학 프로젝트 목록이 있습니다! 더 많은 지식과 실용적인 응용 프로그램을 얻으려면 최고의 대학에서 제공하는 데이터 과학 과정 을 확인하십시오.

GitHub의 10가지 최고의 데이터 과학 프로젝트

1. 얼굴 인식

얼굴 인식 프로젝트는 딥 러닝과 HOG( Histogram of Oriented Gradients ) 알고리즘을 사용합니다. 이 얼굴 인식 시스템은 이미지에서 얼굴을 찾고(HOG 알고리즘), 아핀 변환(회귀 트리 앙상블을 사용하여 얼굴 정렬), 얼굴 인코딩(FaceNet) 및 예측(선형 SVM)을 수행하도록 설계되었습니다.

HOG 알고리즘을 사용하여 특정 이미지의 각 픽셀에 대한 그라디언트를 계산하는 대신 16x16 픽셀 정사각형의 가중치 투표 방향 그라디언트를 계산합니다. 이것은 얼굴의 기본 구조를 나타내는 HOG 이미지를 생성합니다. 다음 단계에서는 훈련된 HOG 패턴과 가장 유사한 이미지 부분을 찾기 위해 HOG 표현을 만들고 보기 위해 dlib Python 라이브러리를 사용해야 합니다.

2. 캐글 바이크 셰어링

자전거 공유 시스템을 사용하면 자동 시스템을 통해 자전거/오토바이를 예약 및 대여하고 반납할 수도 있습니다. 이 프로젝트는 워싱턴 DC의 Capital Bikeshare 프로그램에 대한 자전거 대여 서비스 수요를 예측하기 위해 날씨 데이터와 과거 사용 패턴을 결합해야 하는 Kaggle 대회와 비슷합니다.

이 Kaggle 대회의 주요 목표는 대여한 자전거의 수를 예측할 수 있는 ML 모델(명시적으로 컨텍스트 기능을 기반으로 함)을 만드는 것입니다. 도전에는 두 부분이 있습니다. 첫 번째 부분에서는 데이터 세트를 이해, 분석 및 처리하는 데 중점을 두고, 두 번째 부분에서는 ML 라이브러리를 사용하여 모델을 설계하는 방법에 대해 설명합니다.

3. 멕시코 정부 보고서의 텍스트 분석

이 프로젝트는 NLP의 훌륭한 응용 프로그램입니다. 2019년 9월 1일 멕시코 정부는 PDF 형식의 연례 보고서를 발표했습니다. 따라서 이 프로젝트의 목표는 PDF에서 텍스트를 추출하고 정리하고 NLP 파이프라인을 통해 실행하고 그래픽 표현을 사용하여 결과를 시각화하는 것입니다.

이 프로젝트의 경우 다음을 포함하여 여러 Python 라이브러리를 사용해야 합니다.

PyPDF2는 PDF 파일에서 텍스트를 추출합니다.
SpaCy는 추출된 텍스트를 NLP 파이프라인으로 전달합니다.
Pandas는 데이터 세트에서 통찰력을 추출하고 분석합니다.
신속한 행렬 연산을 위한 NumPy.
플롯 및 그래프 디자인을 위한 Matplotlib.
플롯/그래프의 스타일을 개선하기 위한 Seaborn.
지도를 그리는 Geopandas.

4. 알버트

ALBERT는 NLP 분야에 획기적인 변화를 가져온 Google 프로젝트인 BERT를 기반으로 합니다. TensorFlow를 사용하여 자기 지도 학습 언어 표현을 위해 설계된 BERT의 향상된 구현입니다.

BERT에서 사전 훈련된 모델은 엄청나므로 압축을 풀고 모델에 연결하고 로컬 머신에서 실행하는 것이 어려워집니다. 이것이 ALBERT의 필요성이 30% 적은 매개변수로 주요 벤치마크에서 최첨단 성능을 달성하는 데 도움이 되는 이유입니다. albert_base_zh는 BERT에 비해 매개변수가 10%에 불과하지만 여전히 BERT의 원래 정확도를 유지합니다.

5. 스트링시프터

사이버 보안에 관심이 있다면 이 프로젝트에서 일하는 것을 좋아할 것입니다! FireEye에서 출시한 StringSifter는 맬웨어 분석 관련성을 기반으로 문자열의 순위를 자동으로 지정할 수 있는 ML 도구입니다.

일반적으로 표준 맬웨어 프로그램에는 레지스트리 키 생성, 한 위치에서 다른 위치로 파일 복사 등과 같은 특정 작업을 수행하기 위한 문자열이 포함됩니다. StringSifter는 사이버 위협을 완화하기 위한 환상적인 솔루션입니다. 그러나 StringSifter를 실행하고 설치하려면 Python 버전 3.6 이상이 있어야 합니다.

6. 타일러

오늘날 웹과 온라인 플랫폼이 이미지로 가득 차 있다는 사실을 감안할 때 현대 산업에서 이미지 데이터로 작업할 수 있는 광대한 범위가 있습니다. 따라서 이미지 지향 프로젝트를 만들 수 있다면 많은 사람들에게 매우 가치 있는 자산이 될 것이라고 상상해 보십시오.

Tiler는 여러 종류의 작은 그림 또는 "타일"을 결합하여 독특한 이미지를 만들 수 있는 이미지 도구입니다. Tiler의 GitHub 설명에 따르면 "선, 파도, 원 밖의 것, 십자수, Minecraft 블록, 레고, 편지, 종이 클립" 등의 이미지를 만들 수 있습니다. Tiler를 사용하면 혁신적인 이미지를 만들 수 있는 무한한 가능성이 있습니다.

7. 딥CTR

DeepCTR은 "사용하기 쉽고 확장 가능한 딥 러닝 기반 CTR 모델 패키지"입니다. 또한 사용자 정의 모델을 구축하는 데 매우 유용할 수 있는 기타 수많은 필수 요소와 레이어가 포함되어 있습니다.

원래 DeepCTR 프로젝트는 TensorFlow에서 설계되었습니다. TensorFlow는 칭찬할 만한 도구이지만 모든 사람이 사용할 수 있는 것은 아닙니다. 따라서 DeepCTR-Torch 저장소가 생성되었습니다. 새 버전에는 PyTorch의 전체 DeepCTR 코드가 포함되어 있습니다. 다음 명령문을 사용하여 pip를 통해 DeepCTR을 설치할 수 있습니다.

pip install -U deepctr-torch

DeepCTR을 사용하면 model.fit() 및 model.predict() 함수로 복잡한 모델을 쉽게 사용할 수 있습니다.

8. 튜브엠큐

거대 기술 기업과 업계 리더들이 데이터를 어떻게 저장, 추출 및 관리하는지 궁금하신가요? Tencent의 오픈 소스 분산 메시징 대기열(MQ) 시스템인 TubeMQ와 같은 도구의 도움으로 이루어집니다.

TubeMQ는 2013년부터 운영되어 왔으며 대용량 빅 데이터의 고성능 저장 및 전송을 제공합니다. TubeMQ는 7년 이상의 데이터 저장 및 전송을 축적해 왔기 때문에 다른 MQ 도구보다 우위에 있습니다. 생산 현장에서 탁월한 성능과 안정성을 약속합니다. 게다가 비교적 저렴한 비용으로 제공됩니다. TubeMQ 사용자 가이드는 도구에 대해 알아야 할 모든 것에 대한 자세한 문서를 제공합니다.

9. 딥프라이버시

우리 각자는 때때로 디지털 및 소셜 미디어 세계에 탐닉하는 것을 좋아하지만 디지털 세계에서 한 가지(우리 모두 동의함)가 부족한 것은 개인 정보 보호입니다. 셀카나 동영상을 온라인에 올리면 시청, 분석, 비판까지 받습니다. 최악의 경우 동영상과 이미지가 조작될 수 있습니다.

이것이 DeepPrivacy와 같은 도구가 필요한 이유입니다. GAN(Generative Adversarial Network) 을 활용하는 이미지에 대한 완전 자동 익명화 기술입니다. DeepPrivacy의 GAN 모델은 개인 정보나 민감한 정보를 보지 않습니다. 그러나 완전히 익명의 이미지를 생성할 수 있습니다. 개인의 원래 포즈와 배경 이미지를 연구하고 분석하여 그렇게 할 수 있습니다. DeepPrivacy는 경계 상자 주석을 사용하여 이미지의 개인 정보에 민감한 영역을 식별합니다. 또한 Mask R-CNN 을 사용하여 얼굴의 희소한 포즈 정보를 사용하고 DSFD 를 사용 하여 이미지에서 얼굴을 감지합니다.

10. IMDb 영화 등급 예측 시스템

이 데이터 과학 프로젝트는 개봉 전에도 영화를 평가하는 것을 목표로 합니다. 프로젝트는 세 부분으로 나뉩니다. 첫 번째 부분은 IMDb 웹사이트에서 축적된 데이터를 파싱하는 것입니다. 이 데이터에는 감독, 프로듀서, 캐스팅 프로덕션, 영화 설명, 수상, 장르, 예산, 총 및 imdb_rating과 같은 정보가 포함됩니다. 다음 줄을 작성하여 movie_contents.json 파일을 만들 수 있습니다.

python3 파서.py nb_elements

프로젝트의 두 번째 부분에서 목표는 데이터 프레임을 분석하고 변수 간의 상관 관계를 관찰하는 것입니다. 예를 들어, IMDb 점수가 수상 횟수 및 전 세계 총 수익과 상관 관계가 있는지 여부입니다. 마지막 부분에서는 가장 관련성이 높은 변수를 기반으로 IMDb 등급을 예측하기 위해 머신 러닝(랜덤 포레스트)을 사용합니다.

마무리

다음은 실제 데이터 과학 기술을 연마하기 위해 다시 만들 수 있는 GitHub에서 가장 유용한 데이터 과학 프로젝트 중 일부입니다. 데이터 과학 프로젝트를 구축하는 데 더 많은 시간과 노력을 투자할수록 모델 구축을 더 잘할 수 있습니다.

데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍 , 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

오픈 소스 프로젝트에 기여하면 어떤 이점이 있습니까?

오픈 소스 프로젝트는 소스 코드가 모두에게 공개되어 누구나 액세스하여 수정할 수 있는 프로젝트입니다. 오픈 소스 프로젝트에 기여하는 것은 기술을 연마할 뿐만 아니라 이력서에 넣을 몇 가지 큰 프로젝트를 제공하기 때문에 매우 유익합니다. 많은 대기업이 오픈 소스 소프트웨어로 전환하고 있으므로 일찍 기여하기 시작하면 수익성이 있을 것입니다. Microsoft, Google, IBM, Cisco와 같은 유명 기업 중 일부는 어떤 방식으로든 오픈 소스를 수용했습니다. 소프트웨어를 개선하고 업데이트하는 데 지속적으로 기여하는 능숙한 오픈 소스 개발자 커뮤니티가 있습니다. 이 커뮤니티는 초보자에게 매우 친숙하며 항상 새로운 기여자를 환영하고 환영할 준비가 되어 있습니다. 오픈 소스에 기여하는 방법을 안내할 수 있는 좋은 문서가 있습니다.

HOG 알고리즘이란 무엇입니까?

Oriented Gradients 또는 HOG의 히스토그램은 컴퓨터 비전에 사용되는 물체 감지기입니다. 가장자리 방향 히스토그램에 익숙하다면 HOG와 관련될 수 있습니다. 이 방법은 이미지의 특정 부분에서 기울기 방향의 발생을 측정하는 데 사용됩니다. HOG 알고리즘은 특정 이미지의 각 픽셀에 대한 그라디언트를 계산하는 대신 16x16 픽셀 정사각형의 가중치 투표 방향 그라디언트를 계산하는 데에도 사용됩니다. 이 알고리즘의 구현은 그래디언트 계산, 방향 비닝, 설명자 블록, 블록 정규화 및 객체 인식의 5단계로 나뉩니다.

ML 모델을 구축하는 데 필요한 단계는 무엇입니까?

ML 모델을 개발하려면 다음 단계를 따라야 합니다. 첫 번째 단계는 모델에 대한 데이터 세트를 수집하는 것입니다. 이 데이터의 80%는 교육에 사용되고 나머지 20%는 테스트 및 모델 검증에 사용됩니다. 그런 다음 모델에 적합한 알고리즘을 선택해야 합니다. 알고리즘 선택은 전적으로 문제 유형과 데이터 세트에 따라 다릅니다. 다음은 모델 훈련입니다. 여기에는 다양한 입력에 대해 모델을 실행하고 결과에 따라 모델을 다시 조정하는 작업이 포함됩니다. 이 과정은 가장 정확한 결과를 얻을 때까지 반복됩니다.