10 лучших проектов по науке о данных на Github, которые стоит попробовать [2022]

Опубликовано: 2021-01-09

Поскольку наука о данных стремительно захватывает отрасль, существует огромный спрос на квалифицированных специалистов по науке о данных. Естественно, конкуренция на нынешнем рынке жесткая. В таком случае работодатели ищут не только формальное образование и профессиональные сертификаты, но и практический опыт. И что может быть лучше, чем проекты Data Science, чтобы доказать свою ценность и продемонстрировать свои реальные навыки Data Science потенциальным работодателям!

Если вы стремитесь войти в область науки о данных, лучший способ создать свое портфолио с нуля — это работать над проектами по науке о данных. Мы создали этот пост, чтобы вдохновить вас на разработку собственных проектов Data Science.

Поскольку GitHub является отличным хранилищем идей для проектов по науке о данных, вот список проектов по науке о данных на GitHub, которые вы должны проверить! Чтобы получить больше знаний и практических приложений, ознакомьтесь с нашими курсами по науке о данных в ведущих университетах.

Оглавление

10 лучших проектов по науке о данных на GitHub

1. Распознавание лиц

В проекте распознавания лиц используется алгоритм глубокого обучения и HOG ( гистограмма ориентированных градиентов ). Эта система распознавания лиц предназначена для поиска лиц на изображении (алгоритм HOG), аффинных преобразований (выравнивания лиц с использованием ансамбля деревьев регрессии), кодирования лиц (FaceNet) и прогнозирования (линейный SVM).

Используя алгоритм HOG, вы будете вычислять взвешенные градиенты ориентации голосов для квадратов 16 × 16 пикселей вместо вычисления градиентов для каждого пикселя конкретного изображения. Это создаст изображение HOG, которое представляет основную структуру лица. На следующем шаге вы должны использовать библиотеку dlib Python для создания и просмотра представлений HOG, чтобы найти, какая часть изображения имеет наибольшее сходство с обученным шаблоном HOG.

2. Обмен велосипедами Kaggle

Системы велопроката позволяют бронировать и брать напрокат велосипеды/мотоциклы, а также возвращать их через автоматизированную систему. Этот проект больше похож на соревнование Kaggle, в котором вам нужно будет объединить исторические модели использования с данными о погоде, чтобы предсказать спрос на услуги по аренде велосипедов для программы Capital Bikeshare в Вашингтоне, округ Колумбия.

Основная цель этого конкурса Kaggle — создать модель машинного обучения (явно основанную на контекстных функциях), которая может прогнозировать количество арендованных велосипедов. Задача состоит из двух частей. В то время как в первой части вы сосредоточитесь на понимании, анализе и обработке наборов данных, вторая часть посвящена разработке модели с использованием библиотеки машинного обучения.

3. Текстовый анализ отчета правительства Мексики

Этот проект является отличным применением НЛП. 1 сентября 2019 года правительство Мексики опубликовало годовой отчет в формате PDF. Итак, вашей целью в этом проекте будет извлечение текста из PDF, его очистка, запуск через конвейер NLP и визуализация результатов с использованием графических представлений.

Для этого проекта вам придется использовать несколько библиотек Python, в том числе:

  • PyPDF2 для извлечения текста из файлов PDF.
  • SpaCy для передачи извлеченного текста в конвейер NLP.
  • Pandas для извлечения и анализа информации из наборов данных.
  • NumPy для быстрых операций с матрицами.
  • Matplotlib для разработки сюжетов и графиков.
  • Seaborn для улучшения стиля графиков/графиков.
  • Geopandas для построения карт.

4. АЛЬБЕРТ

ALBERT основан на BERT, проекте Google, который внес радикальные изменения в область НЛП. Это расширенная реализация BERT, предназначенная для самостоятельного изучения языковых представлений с использованием TensorFlow.

В BERT предварительно обученные модели огромны, и поэтому становится сложно их распаковать, подключить к модели и запустить на локальных машинах. Вот почему необходимость в ALBERT помогает вам достичь ультрасовременной производительности на основных тестах с параметрами на 30% меньше. Хотя albert_base_zh имеет всего 10% параметров по сравнению с BERT, он по-прежнему сохраняет исходную точность BERT.

5. StringSifter

Если вас интересует кибербезопасность, вам понравится работать над этим проектом! StringSifter, запущенный FireEye, представляет собой инструмент машинного обучения, который может автоматически ранжировать строки на основе их актуальности для анализа вредоносных программ.

Обычно стандартные вредоносные программы содержат строки для выполнения определенных операций, таких как создание раздела реестра, копирование файлов из одного места в другое и т. д. StringSifter — фантастическое решение для смягчения киберугроз. Однако для запуска и установки StringSifter у вас должен быть Python версии 3.6 или выше.

6. плиточник

Учитывая тот факт, что сегодня Интернет и онлайн-платформы переполнены изображениями, в современной индустрии существуют широкие возможности для работы с данными изображений. Итак, представьте, что если вы сможете создать проект, ориентированный на изображение, он будет очень ценным активом для многих.

Tiler — это такой инструмент для работы с изображениями, который позволяет создавать уникальные изображения, комбинируя множество различных видов меньших изображений или «плиток». Согласно описанию Tiler на GitHub, вы можете создавать изображения «линии, волны, круги, вышивки крестом, блоки Minecraft, лего, буквы, скрепки» и многое другое. С Tiler у вас будут бесконечные возможности для создания инновационных изображений.

7. Глубокий CTR

DeepCTR — это «простой в использовании, модульный и расширяемый пакет моделей CTR на основе глубокого обучения». Он также включает в себя множество других жизненно важных элементов и слоев, которые могут быть очень удобны для создания пользовательских моделей.

Изначально проект DeepCTR был разработан на TensorFlow. Хотя TensorFlow — похвальный инструмент, он не всем по душе. Таким образом, был создан репозиторий DeepCTR-Torch. Новая версия включает полный код DeepCTR в PyTorch. Вы можете установить DeepCTR через pip, используя следующую инструкцию:

pip установить -U deepctr-факел

С DeepCTR становится легко использовать любую сложную модель с функциями model.fit() и model.predict().

8. TubeMQ

Вы когда-нибудь задумывались, как технологические гиганты и лидеры отрасли хранят, извлекают и управляют своими данными? Это происходит с помощью таких инструментов, как TubeMQ, система распределенной очереди сообщений (MQ) Tencent с открытым исходным кодом.

TubeMQ работает с 2013 года и обеспечивает высокопроизводительное хранение и передачу больших объемов больших данных. Поскольку TubeMQ накопил более семи лет хранения и передачи данных, он имеет преимущество над другими инструментами MQ. Он обещает отличную производительность и стабильность в производственной практике. Кроме того, он имеет относительно низкую стоимость. Руководство пользователя TubeMQ содержит подробную документацию обо всем, что вам нужно знать об этом инструменте.

9. Глубокая конфиденциальность

Хотя каждый из нас любит время от времени предаваться цифровому миру и миру социальных сетей, одной вещи (с которой мы все согласны) не хватает в цифровом мире — это конфиденциальности. Как только вы загрузите селфи или видео в сеть, вас будут смотреть, анализировать и даже критиковать. В худшем случае ваши видео и изображения могут стать предметом манипуляций.

Вот почему нам нужны такие инструменты, как DeepPrivacy. Это полностью автоматический метод анонимизации изображений, использующий GAN (генеративно-состязательная сеть) . Модель GAN DeepPrivacy не просматривает какую-либо личную или конфиденциальную информацию. Однако он может генерировать полностью анонимное изображение. Это можно сделать, изучив и проанализировав исходную позу человека (людей) и фоновое изображение. DeepPrivacy использует аннотацию ограничительной рамки, чтобы определить область изображения, чувствительную к конфиденциальности. Кроме того, он использует Mask R-CNN для разреженной информации о позах лиц и DSFD для обнаружения лиц на изображении.

10. Система прогнозирования рейтинга фильмов IMDb

Целью этого проекта Data Science является оценка фильма еще до его выхода. Проект разделен на три части. Первая часть направлена ​​на анализ данных, собранных с сайта IMDb. Эти данные будут включать в себя такую ​​информацию, как режиссеры, продюсеры, кастинг, описание фильма, награды, жанры, бюджет, валовая прибыль и imdb_rating. Вы можете создать файл movie_contents.json, написав следующую строку:

python3 parser.py nb_elements

Целью второй части проекта является анализ фреймов данных и наблюдение за корреляциями между переменными. Например, коррелирует ли оценка IMDb с количеством наград и мировым валовым доходом. Заключительная часть будет включать в себя использование машинного обучения (случайный лес) для прогнозирования рейтинга IMDb на основе наиболее релевантных переменных.

Подведение итогов

Это одни из самых полезных проектов по науке о данных на GitHub, которые вы можете воссоздать, чтобы отточить свои навыки работы с данными в реальном мире. Чем больше времени и усилий вы вкладываете в создание проектов Data Science, тем лучше у вас получается создавать модели.

Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных , которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Какую пользу нам приносит участие в проектах с открытым исходным кодом?

Проекты с открытым исходным кодом — это проекты, исходный код которых открыт для всех, и каждый может получить к нему доступ для внесения в него изменений. Участие в проектах с открытым исходным кодом очень полезно, поскольку оно не только оттачивает ваши навыки, но и дает вам возможность включить несколько крупных проектов в свое резюме. Поскольку многие крупные компании переходят на программное обеспечение с открытым исходным кодом, вам будет выгодно, если вы начнете вносить свой вклад на раннем этапе. Некоторые крупные компании, такие как Microsoft, Google, IBM и Cisco, так или иначе используют открытый исходный код. Существует большое сообщество опытных разработчиков программного обеспечения с открытым исходным кодом, которые постоянно вносят свой вклад в улучшение и обновление программного обеспечения. Сообщество очень дружелюбно к новичкам и всегда готово активизироваться и приветствовать новых участников. Существует хорошая документация, которая поможет вам внести свой вклад в разработку открытого исходного кода.

Что такое алгоритм HOG?

Гистограмма ориентированных градиентов или HOG — это детектор объектов, используемый в компьютерном зрении. Если вы знакомы с гистограммами ориентации ребер, вы можете относиться к HOG. Этот метод используется для измерения появления ориентаций градиента в определенной части изображения. Алгоритм HOG также используется для вычисления взвешенных градиентов ориентации голосов для квадратов 16 × 16 пикселей вместо вычисления градиентов для каждого пикселя конкретного изображения. Реализация этого алгоритма разделена на 5 шагов: вычисление градиента, группирование ориентации, блоки дескрипторов, нормализация блоков и распознавание объектов.

Какие шаги необходимы для построения модели машинного обучения?

Для разработки модели машинного обучения необходимо выполнить следующие шаги: Первый шаг — собрать набор данных для вашей модели. 80 % этих данных будут использоваться при обучении, а остальные 20 % — при тестировании и проверке модели. Затем вам нужно выбрать подходящий алгоритм для вашей модели. Выбор алгоритма полностью зависит от типа задачи и набора данных. Далее идет обучение модели. Он включает запуск модели с различными входными данными и ее повторную настройку в соответствии с результатами. Этот процесс повторяется до тех пор, пока не будут достигнуты наиболее точные результаты.