Githubのトップ10データサイエンスプロジェクトを実際に体験する必要があります[2022]

公開: 2021-01-09

データサイエンスが業界を席巻する中、熟練した資格のあるデータサイエンスの専門家に対する大きな需要があります。 当然、現在の市場での競争は熾烈です。 このようなシナリオでは、雇用主は正式な教育と専門的な資格を探すだけでなく、実践的な経験も必要とします。 そして、あなたの価値を証明し、潜在的な雇用者にあなたの実際のデータサイエンススキルを紹介するためのデータサイエンスプロジェクトよりも優れています!

データサイエンスドメインへの参入を目指す場合、ポートフォリオをゼロから構築する最善の方法は、データサイエンスプロジェクトに取り組むことです。 この投稿は、独自のデータサイエンスプロジェクトを開発するためのインスピレーションを与えるために作成されました。

GitHubはデータサイエンスプロジェクトのアイデアの優れたリポジトリであるため、GitHubのデータサイエンスプロジェクトのリストを確認してください。 より多くの知識と実用的なアプリケーションを取得するには、一流大学のデータサイエンスコースをチェックしてください。

目次

GitHubの10のベストデータサイエンスプロジェクト

1.顔認識

顔認識プロジェクトは、ディープラーニングとHOG( Histogram of Oriented Gradients )アルゴリズムを利用します。 この顔認識システムは、画像内の顔を検索し(HOGアルゴリズム)、アフィン変換(回帰ツリーのアンサンブルを使用して顔を整列させる)、顔エンコーディング(FaceNet)、および予測を行う(Linear SVM)ように設計されています。

HOGアルゴリズムを使用して、特定の画像の各ピクセルの勾配を計算する代わりに、16×16ピクセルの正方形の加重投票方向勾配を計算します。 これにより、顔の基本構造を表すHOG画像が生成されます。 次のステップでは、dlib Pythonライブラリを使用してHOG表現を作成および表示し、画像のどの部分がトレーニングされたHOGパターンに最も類似しているかを見つける必要があります。

2.Kaggleバイクシェアリング

自転車共有システムでは、自動化されたシステムを通じて、自転車/バイクの予約とレンタル、および返却も可能です。 このプロジェクトは、ワシントンDCのCapital Bikeshareプログラムの自転車レンタルサービスの需要を予測するために、過去の使用パターンと気象データを組み合わせる必要があるKaggleコンテストのようなものです。

このKaggleコンテストの主な目的は、レンタルする自転車の数を予測できるMLモデル(コンテキスト機能に明示的に基づく)を作成することです。 課題には2つの部分があります。 最初の部分では、データセットの理解、分析、および処理に焦点を当てますが、2番目の部分では、MLライブラリを使用したモデルの設計について説明します。

3.メキシコ政府報告書のテキスト分析

このプロジェクトは、NLPの優れたアプリケーションです。 2019年9月1日、メキシコ政府はPDF形式の年次報告書を発表しました。 したがって、このプロジェクトの目的は、PDFからテキストを抽出し、それをクリーンアップし、NLPパイプラインを介して実行し、グラフィック表現を使用して結果を視覚化することです。

このプロジェクトでは、次のような複数のPythonライブラリを使用する必要があります。

  • PyPDF2は、PDFファイルからテキストを抽出します。
  • 抽出されたテキストをNLPパイプラインに渡すSpaCy。
  • データセットから洞察を抽出して分析するためのパンダ。
  • 迅速な行列演算のためのNumPy。
  • プロットとグラフを設計するためのMatplotlib。
  • プロット/グラフのスタイルを改善するためのSeaborn。
  • マップをプロットするジオパンダ。

4.アルバート

ALBERTは、NLPの分野に根本的な変化をもたらしたGoogleプロジェクトであるBERTに基づいています。 これはBERTの拡張実装であり、TensorFlowを使用した自己監視型学習言語表現用に設計されています。

BERTでは、事前にトレーニングされたモデルが膨大であるため、モデルを解凍してモデルに接続し、ローカルマシンで実行することが困難になります。 これが、ALBERTの必要性が、30%少ないパラメーターでメインベンチマークで最先端のパフォーマンスを達成するのに役立つ理由です。 albert_base_zhのパラメーターはBERTと比較してわずか10%ですが、BERTの元の精度は保持されています。

5. StringSifter

サイバーセキュリティに関心がある場合は、このプロジェクトに取り組むのが大好きです。 FireEyeによって起動されたStringSifterは、マルウェア分析の関連性に基づいて文字列を自動的にランク付けできるMLツールです。

通常、標準のマルウェアプログラムには、レジストリキーの作成、ある場所から別の場所へのファイルのコピーなど、特定の操作を実行するための文字列が含まれています。 StringSifterは、サイバー脅威を軽減するための素晴らしいソリューションです。 ただし、StringSifterを実行およびインストールするには、Pythonバージョン3.6以降が必要です。

6.タイル張り

今日、Webおよびオンラインプラットフォームが画像で溢れているという事実を考えると、現代の業界では画像データを操作するための広大な範囲があります。 したがって、画像指向のプロジェクトを作成できれば、それは多くの人にとって非常に価値のある資産になると想像してみてください。

Tilerは、さまざまな種類の小さな画像または「タイル」を組み合わせて独自の画像を作成できる画像ツールです。 TilerのGitHubの説明によると、「線、波、円の外、クロスステッチ、Minecraftブロック、レゴ、文字、ペーパークリップ」などの画像を作成できます。 Tilerを使用すると、革新的な画像を作成するための無限の可能性があります。

7. DeepCTR

DeepCTRは、「ディープラーニングベースのCTRモデルの使いやすく、モジュール式で、拡張可能なパッケージ」です。 また、カスタマイズされたモデルを構築するのに非常に便利な他の多くの重要な要素とレイヤーが含まれています。

もともと、DeepCTRプロジェクトはTensorFlowで設計されました。 TensorFlowは立派なツールですが、誰もが楽しめるわけではありません。 したがって、DeepCTR-Torchリポジトリが作成されました。 新しいバージョンには、PyTorchの完全なDeepCTRコードが含まれています。 次のステートメントを使用して、pip経由でDeepCTRをインストールできます。

pip install -U deepctr-torch

DeepCTRを使用すると、model.fit()関数とmodel.predict()関数を使用して複雑なモデルを簡単に使用できるようになります。

8. TubeMQ

テクノロジーの巨人や業界のリーダーがデータをどのように保存、抽出、管理するのか疑問に思ったことはありませんか? これは、Tencentのオープンソースの分散メッセージングキュー(MQ)システムであるTubeMQなどのツールの助けを借りています。

TubeMQは2013年から機能しており、大量のビッグデータの高性能ストレージと送信を提供します。 TubeMQは7年以上のデータストレージと送信を蓄積してきたため、他のMQツールよりも優位に立っています。 生産現場での優れた性能と安定性をお約束します。 さらに、それは比較的低コストで提供されます。 TubeMQユーザーガイドには、ツールについて知っておく必要のあるすべての詳細なドキュメントが記載されています。

9. DeepPrivacy

私たち一人一人が時々デジタルおよびソーシャルメディアの世界にふけるのが大好きですが、デジタルの世界に欠けているものの1つはプライバシーです。 自撮り写真や動画をオンラインでアップロードすると、視聴、分析、批判も受けられます。 最悪のシナリオでは、ビデオや画像が操作されてしまう可能性があります。

これが、DeepPrivacyのようなツールが必要な理由です。 これは、 GAN(生成的敵対的ネットワーク)を活用する画像の完全自動匿名化手法です。 DeepPrivacyのGANモデルは、個人情報や機密情報を表示しません。 ただし、完全に匿名の画像を生成できます。 これは、個人の元のポーズと背景画像を調査および分析することによって行うことができます。 DeepPrivacyは、バウンディングボックスの注釈を使用して、画像のプライバシーに配慮した領域を識別します。 さらに、マスクR-CNNを使用して顔のポーズ情報をスパースし、 DSFDを使用して画像内の顔を検出します。

10.IMDb映画レーティング予測システム

このデータサイエンスプロジェクトは、映画が公開される前でも評価することを目的としています。 プロジェクトは3つの部分に分かれています。 最初の部分は、IMDbWebサイトから蓄積されたデータを解析しようとします。 このデータには、監督、プロデューサー、キャスティングプロダクション、映画の説明、賞、ジャンル、予算、グロス、imdb_ratingなどの情報が含まれます。 次の行を記述することで、movie_contents.jsonファイルを作成できます。

python3 parser.py nb_elements

プロジェクトの第2部では、データフレームを分析し、変数間の相関関係を観察することを目的としています。 たとえば、IMDbスコアが賞の数と世界全体の総額に相関しているかどうか。 最後の部分では、機械学習(ランダムフォレスト)を使用して、最も関連性の高い変数に基づいてIMDbの評価を予測します。

まとめ

これらは、GitHubで最も役立つデータサイエンスプロジェクトの一部であり、実際のデータサイエンススキルを磨くために再作成できます。 データサイエンスプロジェクトの構築に多くの時間と労力を費やすほど、モデル構築が向上します。

データサイエンスについて知りたい場合は、IIIT-B&upGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。

オープンソースプロジェクトに貢献することは私たちにどのような利益をもたらしますか?

オープンソースプロジェクトとは、ソースコードがすべての人に公開されており、誰でもアクセスして変更を加えることができるプロジェクトです。 オープンソースプロジェクトに貢献することは、スキルを磨くだけでなく、履歴書に載せる大きなプロジェクトを提供するため、非常に有益です。 多くの大企業がオープンソースソフトウェアに移行しているので、あなたが早く貢献し始めればそれはあなたにとって有益でしょう。 Microsoft、Google、IBM、Ciscoなどの有名企業の中には、何らかの形でオープンソースを採用しているところもあります。 ソフトウェアの改善と更新に絶えず貢献している、熟練したオープンソース開発者の大規模なコミュニティがあります。 コミュニティは非常に初心者に優しいものであり、いつでもステップアップして新しい貢献者を歓迎する準備ができています。 オープンソースに貢献するためのガイドとなる優れたドキュメントがあります。

HOGアルゴリズムとは何ですか?

指向性勾配またはHOGのヒストグラムは、コンピュータービジョンで使用されるオブジェクト検出器です。 エッジ方向のヒストグラムに精通している場合は、HOGに関連することができます。 この方法は、画像の特定の部分での勾配方向の発生を測定するために使用されます。 HOGアルゴリズムは、特定の画像の各ピクセルの勾配を計算する代わりに、16×16ピクセルの正方形の加重投票方向勾配を計算するためにも使用されます。 このアルゴリズムの実装は、勾配計算、方向ビニング、記述子ブロック、ブロック正規化、およびオブジェクト認識の5つのステップに分かれています。

MLモデルを構築するために必要な手順は何ですか?

MLモデルを開発するには、次の手順に従う必要があります。最初の手順は、モデルのデータセットを収集することです。 このデータの80%はトレーニングに使用され、残りの20%はテストとモデル検証に使用されます。 次に、モデルに適したアルゴリズムを選択する必要があります。 アルゴリズムの選択は、問題のタイプとデータセットに完全に依存します。 次はモデルのトレーニングです。 これには、さまざまな入力に対してモデルを実行し、結果に応じてモデルを再調整することが含まれます。 このプロセスは、最も正確な結果が得られるまで繰り返されます。