أهم 10 مشاريع في علوم البيانات على Github يجب أن تكون عمليًا عليها [2022]

نشرت: 2021-01-09

مع اقتحام Data Science الصناعة ، هناك طلب هائل على خبراء علوم البيانات المهرة والمؤهلين. بطبيعة الحال ، فإن المنافسة في السوق الحالية شرسة. في مثل هذا السيناريو ، لا يبحث أصحاب العمل فقط عن التعليم الرسمي والشهادات المهنية ، ولكنهم يطلبون أيضًا خبرة عملية. وما هو أفضل من مشاريع علوم البيانات لإثبات جدارتك وعرض مهاراتك في علوم البيانات الواقعية لأصحاب العمل المحتملين!

إذا كنت تطمح إلى دخول مجال علوم البيانات ، فإن أفضل طريقة لبناء محفظتك من الألف إلى الياء هي العمل على مشاريع علوم البيانات. لقد أنشأنا هذا المنشور لإلهامك لتطوير مشاريع علوم البيانات الخاصة بك.

نظرًا لأن GitHub هو مستودع ممتاز لأفكار مشاريع علوم البيانات ، فإليك قائمة بمشاريع علوم البيانات على GitHub والتي يجب عليك التحقق منها! لاكتساب المزيد من المعرفة والتطبيقات العملية ، تحقق من دورات علوم البيانات لدينا من أفضل الجامعات.

جدول المحتويات

أفضل 10 مشاريع في علوم البيانات على GitHub
- 1. التعرف على الوجوه
- 2. مشاركة الدراجة Kaggle
- 3. تحليل نص تقرير الحكومة المكسيكية
- 4. ألبرت
- 5. StringSifter
- 6. القرميد
- 7. DeepCTR
- 8. TubeMQ
- 9. DeepPrivacy
- 10. نظام التنبؤ بتصنيف الأفلام من IMDb
تغليف
- كيف تفيدنا المساهمة في مشاريع مفتوحة المصدر؟
- ما هي خوارزمية HOG؟
- ما هي الخطوات المطلوبة لبناء نموذج ML؟

أفضل 10 مشاريع في علوم البيانات على GitHub

1. التعرف على الوجوه

يستخدم مشروع التعرف على الوجوه التعلم العميق وخوارزمية HOG ( الرسم البياني للتدرجات الموجهة ). تم تصميم نظام التعرف على الوجوه هذا للعثور على الوجوه في صورة (خوارزمية HOG) ، والتحولات ذات الصلة (محاذاة الوجوه باستخدام مجموعة من أشجار الانحدار) ، وترميز الوجه (FaceNet) ، وعمل تنبؤات (SVM خطي).

باستخدام خوارزمية HOG ، ستحسب تدرجات اتجاه التصويت المرجح لمربعات 16 × 16 بكسل ، بدلاً من حساب التدرجات اللونية لكل بكسل من صورة معينة. سيؤدي هذا إلى إنشاء صورة HOG تمثل البنية الأساسية للوجه. في الخطوة التالية ، يجب عليك استخدام مكتبة dlib Python لإنشاء وعرض تمثيلات HOG للعثور على أي جزء من الصورة يحمل أقرب تشابه مع نمط HOG المدرب.

2. مشاركة الدراجة Kaggle

تتيح لك أنظمة مشاركة الدراجات حجز واستئجار الدراجات / الدراجات النارية وإعادتها أيضًا ، كل ذلك من خلال نظام آلي. يشبه هذا المشروع إلى حد كبير مسابقة Kaggle حيث سيتعين عليك الجمع بين أنماط الاستخدام التاريخية وبيانات الطقس للتنبؤ بالطلب على خدمات تأجير الدراجات لبرنامج Capital Bikeshare في واشنطن العاصمة.

الهدف الأساسي من مسابقة Kaggle هذه هو إنشاء نموذج ML (يعتمد صراحة على الميزات السياقية) يمكنه التنبؤ بعدد الدراجات المستأجرة. التحدي من جزأين. بينما في الجزء الأول ، ستركز على فهم مجموعات البيانات وتحليلها ومعالجتها ، يدور الجزء الثاني حول تصميم النموذج باستخدام مكتبة ML.

3. تحليل نص تقرير الحكومة المكسيكية

هذا المشروع هو تطبيق ممتاز من البرمجة اللغوية العصبية. في 1 سبتمبر 2019 ، أصدرت الحكومة المكسيكية تقريرًا سنويًا في شكل ملف PDF. لذلك ، سيكون هدفك في هذا المشروع هو استخراج نص من ملف PDF وتنظيفه وتشغيله عبر مسار معالجة اللغات الطبيعية ، وتصور النتائج باستخدام التمثيلات الرسومية.

بالنسبة لهذا المشروع ، سيتعين عليك استخدام مكتبات Python المتعددة ، بما في ذلك:

PyPDF2 لاستخراج نص من ملفات PDF.
SpaCy لتمرير النص المستخرج إلى خط أنابيب البرمجة اللغوية العصبية.
حيوانات الباندا لاستخراج الأفكار من مجموعات البيانات وتحليلها.
NumPy لعمليات المصفوفة السريعة.
Matplotlib لتصميم المؤامرة والرسوم البيانية.
Seaborn لتحسين نمط المؤامرات / الرسوم البيانية.
الجيوباندا لرسم الخرائط.

4. ألبرت

يعتمد ALBERT على BERT ، مشروع Google الذي أحدث تغييرًا جذريًا في مجال البرمجة اللغوية العصبية. إنه تطبيق محسّن لـ BERT ، مصمم لتمثيلات لغة التعلم تحت الإشراف الذاتي باستخدام TensorFlow.

في BERT ، تعد النماذج المدربة مسبقًا هائلة ، وبالتالي ، يصبح من الصعب فكها وتوصيلها بنموذج وتشغيلها على الأجهزة المحلية. هذا هو السبب في أن الحاجة إلى ALBERT تساعدك على تحقيق أداء متطور على المعايير الرئيسية مع 30٪ معلمات أقل. على الرغم من أن albert_base_zh يحتوي على معاملات 10٪ فقط مقارنةً بـ BERT ، إلا أنه لا يزال يحتفظ بالدقة الأصلية لـ BERT.

5. StringSifter

إذا كنت مهتمًا بالأمن السيبراني ، فستحب العمل في هذا المشروع! تم إطلاق StringSifter بواسطة FireEye ، وهي أداة ML يمكنها ترتيب السلاسل تلقائيًا بناءً على مدى صلة تحليل البرامج الضارة بها.

عادةً ما تتضمن البرامج الضارة القياسية سلاسل لأداء عمليات محددة مثل إنشاء مفتاح التسجيل ونسخ الملفات من موقع إلى موقع آخر وما إلى ذلك. StringSifter هو حل رائع للتخفيف من التهديدات السيبرانية. ومع ذلك ، يجب أن يكون لديك Python الإصدار 3.6 أو أعلى لتشغيل StringSifter وتثبيته.

6. القرميد

بالنظر إلى حقيقة أن الويب والأنظمة الأساسية عبر الإنترنت اليوم تغمرها الصور ، فهناك مجال واسع للعمل مع بيانات الصور في الصناعة الحديثة. لذا ، تخيل أنه إذا كان بإمكانك إنشاء مشروع موجه للصور ، فسيكون أحد الأصول ذات القيمة العالية للكثيرين.

Tiler هي أداة صور تتيح لك إنشاء صور فريدة من خلال الجمع بين العديد من الأنواع المختلفة من الصور الصغيرة أو "المربعات". وفقًا لوصف Tiler's GitHub ، يمكنك إنشاء صورة "خطوط ، موجات ، خارج الدوائر ، غرز متقاطعة ، كتل Minecraft ، legos ، حروف ، مشابك ورقية" وغير ذلك الكثير. مع Tiler ، سيكون لديك إمكانيات لا حصر لها لإنشاء إبداعات صور مبتكرة.

7. DeepCTR

DeepCTR عبارة عن "حزمة سهلة الاستخدام ومعيارية وقابلة للتمديد من نماذج نسبة النقر إلى الظهور المستندة إلى التعلم العميق." يتضمن أيضًا العديد من العناصر والطبقات الحيوية الأخرى التي يمكن أن تكون مفيدة جدًا لبناء نماذج مخصصة.

في الأصل ، تم تصميم مشروع DeepCTR على TensorFlow. في حين أن TensorFlow أداة جديرة بالثناء ، فهي ليست كوب شاي للجميع. ومن ثم ، تم إنشاء مستودع DeepCTR-Torch. يتضمن الإصدار الجديد كود DeepCTR الكامل في PyTorch. يمكنك تثبيت DeepCTR عبر النقطة باستخدام العبارة التالية:

تثبيت نقطة- U deepctr-torch

مع DeepCTR ، يصبح من السهل استخدام أي نموذج معقد مع دالتي model.fit () و model.predict ().

8. TubeMQ

هل تساءلت يومًا عن كيفية تخزين عمالقة التكنولوجيا وقادة الصناعة بياناتهم واستخراجها وإدارتها؟ إنه بمساعدة أدوات مثل TubeMQ ، نظام قائمة انتظار الرسائل الموزعة (MQ) مفتوح المصدر من Tencent.

يعمل TubeMQ منذ عام 2013 ، ويوفر تخزينًا عالي الأداء ونقل كميات كبيرة من البيانات الضخمة. نظرًا لأنه جمع أكثر من سبع سنوات من تخزين البيانات ونقلها ، فإن TubeMQ لها اليد العليا على أدوات MQ الأخرى. يعد بأداء ممتاز واستقرار في ممارسة الإنتاج. بالإضافة إلى ذلك ، يأتي بتكلفة منخفضة نسبيًا. يوفر دليل مستخدم TubeMQ وثائق مفصلة حول كل ما تحتاج لمعرفته حول الأداة.

9. DeepPrivacy

بينما يحب كل واحد منا الانغماس في عالم الوسائط الرقمية والاجتماعية من وقت لآخر ، هناك شيء واحد (نتفق عليه جميعًا) ينقصه العالم الرقمي وهو الخصوصية. بمجرد تحميل صورة شخصية أو مقطع فيديو عبر الإنترنت ، ستتم مشاهدتك وتحليلك وانتقادك حتى. في أسوأ السيناريوهات ، قد يتم التلاعب بمقاطع الفيديو والصور الخاصة بك.

هذا هو السبب في أننا نحتاج إلى أدوات مثل DeepPrivacy. إنها تقنية إخفاء هوية تلقائية بالكامل للصور التي تستفيد من GAN (شبكة الخصومة التوليدية) . لا يعرض نموذج GAN الخاص بـ DeepPrivacy أي معلومات خاصة أو حساسة. ومع ذلك ، يمكن أن تولد صورة مجهولة بالكامل. يمكنه القيام بذلك من خلال دراسة وتحليل الوضع الأصلي للفرد (الأفراد) وصورة الخلفية. يستخدم DeepPrivacy التعليق التوضيحي للمربع المحيط لتحديد المنطقة الحساسة للخصوصية في الصورة. كما أنها تستخدم Mask R-CNN لنشر معلومات متناثرة عن الوجوه و DSFD لاكتشاف الوجوه في الصورة.

10. نظام التنبؤ بتصنيف الأفلام من IMDb

يهدف مشروع Data Science هذا إلى تقييم الفيلم حتى قبل طرحه. ينقسم المشروع إلى ثلاثة أجزاء. يسعى الجزء الأول إلى تحليل البيانات المتراكمة من موقع IMDb. ستتضمن هذه البيانات معلومات مثل المخرجين والمنتجين وإنتاج الممثلين ووصف الفيلم والجوائز والأنواع والميزانية والإجمالي و imdb_rating. يمكنك إنشاء ملف movie_contents.json عن طريق كتابة السطر التالي:

python3 parser.py nb_elements

في الجزء الثاني من المشروع ، الهدف هو تحليل إطارات البيانات ومراقبة الارتباط بين المتغيرات. على سبيل المثال ، ما إذا كانت درجة IMDb مرتبطة أم لا بعدد الجوائز والإجمالي العالمي. سيتضمن الجزء الأخير استخدام التعلم الآلي (Random Forest) للتنبؤ بتصنيف IMDb استنادًا إلى المتغيرات الأكثر صلة.

تغليف

هذه بعض من أكثر مشاريع علوم البيانات فائدة على GitHub والتي يمكنك إعادة إنشائها لصقل مهاراتك في علوم البيانات في العالم الحقيقي. كلما زاد الوقت والجهد الذي تستثمره في بناء مشاريع علوم البيانات ، كلما تحسنت في بناء النموذج.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع برنامج IIIT-B & upGrad التنفيذي PG في علوم البيانات الذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1 - في 1 مع موجهين في الصناعة ، أكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

كيف تفيدنا المساهمة في مشاريع مفتوحة المصدر؟

المشاريع مفتوحة المصدر هي تلك المشاريع التي يكون كودها المصدر مفتوحًا للجميع ويمكن لأي شخص الوصول إليه لإجراء تعديلات عليه. تعد المساهمة في المشاريع مفتوحة المصدر مفيدة للغاية لأنها لا تزيد من شحذ مهاراتك فحسب ، بل تمنحك أيضًا بعض المشاريع الكبيرة لوضعها في سيرتك الذاتية. نظرًا لأن العديد من الشركات الكبرى تتحول إلى برامج مفتوحة المصدر ، فسيكون من المربح لك أن تبدأ في المساهمة مبكرًا. تبنت بعض الأسماء الكبيرة مثل Microsoft و Google و IBM و Cisco المصدر المفتوح بطريقة أو بأخرى. يوجد مجتمع كبير من مطوري البرامج مفتوحة المصدر الأكفاء الذين يساهمون باستمرار في تحسين البرنامج وتحديثه. المجتمع صديق للمبتدئين ومستعد دائمًا للتصعيد والترحيب بالمساهمين الجدد. هناك وثائق جيدة يمكن أن توجه طريقك للمساهمة في المصدر المفتوح.

ما هي خوارزمية HOG؟

الرسم البياني للتدرجات الموجهة أو HOG هو كاشف كائن يستخدم في رؤى الكمبيوتر. إذا كنت معتادًا على الرسوم البيانية لاتجاه الحافة ، فيمكنك الارتباط بـ HOG. تُستخدم هذه الطريقة لقياس تكرارات اتجاهات التدرج في جزء معين من الصورة. تُستخدم خوارزمية HOG أيضًا لحساب تدرجات اتجاه التصويت المرجح لمربعات 16 × 16 بكسل ، بدلاً من حساب التدرجات اللونية لكل بكسل من صورة معينة. ينقسم تنفيذ هذه الخوارزمية إلى 5 خطوات وهي: حساب التدرج ، والتوجيه المترابط ، وكتل الواصف ، وتطبيع الكتل ، والتعرف على الأشياء.

ما هي الخطوات المطلوبة لبناء نموذج ML؟

يجب اتباع الخطوات التالية لتطوير نموذج ML: الخطوة الأولى هي جمع مجموعة البيانات لنموذجك. سيتم استخدام 80٪ من هذه البيانات في التدريب ، وسيتم استخدام النسبة المتبقية البالغة 20٪ في الاختبار والتحقق من صحة النموذج. بعد ذلك ، تحتاج إلى تحديد خوارزمية مناسبة لنموذجك. يعتمد اختيار الخوارزمية كليًا على نوع المشكلة ومجموعة البيانات. بعد ذلك يأتي تدريب النموذج. يتضمن تشغيل النموذج مقابل مدخلات مختلفة وإعادة ضبطه وفقًا للنتائج. تتكرر هذه العملية حتى يتم تحقيق أكثر النتائج دقة.