Mapreduce في البيانات الضخمة: نظرة عامة ، الوظيفة والأهمية

نشرت: 2022-07-15

جدول المحتويات

ما هي البيانات الضخمة؟

البيانات الضخمة هي مجموعة شاملة من كميات هائلة من البيانات التي لا يمكن معالجتها بمساعدة طرق الحوسبة التقليدية. يشير تحليل البيانات الضخمة إلى استخدام طرق مثل تحليلات سلوك المستخدم أو التحليلات التنبؤية أو غيرها من التحليلات المتقدمة الأخرى التي تتعامل بشكل فعال مع البيانات الضخمة. يستخدم تحليل البيانات الضخمة لاستخراج المعلومات من مجموعات البيانات الكبيرة بشكل منهجي.

مع تقدم التكنولوجيا ، تعتمد حياتنا الرقمية بشكل أساسي على مجموعات كبيرة من البيانات في مختلف المجالات. البيانات موجودة في كل مكان ، من الأجهزة الرقمية مثل الهواتف المحمولة إلى أنظمة الكمبيوتر وهي مورد حيوي للمؤسسات والشركات الكبيرة. يعتمدون على مجموعات كبيرة من البيانات غير المعالجة ، والتي تندرج تحت مظلة البيانات الضخمة.

لذلك ، فإن جمع ودراسة وتحليل واستخراج المعلومات جزء لا يتجزأ من نمو الأعمال التجارية والأغراض الأخرى في مختلف القطاعات. تتمثل مهمة علماء البيانات في معالجة هذه البيانات وتقديمها إلى الشركة للتنبؤ وتخطيط الأعمال.

"

استكشف دوراتنا التدريبية الشهيرة في هندسة البرمجيات

SL. رقم برامج تطوير البرمجيات
1 ماجستير العلوم في علوم الكمبيوتر من جامعة جون مورس بليفربول و IIITB برنامج شهادة الأمن السيبراني من معهد كاليفورنيا للتكنولوجيا CTME
2 برنامج تدريب تطوير المكدس الكامل برنامج PG في Blockchain
3 برنامج الدراسات العليا التنفيذية في تطوير البرمجيات - تخصص في DevOps عرض جميع دورات هندسة البرمجيات

ما هو MapReduce؟

MapReduce هو نموذج برمجة يلعب دورًا أساسيًا في معالجة البيانات الضخمة ومجموعات البيانات الكبيرة بمساعدة خوارزمية متوازية وموزعة على مجموعة. يمكن كتابة برامج MapReduce بالعديد من لغات البرمجة مثل C ++ و Java و Ruby و Python وما إلى ذلك. وتتمثل أكبر ميزة لـ MapReduce في أنها تجعل معالجة البيانات سهلة القياس عبر العديد من عقد الكمبيوتر.

يتم استخدام MapReduce و HDFS بشكل أساسي للإدارة الفعالة للبيانات الضخمة. يشار إلى Hadoop على أنه الأساسيات الأساسية لنظام Mapreduce و HDFS المقترن المعروف باسم نظام HDFS-MapReduce. لذلك ، لا داعي للقول إن MapReduce هو جزء لا يتجزأ من نظام Apache Hadoop البيئي. يساهم إطار Mapreduce في تحسين معالجة البيانات على مستوى هائل. يتكون Apache Hadoop من عناصر أخرى تشمل Hadoop Distributed File System (HDFS) و Apache Pig and Yarn.

يساعد MapReduce في تحسين معالجة البيانات بمساعدة الخوارزميات المتفرقة والمتوازية لنظام Hadoop البيئي. يساعد تطبيق نموذج البرمجة هذا في التجارة الإلكترونية والمنصات الاجتماعية على تحليل البيانات الضخمة التي تم جمعها من مستخدمي الإنترنت.

تعلم دورات تطوير البرمجيات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

كيف يعمل MapReduce؟

تتكون خوارزمية MapReduce من مهمتين متكاملتين ، وهما Map و Reduce. تأخذ مهمة الخريطة مجموعة بيانات وتستمر في تحويلها إلى مجموعة بيانات أخرى ، حيث يتم تقسيم العناصر الفردية إلى مجموعات أو أزواج من القيم الرئيسية. تأخذ مهمة تقليل الإخراج من الخريطة كمدخلات وتجمع مجموعات البيانات أو أزواج القيمة الرئيسية في مجموعات مجموعات أصغر. يتم دائمًا تنفيذ مهمة تقليل بعد وظيفة الخريطة.

فيما يلي المراحل المختلفة لبرنامج MapReduce: -

  • طور الإدخال : في مرحلة الإدخال ، يساعد قارئ السجل في ترجمة كل سجل في ملف الإدخال وإرسال البيانات التي تم تحليلها في شكل أزواج من قيم المفاتيح إلى مصمم الخرائط.
  • الخريطة: وظيفة الخريطة محددة من قبل المستخدم. يساعد في معالجة سلسلة من أزواج القيمة الرئيسية وتوليد أزواج صفرية أو متعددة ذات قيمة رئيسية.
  • المفاتيح الوسيطة: تُعرف أزواج المفتاح والقيمة التي تم إنشاؤها بواسطة مصمم الخرائط بالمفاتيح الوسيطة.
  • المجمع : يساعد هذا النوع من المخفض المحلي في تجميع البيانات المتشابهة التي تم إنشاؤها من مرحلة الخريطة في مجموعات قابلة للتحديد. إنه جزء اختياري من خوارزمية MapReduce.
  • التبديل والفرز: تبدأ مهمة Reducer بهذه الخطوة حيث تقوم بتنزيل أزواج قيمة المفتاح المجمعة في الجهاز ، حيث يعمل Reducer بالفعل. يتم فصل أزواج المفتاح والقيمة بالمفتاح في قائمة بيانات أكثر شمولاً. ثم تقوم قائمة البيانات بتجميع المفاتيح المكافئة معًا لتكرار قيمها بسهولة في مهمة Reducer.
  • المخفض : يأخذ Reducer البيانات المقترنة ذات القيمة الرئيسية المجمعة كمدخلات ثم يقوم بتشغيل وظيفة Reducer على كل واحد منهم. هنا ، يمكن تصفية البيانات وتجميعها ودمجها بعدة طرق. إنها تحتاج أيضًا إلى نطاق واسع من المعالجة. بمجرد انتهاء العملية ، فإنها تعطي صفرًا أو عدة أزواج ذات قيمة رئيسية للخطوة النهائية.
  • مرحلة الإخراج: في هذه المرحلة ، يوجد مُنسق إخراج يقوم بترجمة أزواج قيمة المفتاح النهائية من وظيفة Reducer ويكتبها في ملف باستخدام كاتب سجل.

يحدث MapReduce على ثلاث مراحل: -

المرحلة 1: مرحلة الخريطة

المرحلة 2: مرحلة المراوغة

المرحلة الثالثة: مرحلة التخفيض.

أمثلة للمساعدة في فهم المراحل بشكل أفضل. فيما يلي مثال لمشكلة Wordcount التي تم حلها بواسطة Mapreduce عبر المراحل: -

خذ بيانات الإدخال التالية في الاعتبار: -

  • آنا كارين لولا
  • كلارا كلارا لولا
  • آنا كلارا كارين
  1. تم فصل البيانات أعلاه إلى ثلاثة أقسام إدخال.
  • آنا كارين لولا
  • كلارا كلارا لولا
  • آنا كلارا كارين
  1. في المرحلة التالية ، يتم إدخال هذه البيانات في المرحلة التالية ، والتي يشار إليها بمرحلة رسم الخرائط.

بالنظر إلى السطر الأول (آنا كارين لولا) ، نحصل على ثلاثة أزواج ذات قيمة رئيسية - آنا ، 1 ؛ كارين ، 1 ؛ لولا ، 1.

سوف تجد النتيجة في مرحلة رسم الخرائط أدناه: -

  • آنا ، 1
    كارين ، 1
    لولا ، 1
  • كلارا ، 1
    كلارا ، 1
    لولا ، 1
  • آنا ، 1
    كلارا ، 1
    كارين ، 1
  1. يتم بعد ذلك إدخال البيانات المذكورة أعلاه في المرحلة التالية. تسمى هذه المرحلة بمرحلة الفرز والخلط. يتم تجميع البيانات في هذه المرحلة في مفاتيح فريدة ويتم فرزها بشكل أكبر. سوف تجد نتيجة مرحلة الفرز والخلط:
  • لولا ، (1،1)
  • كارين (1،1)
  • آنا (1،1)
  • كلارا (1،1،1)
  1. يتم بعد ذلك إدخال البيانات الواردة أعلاه في المرحلة التالية ، والتي يشار إليها بمرحلة التخفيض.

يتم تجميع جميع القيم الأساسية هنا ، ويتم حساب عدد 1.

فيما يلي النتيجة في مرحلة التخفيض:

  • لولا 2
  • كارين 2
  • آنا ، 2
  • كلارا 3

اقرأ مقالاتنا الشهيرة المتعلقة بتطوير البرمجيات

كيف يتم تنفيذ تجريد البيانات في Java؟ ما هي الطبقة الداخلية في جافا؟ معرفات Java: التعريف والنحو والأمثلة
فهم التغليف في OOPS بأمثلة شرح حجج سطر الأوامر في لغة سي أهم 10 ميزات وخصائص للحوسبة السحابية في عام 2022
تعدد الأشكال في جافا: المفاهيم والأنواع والخصائص والأمثلة الحزم في Java وكيفية استخدامها؟ برنامج Git التعليمي للمبتدئين: تعلم Git من الصفر

لماذا تختار MapReduce؟

كنموذج برمجة لكتابة التطبيقات ، يعد MapReduce أحد أفضل الأدوات لمعالجة تماثل البيانات الضخمة على عقد متعددة. المزايا الأخرى لاستخدام MapReduce هي كما يلي: -

  • حماية
  • قابلية التوسع
  • المرونة
  • صديقة للميزانية
  • المصادقة
  • نموذج برمجة مبسط
  • سريع وفعال
  • التوفر
  • المعالجة المتوازية
  • تكيف

استنتاج

تعد البيانات الضخمة جزءًا مهمًا جدًا من حياتنا لأن الشركات العملاقة التي يعتمد عليها الاقتصاد في الازدهار تعتمد على البيانات الضخمة المذكورة. اليوم ، هو أحد أكثر الخيارات المهنية ربحية التي يمكن للمرء أن يختارها.

إذا كنت تتطلع إلى التسجيل في دورة تدريبية موثوقة في برنامج الشهادة المتقدمة في البيانات الضخمة ، فلا داعي لمزيد من البحث. upGrad لديها أفضل مسار سوف تصادفه. ستتعلم مهارات احترافية عالية مثل معالجة البيانات باستخدام PySpark وتخزين البيانات و MapReduce ومعالجة البيانات الكبيرة على السحابة والمعالجة في الوقت الفعلي وما شابه.

ما هو الفاصل وكيف يتم استخدامه؟

التقسيم هو مرحلة تتحكم في قسم مفاتيح الإخراج Mapreduce الفوري باستخدام وظائف التجزئة. يحدد التقسيم المخفض ، ويتم إرسال أزواج القيمة الرئيسية إليه.

ما هي التكوينات الرئيسية المحددة في MapReduce؟

يتطلب MapReduce موقع الإدخال والإخراج للمهمة في أنظمة الملفات الموزعة Hadoop وتنسيقاتها. يحتاج مبرمجو MapReduce أيضًا إلى توفير معلمات الفئات التي تحتوي على الخريطة وتقليل الوظائف. يتطلب MapReduce أيضًا تكوين ملف .JAR لفئات المخفض والمحرك والمخطط.

ما هو مخطط السلسلة ومخطط الهوية في MapReduce؟

يمكن تعريف مصمم الخرائط على أنه فئات مصمم الخرائط البسيطة التي يتم تنفيذها بمساعدة عمليات السلسلة عبر فئات معين من مصمم الخرائط ضمن مهمة خريطة واحدة. يمكن تعريف مخطط الهوية على أنه فئة مخطط Hadoop افتراضيًا. يتم تنفيذ مخطط الهوية عندما لا يتم تعريف فئات معين أخرى.