الحزم في الخلية: قم بإنشاء جدول محزم في الخلية
نشرت: 2021-02-17قد يكون العمل مع مجموعة بيانات كبيرة أمرًا صعبًا. هناك الكثير لتتبعه ويمكن لخطأ صغير واحد أن يزعج سير عملك بالكامل. يعد التجميع أحد أكثر الأدوات بروزًا لإدارة مجموعات البيانات الكبيرة.
ستخبرك هذه المقالة عن كيفية إجراء الجرد في الخلية. سوف نستكشف تطبيقات متعددة لهذه الوظيفة من خلال الأمثلة.
جدول المحتويات
ما هو الجرد في الخلية؟
الحزم هو أسلوب تنظيم البيانات. في حين أن التقسيم والتجميع في Hive هما مفاهيم متشابهة تمامًا ، فإن الحاوية توفر وظيفة إضافية لتقسيم مجموعات البيانات الكبيرة إلى مجموعات أصغر وأكثر قابلية للإدارة تسمى المجموعات.
باستخدام الجرد في الخلية ، يمكنك تحليل مجموعة بيانات الجدول إلى أجزاء أصغر ، مما يسهل التعامل معها. يسمح لك الحزم بتجميع أنواع بيانات متشابهة وكتابتها في ملف واحد ، مما يعزز أدائك أثناء الانضمام إلى الجداول أو قراءة البيانات. هذا سبب كبير لاستخدام الجرد مع التقسيم في معظم الأوقات.
متى نستخدم الحزم؟
الجرد هو وظيفة مفيدة للغاية. إذا لم تكن قد استخدمتها من قبل ، فيجب أن تضع في اعتبارك النقاط التالية لتحديد وقت استخدام هذه الوظيفة:
- عندما يحتوي العمود على عدد كبير من العناصر الأساسية ، لا يمكننا إجراء تقسيم عليه. سيؤدي عدد كبير جدًا من الأقسام إلى إنشاء عدد كبير جدًا من ملفات Hadoop مما يؤدي إلى زيادة الحمل على العقدة. هذا لأن العقدة يجب أن تحتفظ بالبيانات الوصفية لكل قسم ، وهذا من شأنه أن يؤثر على أداء تلك العقدة.
- يجب عليك استخدام الحزم إذا كانت استعلاماتك تحتوي على عدة صلات على جانب الخريطة. صلة جانب الخريطة هي عملية تقوم فيها بضم جدولين باستخدام وظيفة الخريطة فقط دون استخدام وظيفة تقليل.
يسلط الضوء على الجرافات في الخلية
تعتمد الحزم على وظيفة التجزئة بحيث تحتوي على النقاط البارزة التالية:
- تعتمد دالة التجزئة على نوع عمود الحزم لديك.
- يجب أن تضع في اعتبارك أنه سيتم تخزين السجلات التي لها نفس عمود الحاوية في نفس المجموعة.
- تتطلب هذه الوظيفة استخدام عبارة Clustered By لتقسيم جدول إلى مجموعات.
- في دليل الجدول ، يستند ترقيم الحاوية إلى 1 وكل مجموعة عبارة عن ملف.
- الجرافات هي وظيفة قائمة بذاتها. هذا يعني أنه يمكنك إجراء الحزم دون إجراء تقسيم على طاولة.
- يقوم الجدول المجمّع بإنشاء أقسام ملف بيانات موزعة بشكل متساوٍ تقريبًا.
- لاحظ أن التخزين لا يضمن ملء طاولتك بشكل صحيح. لذلك سيتعين عليك إدارة تحميل البيانات في الحاويات بنفسك ، الأمر الذي قد يكون مرهقًا.
قراءة: Hive Vs Spark
الجرد في الخلية: المثال رقم 1
سيكون من الأفضل فهم الجرداء في الخلية باستخدام مثال. سنستخدم البيانات التالية كمثال لدينا:
EMPID | الاسم الأول | الكنية | رياضات | مدينة | بلد |
1001 | إمري | بلير | كرة سلة | قطوبولابور | سان مارينو |
1002 | زفر | ستيفنسون | كريكيت | نيرهارين | جمهورية الدومينيكان |
1003 | الخريف | فاصوليا | كرة سلة | نيرهارين | جمهورية الدومينيكان |
1004 | كاسمير | فانس | تنس الريشة | نيرهارين | جمهورية الدومينيكان |
1005 | موفوتاو | فلوريس | قطوبولابور | سان مارينو | |
1006 | ايانا | البنوك | كرة القدم | نيرهارين | جمهورية الدومينيكان |
1007 | سلمى | كرة | تنس | قطوبولابور | سان مارينو |
1008 | بيرك | أكمل | تنس الريشة | نيرهارين | جمهورية الدومينيكان |
1009 | إيموجين | تيريل | قطوبولابور | سان مارينو | |
1010 | كولورادو | هاتشينسون | تنس | قطوبولابور | سان مارينو |
تحتوي بيانات العينة الخاصة بنا على معلومات الموظف لفريق رياضي. ومع ذلك ، فإن بعض الموظفين ليسوا جزءًا من أي فريق.
إليك نموذج البيانات الذي يمكنك نسخه ولصقه لمتابعة هذا المثال:
المعرف ، الاسم الأول ، اسم العائلة ، الرياضة ، المدينة ، البلد
1001، Emerry، Blair، Basketball، Qutubullapur، San Marino
1002، Zephr، Stephenson، Cricket، Neerharen، جمهورية الدومينيكان
1003 ، الخريف ، الفول ، كرة السلة ، نيرهارين ، جمهورية الدومينيكان
1004، Kasimir، Vance، Badminton، Neerharen، Dominican Republic
1005 ، موفوتاو ، فلوريس ، كوتوبولابور ، سان مارينو
1006 ، Ayanna ، البنوك ، كرة القدم ، Neerharen ، جمهورية الدومينيكان
1007، سلمى، كرة، تنس، قطوبولابور، سان مارينو
1008، Berk، Fuller، Badminton، Neerharen، Dominican Republic
1009، Imogene، Terrell ،، Qutubullapur، San Marino
1010 ، كولورادو ، هاتشينسون ، تنس ، كوتوبولابور ، سان مارينو
نحن نعلم بالفعل أن التجميع يسمح لنا بتجميع مجموعات البيانات في أقسام أصغر من أجل التحسين. دعنا الآن نناقش كيف يكمل المرء هذه العملية:
إنشاء الجدول الأساسي
أولاً ، سننشئ جدولاً يسمى Employ_base:
إنشاء جدول db_bdpbase.employee_base (
امبليد INT ،
الاسم الأول STRING ،
اسم العائلة STRING ،
رياضة STRING ،
المدينة STRING ،
البلد STRING
)
تم تحديد تنسيق الصف
الحقول التي تم إنهاؤها بـ "،"
مخزنة على هيئة ملف نسيجي
TBLPROPERTIES (“skip.header.line.count” = ”1”) ؛
تحتوي بيانات العينة على رأس غير ضروري للتجميع ، لذلك سنقوم بإزالته عن طريق إضافة خاصية "skip header".
تحميل البيانات في الجدول الأساسي
سنستخدم الموقع '/usr/bdp/hive/sample_data.csv' لبيانات العينة الخاصة بنا ونستخدم الأمر التالي لتحميله في الجدول:
LOAD DATA INPATH '/user/bdp/hive/sample_data.csv' INTO TABLE db_bdpbase.employee_base ؛
إنشاء الجدول المعبأ
في هذا القسم ، سننشئ جدولًا مُجمَّعًا. الآن يمكننا إما إنشاء طاولة مجوفة بقسم أو بدون قسم.
طاولة مجوفة مع قسم
في هذه الحالة ، يكون البلد هو عمود التقسيم وقد قمنا بتجميع العمود المعياري الذي قمنا بفرزه بترتيب تصاعدي:
إنشاء جدول db_bdpbase.bucketed_partition_tbl (
ذكي INT ،
الاسم الأول STRING ،
اسم العائلة STRING ،
رياضة STRING ،
مدينة STRING
) مقسم حسب (البلد STRING)
مغلق بواسطة (إمبيد)
مرتبة حسب (ASC التجريبي) في 4 دلاء ؛
طاولة مجوفة بدون قسم
بدلاً من ذلك ، يمكننا إنشاء جدول مجزأ بدون قسم:
إنشاء جدول db_bdpbase.bucketed_tbl_only (
ذكي INT ،
الاسم الأول STRING ،
اسم العائلة STRING ،
المدينة STRING ،
البلد STRING
)
مغلق بواسطة (إمبيد)
مرتبة حسب (ASC التجريبي) في 4 دلاء ؛
هنا ، قمنا بتجميع الجدول في نفس العمود.
ضبط الخاصية
تم تعطيل الإعداد الافتراضي للجرافة في الخلية ، لذا قمنا بتمكينه من خلال تعيين قيمته على "صحيح". ستحدد الخاصية التالية عدد المجموعات والمخفضات وفقًا للجدول:
SET hive.enforce.bucketing = TRUE ، (غير مطلوب في Hive 2.x وما بعده)
تحميل البيانات في جدول الحزم
حتى الآن ، أنشأنا جدولين مجمعين وجدول أساسي ببيانات العينة الخاصة بنا. سنقوم الآن بتحميل البيانات في الجدول المجمّع من الجدول الأساسي باستخدام الأمر التالي في الجدول المجمّع مع القسم:
أدخل جدول الكتابة الكاملة db_bdpbase.bucketed_partition_tbl PARTITION (البلد) حدد * من db_bdpbase.employee_base ؛
لتحميل البيانات في الجدول المجمّع بدون أي قسم ، سنستخدم الأمر التالي:
أدخل جدول الكتابة فوق db_bdpbase.bucketed_tbl_only حدد * من db_bdpbase.employee_base ؛
التحقق من بيانات الجدول المعبأة
بعد تحميل البيانات في الجدول المجمّع ، سنتحقق من كيفية تخزينها في HDFS. سنستخدم الكود التالي للتحقق من الجدول الذي يحتوي على قسم:
hadoop fs -ls hdfs: //sandbox.hortonworks.com: 8020 / apps / hive / Warehouse / db_bdpbase.db / bucketed_partition_tbl
تخزين البيانات في جداول الحزم
يتم تعيين كل نقطة بيانات إلى نقطة محددة وفقًا للصيغة التالية:
دالة_وظيفة التجزئة (bucket_column) وضع عدد_باقة
الآن ، ضع في اعتبارك الجدول الأول الذي قمنا بتقسيمه بناءً على الدولة ، سيتم تقسيم بيانات العينة إلى الأقسام التالية:
EMPID | الاسم الأول | الكنية | رياضات | مدينة | بلد |
1002 | زفر | ستيفنسون | كريكيت | نيرهارين | جمهورية الدومينيكان |
1003 | الخريف | فاصوليا | كرة سلة | نيرهارين | جمهورية الدومينيكان |
1004 | كاسمير | فانس | تنس الريشة | نيرهارين | جمهورية الدومينيكان |
1006 | ايانا | البنوك | كرة القدم | نيرهارين | جمهورية الدومينيكان |
1008 | بيرك | أكمل | تنس الريشة | نيرهارين | جمهورية الدومينيكان |
EMPID | الاسم الأول | الكنية | رياضات | مدينة | بلد |
1001 | إمري | بلير | كرة سلة | قطوبولابور | سان مارينو |
1005 | موفوتاو | فلوريس | قطوبولابور | سان مارينو | |
1007 | سلمى | كرة | تنس | قطوبولابور | سان مارينو |
1009 | إيموجين | تيريل | قطوبولابور | سان مارينو | |
1010 | كولورادو | هاتشينسون | تنس | قطوبولابور | سان مارينو |
بالنسبة لـ Domincan Republic ، سيتم تخزين كل صف في الحاوية:
hash_function (1002) mode 4 = 2 (يمثل فهرس الدلو)
دالة hash_function (1003) الوضع 4 = 3
وضع دالة التجزئة (1004) 4 = 0
دالة hash_function (1006) الوضع 4 = 2
دالة hash_function (1008) الوضع 4 = 0
لاحظ أن دالة التجزئة لقيمة INT ستعطيك نفس النتيجة. يمكنك التحقق من البيانات الموجودة في كل ملف في موقع HDFS. إذا كنت تريد ، يمكنك تكرار هذه العملية للبلدان الأخرى الموجودة في قاعدة البيانات.
الجرد في الخلية: المثال رقم 2
نظرًا لأننا غطينا بالفعل مختلف الخطوات والإجراءات الموجودة في تنفيذ هذه الوظيفة ، يمكننا تجربتها بسهولة. ما يلي هو مثال بسيط على الجردل في الخلية. هنا ، قمنا فقط بتجميع البيانات المتاحة في أجزاء مختلفة حتى نتمكن من إدارتها بسهولة أكبر:
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> إنشاء جدول Monthly_taxi_fleet6
. . . . . . . . . . . . . . . . . . . . . . .> (حرف الشهر (7) ، الأسطول الصغير ، شركة varchar (50))
. . . . . . . . . . . . . . . . . . . . . . .> مجمعة حسب (الشركة) في 3 دلاء
. . . . . . . . . . . . . . . . . . . . . . .> مخزنة بصيغة avro ؛
مثال باستخدام Apache Hive الإصدار 1.1.0-cdh5.13.1 ، hive.enforce.bucketing = false افتراضيًا
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> أدخل في Monthly_taxi_fleet6
. . . . . . . . . . . . . . . . . . . . . . .> حدد الشهر ، الأسطول ، الشركة من month_taxi_fleet ؛
[Upgrade @ cdh-vm ~] $ hdfs dfs -ls -R / user / hive / Warehouse / Monthly_taxi_fleet6
-rwxrwxrwt 1 ترقية خلية 25483 2017-12-26 10:40 / مستخدم / خلية / مستودع / Monthly_taxi_fleet6 / 000000_0
- hive.enforce.bucketing: سواء تم فرض الحشو أم لا. إذا كان هذا صحيحًا ، أثناء الإدراج في الجدول ، يتم فرض الحاويات.
- القيمة الافتراضية: الخلية 0.x: خطأ ، الخلية 1.x: خطأ ، الخلية 2.x: تمت إزالتها ، مما يجعلها دائمًا صحيحة (HIVE-12331)
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> set hive.enforce.bucketing = true ؛
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> أدخل في Monthly_taxi_fleet6
. . . . . . . . . . . . . . . . . . . . . . .> حدد الشهر ، الأسطول ، الشركة من month_taxi_fleet ؛
[Upgrade @ cdh-vm ~] $ hdfs dfs -ls -R / user / hive / Warehouse / Monthly_taxi_fleet6
-rwxrwxrwt 1 ترقية خلية 13611 2017-12-26 10:43 / مستخدم / خلية / مستودع / Monthly_taxi_fleet6 / 000000_0
-rwxrwxrwt 1 ترقية خلية 6077 2017-12-26 10:43 / مستخدم / خلية / مستودع / Monthly_taxi_fleet6 / 000001_0
-rwxrwxrwt 1 ترقية خلية 6589 2017-12-26 10:43 / مستخدم / خلية / مستودع / Monthly_taxi_fleet6 / 000002_0
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> وصف الممددة الشهرية_taxi_fleet6 ؛
+ —————————– + ——————————————————- + ———- + - +
| col_name | نوع البيانات | تعليق |
+ —————————– + ——————————————————- + ———- + - +
| الشهر | شار (7) | |
| أسطول | int | |
| شركة | فارشار (50) | |
| | NULL | NULL |
| معلومات الجدول التفصيلية | جدول (اسم الجدول: month_taxi_fleet6 ، dbName: افتراضي ، مالك: ترقية ، إنشاء الوقت: 1514256031 ، lastAccessTime: 0 ، الاحتفاظ: 0 ، sd: StorageDescriptor (cols: [FieldSchema (name: month ، type: char (7) ، تعليق: null) ، FieldSchema (الاسم: الأسطول ، النوع: smallint ، التعليق: فارغ) ، FieldSchema (الاسم: الشركة ، النوع: varchar (50) ، التعليق: null)] ، الموقع: hdfs: //cdh-vm.dbaglobe.com: 8020 / user / hive / Warehouse / Monthly_taxi_fleet6، inputFormat: org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat، outputFormat: org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat، المضغوط: : 3، serdeInfo: SerDeInfo (الاسم: null، serializationLib: org.apache.hadoop.hive.serde2.avro.AvroSerDe، المعلمات: {serialization.format = 1})، bucketCols: [company]، sortCols: []، parameters : {}، skewedInfo: SkewedInfo (skewedColNames: []، skewedColValues: []، skewedColValueLocationMaps: {})، storeAsSubDirectories: false)، partitionKeys: []، المعلمات: {totalSize = 26277، numRows = 1128، rawDataCize = 26277، numRows = 1128، rawDataCize = 0 = صحيح ، numFiles = 3 ، tra nsient_lastDdlTime = 1514256192}، viewOriginalText: null، viewExpandedText: null، tableType: MANAGED_TABLE) | |
+ —————————– + ——————————————————- + ———- + - +
تم تحديد 5 صفوف (0.075 ثانية)
تسجيل الخروج: أسئلة مقابلة الخلية الأساسية
الجرد في الخلية: المثال رقم 3
يوجد أدناه مثال متقدم قليلاً عن الجرداء في الخلية. هنا ، قمنا بإجراء التقسيم واستخدمنا وظيفة Sorted By لجعل الوصول إلى البيانات أكثر سهولة. هذا من بين أكبر مزايا الجرافات. يمكنك استخدامه مع وظائف أخرى لإدارة مجموعات البيانات الكبيرة بشكل أكثر كفاءة وفعالية.
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> إنشاء جدول Monthly_taxi_fleet7
. . . . . . . . . . . . . . . . . . . . . . .> (حرف شهر (7) ، أسطول صغير)
. . . . . . . . . . . . . . . . . . . . . . .> مقسم من قبل (شركة varchar (50)).
. . . . . . . . . . . . . . . . . . . . . . .> مجمعة حسب (شهر) مرتبة حسب (شهر) في 3 دلاء
. . . . . . . . . . . . . . . . . . . . . . .> مخزنة بصيغة avro ؛
0: jdbc: hive2: //cdh-vm.dbaglobe.com: 10000 / def> إدراجها في Monthly_taxi_fleet7
. . . . . . . . . . . . . . . . . . . . . . .> قسم (شركة).
. . . . . . . . . . . . . . . . . . . . . . .> حدد الشهر ، الأسطول ، الشركة من month_taxi_fleet ؛
[Upgrade @ cdh-vm ~] $ hdfs dfs -ls -R / user / hive / Warehouse / Monthly_taxi_fleet7
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = CityCab
-rwxrwxrwt 1 ترقية الخلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = CityCab / 000000_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = CityCab / 000001_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = CityCab / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = راحة
-rwxrwxrwt 1 ترقية الخلية 913 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = الراحة / 000000_0
-rwxrwxrwt 1 ترقية الخلية 913 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = الراحة / 000001_0
-rwxrwxrwt 1 ترقية الخلية 913 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = الراحة / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = فردي أصفر- أعلى
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = فردي أصفر- أعلى / 000000_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = فردي أصفر- أعلى / 000001_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = فرد أصفر- أعلى / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Premier
-rwxrwxrwt 1 ترقية الخلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Premier / 000000_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Premier / 000001_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Premier / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Prime
-rwxrwxrwt 1 ترقية الخلية 765 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Prime / 000000_0
-rwxrwxrwt 1 ترقية خلية 765 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Prime / 000001_0
-rwxrwxrwt 1 ترقية خلية 766 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Prime / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = SMRT
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = SMRT / 000000_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = SMRT / 000001_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = SMRT / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = ذكي
-rwxrwxrwt 1 ترقية خلية 720 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Smart / 000000_0
-rwxrwxrwt 1 ترقية خلية 719 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Smart / 000001_0
-rwxrwxrwt 1 ترقية خلية 719 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = Smart / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = TransCab
-rwxrwxrwt 1 ترقية الخلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = TransCab / 000000_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = TransCab / 000001_0
-rwxrwxrwt 1 ترقية خلية 865 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = TransCab / 000002_0
drwxrwxrwt - ترقية الخلية 0 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = YTC
-rwxrwxrwt 1 ترقية خلية 432 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = YTC / 000000_0
-rwxrwxrwt 1 ترقية خلية 432 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = YTC / 000001_0
-rwxrwxrwt 1 ترقية خلية 432 2017-12-26 11:05 / مستخدم / خلية / مستودع / Monthly_taxi_fleet7 / شركة = YTC / 000002_0
تعرف على المزيد حول التقسيم والجرافة في الخلية
في الأمثلة التي شاركناها من قبل ، أجرينا التقسيم والتجميع في Hive بطرق متعددة وتعلمنا كيف يمكنك تنفيذها في Hive. ومع ذلك ، تحتوي Apache Hive على العديد من الوظائف الأخرى وقد يكون التعرف عليها جميعًا أمرًا شاقًا للغاية.
لهذا السبب نوصي بأخذ دورة هندسة البيانات. سيسمح لك بالدراسة من خبراء الصناعة الذين أمضوا سنوات في هذه الصناعة. توفر لك الدورة التدريبية منهجًا منظمًا حيث تتعلم كل شيء خطوة بخطوة. في upGrad ، نقدم دورات مخصصة لهندسة البيانات .
من خلال دوراتنا ، يمكنك الوصول إلى ركن نجاح الطلاب في upGrad حيث تحصل على ملاحظات شخصية عن السيرة الذاتية ، والتحضير للمقابلة ، والاستشارات المهنية ، والعديد من المزايا الأخرى.
بعد الانتهاء من الدورة ، ستكون محترفًا ماهرًا في هندسة البيانات.
خاتمة
الجرد في Hive بسيط جدًا وسهل التنفيذ. إنها بالتأكيد وظيفة مفيدة لمجموعات البيانات الكبيرة. ومع ذلك ، عند إجراء كل من التقسيم والجرافة في Hive معًا ، يمكنك إدارة مجموعات البيانات الضخمة بسهولة بالغة.
إذا كنت مهتمًا بمعرفة المزيد عن برنامج البيانات الضخمة ، فراجع دبلومة PG في تخصص تطوير البرمجيات في برنامج البيانات الضخمة المصمم للمهنيين العاملين ويوفر أكثر من 7 دراسات حالة ومشاريع ، ويغطي 14 لغة وأدوات برمجة ، وأيدٍ عملية- في ورش العمل ، أكثر من 400 ساعة من التعلم الصارم والمساعدة في التوظيف مع الشركات الكبرى.
إذا كان لديك أي أسئلة أو أفكار بشأن الحشو ، فقم بمشاركتها في التعليقات أدناه. نحب أن نسمع منك.
تحقق من دورات هندسة البرمجيات الأخرى لدينا في upGrad.