Bucketing in Hive: Bucketed-Tabelle in Hive erstellen

Veröffentlicht: 2021-02-17

Die Arbeit mit einem großen Datensatz kann eine Herausforderung darstellen. Es gibt viel zu beachten und ein kleiner Fehler kann Ihren gesamten Arbeitsablauf stören. Eines der bekanntesten Tools zur Verwaltung großer Datenmengen ist Bucketing.

In diesem Artikel erfahren Sie, wie Sie Bucketing in Hive durchführen können. Wir werden mehrere Implementierungen dieser Funktion anhand von Beispielen untersuchen.

Inhaltsverzeichnis

Was ist Bucketing in Hive?

Bucketing ist eine Datenorganisationstechnik. Während Partitionierung und Bucketing in Hive ziemlich ähnliche Konzepte sind, bietet Bucketing die zusätzliche Funktionalität, große Datasets in kleinere und besser zu verwaltende Gruppen, sogenannte Buckets, aufzuteilen.

Mit Bucketing in Hive können Sie einen Tabellendatensatz in kleinere Teile zerlegen, wodurch diese einfacher zu handhaben sind. Mit Bucketing können Sie ähnliche Datentypen gruppieren und in eine einzige Datei schreiben, was Ihre Leistung beim Zusammenführen von Tabellen oder beim Lesen von Daten verbessert. Dies ist ein wichtiger Grund, warum wir meistens Bucketing mit Partitionierung verwenden.

Wann verwenden wir Bucketing?

Bucketing ist eine sehr nützliche Funktion. Wenn Sie es noch nie verwendet haben, sollten Sie die folgenden Punkte beachten, um zu bestimmen, wann Sie diese Funktion verwenden sollten:

Wenn eine Spalte eine hohe Kardinalität hat, können wir sie nicht partitionieren. Eine sehr hohe Anzahl von Partitionen generiert zu viele Hadoop-Dateien, was die Last auf dem Knoten erhöhen würde. Das liegt daran, dass der Knoten die Metadaten jeder Partition behalten muss, und das würde die Leistung dieses Knotens beeinträchtigen.
Sie sollten Bucketing verwenden, wenn Ihre Abfragen mehrere kartenseitige Joins haben. Ein kartenseitiger Join ist ein Prozess, bei dem Sie zwei Tabellen verbinden, indem Sie nur die Kartenfunktion verwenden, ohne die Reduzierfunktion zu verwenden.

Höhepunkte des Bucketing in Hive

Bucketing basiert auf der Hashing-Funktion und hat daher folgende Highlights:

Die hash_function hängt von der Art der Bucketing-Spalte ab, die Sie haben.
Sie sollten bedenken, dass die Datensätze mit derselben Bucket-Spalte im selben Bucket gespeichert würden.
Diese Funktion erfordert, dass Sie die Clustered By-Klausel verwenden, um eine Tabelle in Buckets zu unterteilen.
Im Tabellenverzeichnis ist die Bucket-Nummerierung 1-basiert und jeder Bucket ist eine Datei.
Bucketing ist eine eigenständige Funktion. Das bedeutet, dass Sie Bucketing durchführen können, ohne eine Tabelle zu partitionieren.
Eine Bucket-Tabelle erstellt nahezu gleichmäßig verteilte Datendateiabschnitte.
Beachten Sie, dass Bucketing nicht sicherstellt, dass Ihre Tabelle ordnungsgemäß gefüllt wird. Sie müssen also das Laden der Daten in die Buckets selbst verwalten, was umständlich sein kann.

Lesen Sie: Hive Vs Spark

Bucketing in Hive: Beispiel #1

Bucketing in Hive lässt sich am besten anhand eines Beispiels verstehen. Wir verwenden die folgenden Daten für unser Beispiel:

EMPID	VORNAME	FAMILIENNAME, NACHNAME	SPORT	STADT	LAND
1001	Emmerich	Blair	Basketball	Qutubulapur	San Marino
1002	Zephr	Stephenson	Kricket	Neerharen	Dominikanische Republik
1003	Herbst	Bohne	Basketball	Neerharen	Dominikanische Republik
1004	Kasimir	Vance	Badminton	Neerharen	Dominikanische Republik
1005	Mufutau	Flores		Qutubulapur	San Marino
1006	Ajanna	Banken	Football	Neerharen	Dominikanische Republik
1007	Selma	Ball	Tennis	Qutubulapur	San Marino
1008	Berk	Voller	Badminton	Neerharen	Dominikanische Republik
1009	Imogen	Terrell		Qutubulapur	San Marino
1010	Colorado	Hutchinson	Tennis	Qutubulapur	San Marino

Unsere Beispieldaten enthalten Mitarbeiterinformationen für ein Sportteam. Einige der Mitarbeiter gehören jedoch keinem Team an.

Hier sind die Beispieldaten, die Sie kopieren und einfügen können, um diesem Beispiel zu folgen:

ID, Vorname, Nachname, Sport, Stadt, Land

1001, Emerry, Blair, Basketball, Qutubullapur, San Marino

1002, Zephr, Stephenson, Cricket, Neerharen, Dominikanische Republik

1003, Herbst, Bohne, Basketball, Neerharen, Dominikanische Republik

1004, Kasimir, Vance, Badminton, Neerharen, Dominikanische Republik

1005, Mufutau, Flores, Qutubullapur, San Marino

1006, Ayanna, Banken, Fußball, Neerharen, Dominikanische Republik

1007, Selma, Ball, Tennis, Qutubullapur, San Marino

1008, Berk, Fuller, Badminton, Neerharen, Dominikanische Republik

1009, Imogene, Terrell, Qutubullapur, San Marino

1010, Colorado, Hutchinson, Tennis, Qutubullapur, San Marino

Wir wissen bereits, dass Bucketing es uns ermöglicht, Datensätze zur Optimierung in kleinere Abschnitte zu gruppieren. Lassen Sie uns nun besprechen, wie man diesen Prozess abschließt:

Erstellen der Basistabelle

Zuerst erstellen wir eine Tabelle namens employee_base:

TABELLE ERSTELLEN db_bdpbase.employee_base (

emplid INT,

Vorname STRING,

Nachname STRING,

sport STRING,

Stadt STRING,

Land STRING

)

ZEILENFORMAT ABGESCHLOSSEN

MIT ',' ABGESCHLOSSENE FELDER

ALS TEXTDATEI GESPEICHERT

TBLPROPERTIES(“skip.header.line.count”=”1”);

Unsere Beispieldaten haben einen Header, der für das Bucketing nicht benötigt wird, daher entfernen wir ihn, indem wir die Eigenschaft „header überspringen“ hinzufügen.

Laden der Daten in die Basistabelle

Wir verwenden den Speicherort „/usr/bdp/hive/sample_data.csv“ für unsere Beispieldaten und verwenden den folgenden Befehl, um sie in die Tabelle zu laden:

DATEN INPATH '/user/bdp/hive/sample_data.csv' IN TABELLE db_bdpbase.employee_base LADEN;

Erstellen der Bucket-Tabelle

In diesem Abschnitt erstellen wir eine Bucket-Tabelle. Jetzt können wir entweder eine Bucket-Tabelle mit einer Partition oder ohne Partition erstellen.

Eimertisch mit Trennwand

In diesem Fall ist das Land die Partitionsspalte und wir haben die empid-Spalte, die wir in aufsteigender Reihenfolge sortiert haben, gebuckelt:

TABELLE ERSTELLEN db_bdpbase.bucketed_partition_tbl (

empid INT,

Vorname STRING,

Nachname STRING,

sport STRING,

Stadt STRING

) PARTITIONIERT NACH(Land STRING)

CLUSTERED BY (empid)

SORTIERT NACH (empid ASC) IN 4 EIMER;

Bucket-Tabelle ohne Partition

Alternativ können wir eine Bucket-Tabelle ohne Partition erstellen:

TABELLE ERSTELLEN db_bdpbase.bucketed_tbl_only (

empid INT,

Vorname STRING,

Nachname STRING,

Stadt STRING,

Land STRING

)

CLUSTERED BY (empid)

SORTIERT NACH (empid ASC) IN 4 EIMER;

Hier haben wir die Tabelle auf dieselbe Spalte empid gebuckelt.

Festlegen der Eigenschaft

Die Standardeinstellung für Bucketing in Hive ist deaktiviert, also haben wir sie aktiviert, indem wir ihren Wert auf „true“ gesetzt haben. Die folgende Eigenschaft würde die Anzahl der Cluster und Reducer gemäß der Tabelle auswählen:

SET hive.enforce.bucketing=TRUE; (NICHT erforderlich IN Hive 2.x und höher)

Laden von Daten in die Bucket-Tabelle

Bisher haben wir zwei Bucket-Tabellen und eine Basistabelle mit unseren Beispieldaten erstellt. Jetzt laden wir die Daten aus der Basistabelle in die Bucket-Tabelle, indem wir den folgenden Befehl in der Bucket-Tabelle mit Partition verwenden:

INSERT OVERWRITE TABLE db_bdpbase.bucketed_partition_tbl PARTITION (Land) SELECT * FROM db_bdpbase.employee_base;

Um Daten ohne Partition in die Bucket-Tabelle zu laden, verwenden wir den folgenden Befehl:

TABELLE ÜBERSCHREIBEN EINFÜGEN db_bdpbase.bucketed_tbl_only SELECT * FROM db_bdpbase.employee_base;

Überprüfen der Bucketed-Tabellendaten

Nach dem Laden der Daten in die Bucket-Tabelle prüfen wir, wie sie im HDFS gespeichert werden. Wir verwenden den folgenden Code, um die Bucket-Tabelle mit Partition zu überprüfen:

hadoop fs -ls hdfs://sandbox.hortonworks.com:8020/apps/hive/warehouse/db_bdpbase.db/bucketed_partition_tbl

Datenspeicherung in Bucket-Tabellen

Jeder Datenpunkt wird nach folgender Formel einem bestimmten zugeordnet:

hash_function(bucket_column) Modus num_bucket

Betrachten Sie nun die erste Tabelle, die wir nach Ländern partitioniert haben. Unsere Beispieldaten werden in die folgenden Abschnitte unterteilt:

EMPID	VORNAME	FAMILIENNAME, NACHNAME	SPORT	STADT	LAND
1002	Zephr	Stephenson	Kricket	Neerharen	Dominikanische Republik
1003	Herbst	Bohne	Basketball	Neerharen	Dominikanische Republik
1004	Kasimir	Vance	Badminton	Neerharen	Dominikanische Republik
1006	Ajanna	Banken	Football	Neerharen	Dominikanische Republik
1008	Berk	Voller	Badminton	Neerharen	Dominikanische Republik

EMPID	VORNAME	FAMILIENNAME, NACHNAME	SPORT	STADT	LAND
1001	Emmerich	Blair	Basketball	Qutubulapur	San Marino
1005	Mufutau	Flores		Qutubulapur	San Marino
1007	Selma	Ball	Tennis	Qutubulapur	San Marino
1009	Imogen	Terrell		Qutubulapur	San Marino
1010	Colorado	Hutchinson	Tennis	Qutubulapur	San Marino

Für die Dominikanische Republik wird jede Zeile im Bucket gespeichert:

hash_function(1002) mode 4 = 2 (Repräsentiert den Index des Buckets)

hash_function(1003) Modus 4 = 3

hash_function(1004) Modus 4 = 0

hash_function(1006) Modus 4 = 2

hash_function(1008) Modus 4 = 0

Beachten Sie, dass die hash_function des INT-Werts dasselbe Ergebnis liefert. Sie können die Daten in jeder Datei am HDFS-Speicherort überprüfen. Wenn Sie möchten, können Sie diesen Vorgang für andere in der Datenbank vorhandene Länder wiederholen.

Bucketing in Hive: Beispiel #2

Da wir bereits die verschiedenen Schritte und Verfahren zur Implementierung dieser Funktion behandelt haben, können wir sie leicht ausprobieren. Das Folgende ist ein einfaches Beispiel für Bucketing in Hive. Hier haben wir die verfügbaren Daten nur in verschiedene Teile aufgeteilt, damit wir sie einfacher verwalten können:

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> erstelle Tabellemonthly_taxi_fleet6

. . . . . . . . . . . . . . . . . . . . . . .> (Monat char(7),fleet smallint,company varchar(50))

. . . . . . . . . . . . . . . . . . . . . . .> geclustert von (Unternehmen) in 3 Buckets

. . . . . . . . . . . . . . . . . . . . . . .> gespeichert als avro;

Beispiel mit Apache Hive Version 1.1.0-cdh5.13.1, standardmäßig hive.enforce.bucketing=false

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> einfügen inmonthly_taxi_fleet6

. . . . . . . . . . . . . . . . . . . . . . .> wählen Sie Monat, Flotte, Unternehmen aus month_taxi_fleet;

[upgrad@cdh-vm ~]$ hdfs dfs -ls -R /user/hive/warehouse/monthly_taxi_fleet6

-rwxrwxrwt 1 upgrade hive 25483 2017-12-26 10:40 /user/hive/warehouse/monthly_taxi_fleet6/000000_0

— hive.enforce.bucketing: Ob Bucketing erzwungen wird. Wenn wahr, wird beim Einfügen in die Tabelle Bucketing erzwungen.

— Standardwert: Hive 0.x: falsch, Hive 1.x: falsch, Hive 2.x: entfernt, wodurch es effektiv immer wahr wird (HIVE-12331)

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> set hive.enforce.bucketing=true;

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> einfügen inmonthly_taxi_fleet6

. . . . . . . . . . . . . . . . . . . . . . .> wählen Sie Monat, Flotte, Unternehmen aus month_taxi_fleet;

[upgrad@cdh-vm ~]$ hdfs dfs -ls -R /user/hive/warehouse/monthly_taxi_fleet6

-rwxrwxrwt 1 upgrade hive 13611 2017-12-26 10:43 /user/hive/warehouse/monthly_taxi_fleet6/000000_0

-rwxrwxrwt 1 upgrade hive 6077 2017-12-26 10:43 /user/hive/warehouse/monthly_taxi_fleet6/000001_0

-rwxrwxrwt 1 upgrade hive 6589 2017-12-26 10:43 /user/hive/warehouse/monthly_taxi_fleet6/000002_0

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> Beschreibe Extended Monthly_taxi_fleet6;

+—————————–+—————————————————-+———-+–+

| Spaltenname | Datentyp | Kommentar |

+—————————–+—————————————————-+———-+–+

| Monat | Zeichen(7) | |

| Flotte | int | |

| Firma | varchar(50) | |

| | NULL | NULL |

| Detaillierte Tabelleninformationen | Table(tableName:monthly_taxi_fleet6, dbName:default, owner:upgrad, createTime:1514256031, lastAccessTime:0, Retention:0, sd:StorageDescriptor(cols:[FieldSchema(name:month, type:char(7), comment:null) , FieldSchema(name:fleet, type:smallint, comment:null), FieldSchema(name:company, type:varchar(50), comment:null)], location:hdfs://cdh-vm.dbaglobe.com:8020 /user/hive/warehouse/monthly_taxi_fleet6, inputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat, komprimiert:false, numBuckets :3, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.avro.AvroSerDe, parameter:{serialization.format=1}), BucketCols:[Firma], sortCols:[], Parameter :{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), savedAsSubDirectories:false), partitionKeys:[], parameters:{totalSize=26277, numRows=1128, rawDataSize=0, COLUMN_STATS_ACCURATE =true, numFiles=3, tra nsient_lastDdlTime=1514256192}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE) | |

+—————————–+—————————————————-+———-+–+

5 Zeilen ausgewählt (0,075 Sekunden)

Checkout: Grundlegende Hive-Interviewfragen

Bucketing in Hive: Beispiel #3

Unten ist ein etwas erweitertes Beispiel für Bucketing in Hive. Hier haben wir eine Partitionierung durchgeführt und die Funktion „Sortiert nach“ verwendet, um die Daten zugänglicher zu machen. Dies ist einer der größten Vorteile des Buckets. Sie können es mit anderen Funktionen verwenden, um große Datensätze effizienter und effektiver zu verwalten.

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> erstelle Tabellemonthly_taxi_fleet7

. . . . . . . . . . . . . . . . . . . . . . .> (Monat char(7),fleet smallint)

. . . . . . . . . . . . . . . . . . . . . . .> partitioniert durch (Firma varchar(50))

. . . . . . . . . . . . . . . . . . . . . . .> gruppiert nach (Monat) sortiert nach (Monat) in 3 Buckets

. . . . . . . . . . . . . . . . . . . . . . .> gespeichert als avro;

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> einfügen inmonthly_taxi_fleet7

. . . . . . . . . . . . . . . . . . . . . . .> Partition (Firma)

. . . . . . . . . . . . . . . . . . . . . . .> wählen Sie Monat, Flotte, Unternehmen aus month_taxi_fleet;

[upgrad@cdh-vm ~]$ hdfs dfs -ls -R /user/hive/warehouse/monthly_taxi_fleet7

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=CityCab

-rwxrwxrwt 1 upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=CityCab/000000_0

-rwxrwxrwt 1 upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=CityCab/000001_0

-rwxrwxrwt 1 upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=CityCab/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Comfort

-rwxrwxrwt 1 upgrade hive 913 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Comfort/000000_0

-rwxrwxrwt 1 upgrade hive 913 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Comfort/000001_0

-rwxrwxrwt 1 upgrade hive 913 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Comfort/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top

-rwxrwxrwt 1 upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top/000000_0

-rwxrwxrwt 1 upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top/000001_0

-rwxrwxrwt 1 upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Premier

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Premier/000000_0

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Premier/000001_0

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Premier/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Prime

-rwxrwxrwt 1 Upgrade Hive 765 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Prime/000000_0

-rwxrwxrwt 1 Upgrade hive 765 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Prime/000001_0

-rwxrwxrwt 1 Upgrade hive 766 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Prime/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=SMRT

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=SMRT/000000_0

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=SMRT/000001_0

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=SMRT/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Smart

-rwxrwxrwt 1 Upgrade hive 720 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Smart/000000_0

-rwxrwxrwt 1 Upgrade hive 719 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Smart/000001_0

-rwxrwxrwt 1 Upgrade hive 719 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Smart/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=TransCab

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=TransCab/000000_0

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=TransCab/000001_0

-rwxrwxrwt 1 Upgrade hive 865 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=TransCab/000002_0

drwxrwxrwt – upgrade hive 0 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=YTC

-rwxrwxrwt 1 Upgrade hive 432 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=YTC/000000_0

-rwxrwxrwt 1 Upgrade hive 432 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=YTC/000001_0

-rwxrwxrwt 1 Upgrade hive 432 2017-12-26 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=YTC/000002_0

Erfahren Sie mehr über Partitionierung und Bucketing in Hive

In den Beispielen, die wir zuvor geteilt haben, haben wir Partitionierung und Bucketing in Hive auf verschiedene Weise durchgeführt und erfahren, wie Sie sie in Hive implementieren können. Apache Hive hat jedoch viele andere Funktionalitäten und es kann ziemlich entmutigend sein, sie alle kennenzulernen.

Deshalb empfehlen wir die Teilnahme an einem Data-Engineering-Kurs. Es würde Ihnen ermöglichen, von Branchenexperten zu lernen, die Jahre in dieser Branche verbracht haben. Ein Kurs bietet Ihnen einen strukturierten Lehrplan, in dem Sie Schritt für Schritt alles lernen. Bei upGrad bieten wir spezielle Data-Engineering-Kurse an .

Mit unseren Kursen erhalten Sie Zugang zum Student Success Corner von upGrad, wo Sie personalisiertes Feedback zum Lebenslauf, Vorbereitung auf ein Vorstellungsgespräch, Karriereberatung und viele andere Vorteile erhalten.

Nach Abschluss des Kurses sind Sie ein erfahrener Data Engineering-Profi.

Fazit

Bucketing in Hive ist sehr einfach und leicht durchzuführen. Es ist sicherlich eine nützliche Funktion für große Datensätze. Wenn Sie jedoch sowohl Partitionierung als auch Bucketing in Hive zusammen durchführen, können Sie ziemlich große Datensätze sehr einfach verwalten.

Wenn Sie mehr über das Big Data-Programm erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt, praktische Hand- auf Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.

Wenn Sie Fragen oder Gedanken zum Bucketing haben, teilen Sie diese in den Kommentaren unten mit. Wir würden uns freuen, von Ihnen zu hören.

Sehen Sie sich unsere anderen Softwareentwicklungskurse bei upGrad an.

Bilden Sie sich weiter und machen Sie sich bereit für die Zukunft

Fortgeschrittenes Zertifikatsprogramm in Big Data vom IIIT Bangalore