Bucketing di Hive: Buat Tabel Bucketed di Hive

Diterbitkan: 2021-02-17

Bekerja dengan kumpulan data yang besar dapat menjadi tantangan. Ada banyak hal yang harus dilacak dan satu kesalahan kecil dapat mengganggu seluruh alur kerja Anda. Salah satu alat paling menonjol untuk mengelola kumpulan data besar adalah bucketing.

Artikel ini akan memberi tahu Anda tentang cara melakukan bucketing di Hive. Kami akan mengeksplorasi beberapa implementasi fungsi ini melalui contoh.

Daftar isi

Apa itu Bucketing di Hive?

Bucketing adalah teknik organisasi data. Sementara partisi dan bucketing di Hive adalah konsep yang sangat mirip, bucketing menawarkan fungsionalitas tambahan untuk membagi kumpulan data besar menjadi kumpulan yang lebih kecil dan lebih mudah dikelola yang disebut ember.

Dengan bucketing di Hive, Anda dapat menguraikan kumpulan data tabel menjadi bagian-bagian yang lebih kecil, membuatnya lebih mudah untuk ditangani. Bucketing memungkinkan Anda untuk mengelompokkan tipe data yang serupa dan menulisnya ke satu file, yang meningkatkan kinerja Anda saat menggabungkan tabel atau membaca data. Ini adalah alasan utama mengapa kami sering menggunakan bucketing dengan partisi.

Kapan Kita Menggunakan Bucketing?

Bucketing adalah fungsi yang sangat berguna. Jika Anda belum pernah menggunakannya sebelumnya, Anda harus mengingat poin-poin berikut untuk menentukan kapan harus menggunakan fungsi ini:

  • Ketika sebuah kolom memiliki kardinalitas tinggi, kita tidak dapat melakukan partisi pada kolom tersebut. Jumlah partisi yang sangat tinggi akan menghasilkan terlalu banyak file Hadoop yang akan menambah beban pada node. Itu karena node harus menyimpan metadata dari setiap partisi, dan itu akan mempengaruhi kinerja node tersebut.
  • Anda harus menggunakan bucketing jika kueri Anda memiliki beberapa gabungan sisi peta. Gabung sisi peta adalah proses di mana Anda menggabungkan dua tabel dengan hanya menggunakan fungsi peta tanpa menggunakan fungsi perkecil.

Sorotan Bucketing di Hive

Bucketing didasarkan pada fungsi hashing sehingga memiliki sorotan berikut:

  • Fungsi hash_bergantung pada jenis kolom bucket yang Anda miliki.
  • Anda harus ingat bahwa Catatan dengan kolom dalam ember yang sama akan disimpan dalam ember yang sama.
  • Fungsi ini mengharuskan Anda menggunakan klausa Clustered By untuk membagi tabel ke dalam ember.
  • Di direktori tabel, penomoran Bucket berbasis 1 dan setiap bucket adalah file.
  • Bucketing adalah fungsi yang berdiri sendiri. Ini berarti Anda dapat melakukan bucketing tanpa melakukan partisi pada tabel.
  • Tabel bucket membuat bagian file data yang terdistribusi hampir sama.
  • Perhatikan bahwa bucketing tidak memastikan tabel Anda akan terisi dengan benar. Jadi, Anda harus mengelola Pemuatan Data ke dalam ember sendiri, yang bisa jadi tidak praktis.

Baca: Hive Vs Spark

Bucketing di Hive: Contoh #1

Akan lebih baik untuk memahami bucketing di Hive dengan menggunakan sebuah contoh. Kami akan menggunakan data berikut untuk contoh kami:

EMPID NAMA DEPAN NAMA KELUARGA OLAHRAGA KOTA NEGARA
1001 Emerry Blair Bola basket Qutubulapur San Marino
1002 Zephr Stephenson Jangkrik Neerharen Republik Dominika
1003 Musim gugur Kacang Bola basket Neerharen Republik Dominika
1004 Kasimir Vance Bulu tangkis Neerharen Republik Dominika
1005 mufutau Flores Qutubulapur San Marino
1006 Ayana Bank Sepak bola Neerharen Republik Dominika
1007 Selma Bola Tenis Qutubulapur San Marino
1008 Berk lebih lengkap Bulu tangkis Neerharen Republik Dominika
1009 imogene Terrel Qutubulapur San Marino
1010 Colorado Hutchinson Tenis Qutubulapur San Marino

Data sampel kami berisi informasi karyawan untuk tim olahraga. Namun, beberapa karyawan bukan bagian dari tim mana pun.

Berikut contoh data yang dapat Anda salin-tempel untuk diikuti dengan contoh ini:

id,Nama Depan,Nama Belakang,Olahraga,Kota,Negara

1001, Emerry, Blair, Bola Basket, Qutubulapur, San Marino

1002, Zephr, Stephenson, Cricket, Neerharen, Republik Dominika

1003, Musim Gugur, Kacang, Bola Basket, Neerharen, Republik Dominika

1004, Kasimir, Vance, Badminton, Neerharen, Republik Dominika

1005, Mufutau, Flores, Qutubulapur, San Marino

1006, Ayanna, Banks, Sepak Bola, Neerharen, Republik Dominika

1007, Selma, Bola, Tenis, Qutubullapur, San Marino

1008, Berk, Fuller, Badminton, Neerharen, Republik Dominika

1009,Imogene,Terrel,,Qutubulapur,San Marino

1010, Colorado, Hutchinson, Tenis, Qutubulapur, San Marino

Kita sudah tahu bahwa bucketing memungkinkan kita untuk mengelompokkan kumpulan data menjadi bagian yang lebih kecil untuk pengoptimalan. Sekarang mari kita bahas bagaimana seseorang menyelesaikan proses ini:

Membuat Tabel Dasar

Pertama, kita akan membuat tabel bernama employee_base:

BUAT TABEL db_bdpbase.employee_base (

INT tegas,

nama depan STRING,

nama belakang STRING,

olahraga STRING,

kota STRING,

negara STRING

)

FORMAT BARIS DIBATASI

BIDANG DIHENTIKAN OLEH ','

DISIMPAN SEBAGAI FILE TEKS

TBLPROPERTIES(“skip.header.line.count”=”1”);

Data sampel kami memiliki tajuk yang tidak diperlukan untuk pengelompokan, jadi kami akan menghapusnya dengan menambahkan properti 'lewati tajuk'.

Memuat data ke dalam Tabel Dasar

Kami akan menggunakan lokasi '/usr/bdp/hive/sample_data.csv' untuk data sampel kami dan menggunakan perintah berikut untuk memuatnya ke dalam tabel:

LOAD DATA INPATH '/user/bdp/hive/sample_data.csv' KE TABEL db_bdpbase.employee_base;

Membuat Tabel Bucket

Di bagian ini, kita akan membuat tabel ember. Sekarang kita bisa membuat tabel ember dengan partisi atau tanpa partisi.

Tabel Bucket Dengan Partisi

Dalam hal ini, negara adalah kolom partisi dan kami telah memasukkan kolom empid yang kami urutkan dalam urutan menaik:

BUAT TABEL db_bdpbase.bucketed_partition_tbl (

Empid INT,

nama depan STRING,

nama belakang STRING,

olahraga STRING,

kota STRING

) DIPARTISI OLEH (STRING negara)

DIKELUPAKAN OLEH (empid)

DIURUS MENURUT (empid ASC) KE 4 Ember;

Tabel Bucket Tanpa Partisi

Atau, kita dapat membuat tabel bucket tanpa partisi:

BUAT TABEL db_bdpbase.bucketed_tbl_only (

Empid INT,

nama depan STRING,

nama belakang STRING,

kota STRING,

Negara STRING

)

DIKELUPAKAN OLEH (empid)

DIURUS MENURUT (empid ASC) KE 4 Ember;

Di sini, kami telah memasukkan tabel pada kolom yang sama empid.

Mengatur Properti

Pengaturan default untuk bucketing di Hive dinonaktifkan, jadi kami mengaktifkannya dengan menyetel nilainya ke true. Properti berikut akan memilih jumlah cluster dan reduksi sesuai dengan tabel:

SET hive.enforce.bucketing=TRUE; (TIDAK diperlukan DI Hive 2.x dan seterusnya)

Memuat Data Ke Tabel Bucket

Sejauh ini, kami telah membuat dua tabel ember dan tabel dasar dengan data sampel kami. Sekarang kita akan memuat data ke tabel ember dari tabel dasar dengan menggunakan perintah berikut di tabel ember dengan partisi:

INSERT OVERWRITE TABLE db_bdpbase.bucketed_partition_tbl PARTISI (negara) SELECT * FROM db_bdpbase.employee_base;

Untuk memuat data ke tabel ember tanpa partisi apa pun, kami akan menggunakan perintah berikut:

INSERT OVERWRITE TABLE db_bdpbase.bucketed_tbl_only SELECT * FROM db_bdpbase.employee_base;

Memeriksa Data Tabel Bucket

Setelah memuat data ke dalam tabel ember, kami akan memeriksa bagaimana data itu disimpan di HDFS. Kami akan menggunakan kode berikut untuk memeriksa tabel bucket dengan partisi:

hadoop fs -ls hdfs://sandbox.hortonworks.com:8020/apps/hive/warehouse/db_bdpbase.db/bucketed_partition_tbl

Penyimpanan Data di Tabel Bucket

Setiap titik data dipetakan ke spesifik sesuai dengan rumus berikut:

mode hash_function(bucket_column) num_bucket

Sekarang, perhatikan tabel pertama yang kami partisi berdasarkan negara, data sampel kami akan dibagi menjadi beberapa bagian berikut:

EMPID NAMA DEPAN NAMA KELUARGA OLAHRAGA KOTA NEGARA
1002 Zephr Stephenson Jangkrik Neerharen Republik Dominika
1003 Musim gugur Kacang Bola basket Neerharen Republik Dominika
1004 Kasimir Vance Bulu tangkis Neerharen Republik Dominika
1006 Ayana Bank Sepak bola Neerharen Republik Dominika
1008 Berk lebih lengkap Bulu tangkis Neerharen Republik Dominika

EMPID NAMA DEPAN NAMA KELUARGA OLAHRAGA KOTA NEGARA
1001 Emerry Blair Bola basket Qutubulapur San Marino
1005 mufutau Flores Qutubulapur San Marino
1007 Selma Bola Tenis Qutubulapur San Marino
1009 imogene Terrel Qutubulapur San Marino
1010 Colorado Hutchinson Tenis Qutubulapur San Marino

Untuk Republik Dominika, setiap baris akan disimpan dalam ember:

hash_function(1002) mode 4 = 2 (Mewakili indeks ember)

hash_function(1003) mode 4 = 3

hash_function(1004) mode 4 = 0

hash_function(1006) mode 4 = 2

hash_function(1008) mode 4 = 0

Perhatikan bahwa hash_function dari nilai INT akan memberi Anda hasil yang sama. Anda dapat memeriksa data di setiap file di lokasi HDFS. Jika mau, Anda dapat mengulangi proses ini untuk negara lain yang ada dalam database.

Bucketing di Hive: Contoh #2

Karena kita telah membahas berbagai langkah dan prosedur yang ada dalam mengimplementasikan fungsi ini, kita dapat mencobanya dengan mudah. Berikut ini adalah contoh sederhana dari bucketing di Hive. Di sini, kami hanya mengelompokkan data yang tersedia ke bagian yang berbeda sehingga kami dapat mengelolanya dengan lebih mudah:

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> buat tabel bulanan_taxi_fleet6

. . . . . . . . . . . . . . . . . . . . . . .> (char bulan(7),fleet smallint,varchar perusahaan(50))

. . . . . . . . . . . . . . . . . . . . . . .> dikelompokkan berdasarkan (perusahaan) menjadi 3 ember

. . . . . . . . . . . . . . . . . . . . . . .> disimpan sebagai avro;

Contoh menggunakan Apache Hive versi 1.1.0-cdh5.13.1, hive.enforce.bucketing=false secara default

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> masukkan ke bulanan_taxi_fleet6

. . . . . . . . . . . . . . . . . . . . . . .> pilih bulan, armada, perusahaan dari bulanan_taxi_fleet;

[upgrade@cdh-vm ~]$ hdfs dfs -ls -R /user/hive/warehouse/monthly_taxi_fleet6

-rwxrwxrwt 1 meningkatkan hive 25483 26-12-2017 10:40 /pengguna/sarang/gudang/bulanan_taxi_fleet6/000000_0

— hive.enforce.bucketing: Apakah bucketing diterapkan. Jika benar, saat memasukkan ke dalam tabel, bucketing diberlakukan.

— Nilai Default: Hive 0.x: false, Hive 1.x: false, Hive 2.x: dihapus, yang secara efektif membuatnya selalu benar (HIVE-12331)

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> atur hive.enforce.bucketing=true;

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> masukkan ke bulanan_taxi_fleet6

. . . . . . . . . . . . . . . . . . . . . . .> pilih bulan, armada, perusahaan dari bulanan_taxi_fleet;

[upgrade@cdh-vm ~]$ hdfs dfs -ls -R /user/hive/warehouse/monthly_taxi_fleet6

-rwxrwxrwt 1 meningkatkan hive 13611 26-12-2017 10:43 /pengguna/sarang/gudang/bulanan_taxi_fleet6/000000_0

-rwxrwxrwt 1 meningkatkan hive 6077 26-12-2017 10:43 /pengguna/sarang/gudang/bulanan_taxi_fleet6/000001_0

-rwxrwxrwt 1 perbarui hive 6589 26-12-2017 10:43 /pengguna/sarang/gudang/bulanan_taxi_fleet6/000002_0

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> jelaskan bulanan_taxi_fleet6 yang diperpanjang;

+—————————–+—————————————————-+———-+–+

| col_name | tipe_data | komentar |

+—————————–+—————————————————-+———-+–+

| bulan | karakter(7) | |

| armada | int | |

| perusahaan | varchar(50) | |

| | NULL | NULL |

| Informasi Tabel Rinci | Tabel(Namatabel:monthly_taxi_fleet6, dbName:default, pemilik:upgrade, createTime:1514256031, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[FieldSchema(name:month, type:char(7), comment:null) , Skema Bidang(nama:armada, ketik:smallint, komentar:null), SkemaBidang(nama:perusahaan, ketik:varchar(50), komentar:null)], lokasi:hdfs://cdh-vm.dbaglobe.com:8020 /user/hive/warehouse/monthly_taxi_fleet6, inputFormat:org.Apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat, terkompresi:false, numBuckets :3, serdeInfo:SerDeInfo(nama:null, serializationLib:org.Apache.hadoop.hive.serde2.avro.AvroSerDe, parameter:{serialization.format=1}), bucketCols:[perusahaan], sortCols:[], parameter :{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories:false), partitionKeys:[], parameter:{totalSize=26277, numRowSize=11280, COLUMNSize_STATS =benar, numFiles=3, tra nsient_lastDdlTime=1514256192}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED_TABLE) | |

+—————————–+—————————————————-+———-+–+

5 baris dipilih (0,075 detik)

Checkout: Pertanyaan Wawancara Hive Dasar

Bucketing di Hive: Contoh #3

Di bawah ini adalah sedikit contoh lanjutan dari bucketing di Hive. Di sini, kami telah melakukan partisi dan menggunakan fungsionalitas Diurutkan Berdasarkan untuk membuat data lebih mudah diakses. Ini adalah salah satu keuntungan terbesar dari bucketing. Anda dapat menggunakannya dengan fungsi lain untuk mengelola kumpulan data besar secara lebih efisien dan efektif.

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> buat tabel bulanan_taxi_fleet7

. . . . . . . . . . . . . . . . . . . . . . .> (char bulan(7),fleet smallint)

. . . . . . . . . . . . . . . . . . . . . . .> dipartisi oleh (varchar perusahaan(50))

. . . . . . . . . . . . . . . . . . . . . . .> dikelompokkan berdasarkan (bulan) diurutkan berdasarkan (bulan) menjadi 3 ember

. . . . . . . . . . . . . . . . . . . . . . .> disimpan sebagai avro;

0: jdbc:hive2://cdh-vm.dbaglobe.com:10000/def> masukkan ke bulanan_taxi_fleet7

. . . . . . . . . . . . . . . . . . . . . . .> partisi (perusahaan)

. . . . . . . . . . . . . . . . . . . . . . .> pilih bulan, armada, perusahaan dari bulanan_taxi_fleet;

[upgrade@cdh-vm ~]$ hdfs dfs -ls -R /user/hive/warehouse/monthly_taxi_fleet7

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=CityCab

-rwxrwxrwt 1 meningkatkan hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=CityCab/000000_0

-rwxrwxrwt 1 meningkatkan hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=CityCab/000001_0

-rwxrwxrwt 1 perbarui hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=CityCab/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=Comfort

-rwxrwxrwt 1 tingkatkan hive 913 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Kenyamanan/000000_0

-rwxrwxrwt 1 perbarui hive 913 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Kenyamanan/000001_0

-rwxrwxrwt 1 perbarui hive 913 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Kenyamanan/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top

-rwxrwxrwt 1 meningkatkan hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/company=Individu Kuning- Atas/000000_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top/000001_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /user/hive/warehouse/monthly_taxi_fleet7/company=Individual Yellow- Top/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=Premier

-rwxrwxrwt 1 perbarui hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Premier/000000_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Premier/000001_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Premier/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=Prime

-rwxrwxrwt 1 perbarui hive 765 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Prime/000000_0

-rwxrwxrwt 1 perbarui hive 765 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Prime/000001_0

-rwxrwxrwt 1 perbarui hive 766 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Prime/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=SMRT

-rwxrwxrwt 1 perbarui hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=SMRT/000000_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=SMRT/000001_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=SMRT/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=Smart

-rwxrwxrwt 1 perbarui hive 720 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=Smart/000000_0

-rwxrwxrwt 1 meningkatkan hive 719 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Smart/000001_0

-rwxrwxrwt 1 perbarui hive 719 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=Smart/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=TransCab

-rwxrwxrwt 1 meningkatkan hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=TransCab/000000_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=TransCab/000001_0

-rwxrwxrwt 1 upgrade hive 865 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=TransCab/000002_0

drwxrwxrwt – tingkatkan hive 0 26-12-2017 11:05 /pengguna/sarang/gudang/monthly_taxi_fleet7/company=YTC

-rwxrwxrwt 1 perbarui hive 432 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=YTC/000000_0

-rwxrwxrwt 1 upgrade hive 432 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=YTC/000001_0

-rwxrwxrwt 1 perbarui hive 432 26-12-2017 11:05 /pengguna/sarang/gudang/bulanan_taxi_fleet7/perusahaan=YTC/000002_0

Pelajari Lebih Lanjut Tentang Partisi dan Bucketing di Hive

Dalam contoh yang kami bagikan sebelumnya, kami melakukan partisi dan bucketing di Hive dalam berbagai cara dan belajar tentang bagaimana Anda dapat mengimplementasikannya di Hive. Namun, Apache Hive memiliki banyak fungsi lain dan mempelajari semuanya bisa sangat menakutkan.

Itu sebabnya kami merekomendasikan untuk mengambil kursus rekayasa data. Ini akan memungkinkan Anda untuk belajar dari pakar industri yang telah menghabiskan bertahun-tahun di industri ini. Kursus memberi Anda kurikulum terstruktur di mana Anda mempelajari semuanya langkah demi langkah. Di upGrad, kami menawarkan kursus rekayasa data khusus .

Dengan kursus kami, Anda mendapatkan akses ke Pojok Sukses Siswa upGrad tempat Anda mendapatkan umpan balik resume yang dipersonalisasi, persiapan wawancara, konseling karir, dan banyak keuntungan lainnya.

Setelah kursus selesai, Anda akan menjadi profesional teknik data yang terampil.

Kesimpulan

Bucketing di Hive sangat sederhana dan mudah dilakukan. Ini tentu saja merupakan fungsi yang berguna untuk kumpulan data besar. Namun, saat Anda melakukan partisi dan bucketing di Hive bersama-sama, Anda dapat mengelola kumpulan data yang sangat besar dengan sangat mudah.

Jika Anda tertarik untuk mengetahui lebih banyak tentang Program Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, praktik langsung- pada lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Jika Anda memiliki pertanyaan atau pemikiran tentang ember, bagikan di komentar di bawah. Kami akan senang mendengar dari Anda.

Lihat Kursus Rekayasa Perangkat Lunak kami yang lain di upGrad.

Tingkatkan Kemampuan Diri Anda & Bersiaplah untuk Masa Depan

Program Sertifikat Tingkat Lanjut dalam Data Besar dari IIIT Bangalore