Mapreduce dalam Big Data: Ikhtisar, Fungsi & Pentingnya

Diterbitkan: 2022-07-15

Daftar isi

Apa itu BigData?

Big Data adalah kumpulan komprehensif dari sejumlah besar data yang tidak dapat diproses dengan bantuan metode komputasi tradisional. Analisis data besar mengacu pada penggunaan metode seperti analisis perilaku pengguna, analisis prediktif, atau berbagai analisis lanjutan lainnya yang secara efektif menangani data besar. Analisis data besar digunakan untuk mengekstrak informasi dari kumpulan data besar secara sistematis.

Dengan kemajuan teknologi, kehidupan kita yang digerakkan secara digital sangat bergantung pada kumpulan data besar di berbagai bidang. Data ada di mana-mana, mulai dari perangkat digital seperti ponsel hingga sistem komputer dan merupakan sumber daya penting bagi organisasi dan bisnis besar. Mereka mengandalkan kumpulan besar data yang belum diproses, yang berada di bawah payung data besar.

Oleh karena itu, pengumpulan, kajian, analisis, dan ekstraksi informasi merupakan bagian integral dari pertumbuhan bisnis dan tujuan lain di berbagai sektor. Tugas ilmuwan data adalah memproses data ini dan menyajikannya kepada perusahaan untuk peramalan dan perencanaan bisnis.

`

Jelajahi Kursus Rekayasa Perangkat Lunak Populer kami

TL. Tidak Program Pengembangan Perangkat Lunak
1 Master of Science dalam Ilmu Komputer dari LJMU & IIITB Program Sertifikat Keamanan Siber CTME Caltech
2 Bootcamp Pengembangan Tumpukan Penuh Program PG di Blockchain
3 Program Pascasarjana Eksekutif dalam Pengembangan Perangkat Lunak - Spesialisasi dalam DevOps Lihat semua Kursus Rekayasa Perangkat Lunak

Apa itu MapReduce?

MapReduce adalah model pemrograman yang memainkan bagian integral dalam pemrosesan data besar dan kumpulan data besar dengan bantuan algoritma terdistribusi paralel pada sebuah cluster. Program MapReduce dapat ditulis dalam banyak bahasa pemrograman seperti C++, Java, Ruby, Python, dll. Keuntungan terbesar MapReduce adalah membuat pemrosesan data mudah untuk diskalakan pada banyak node komputer.

MapReduce dan HDFS terutama digunakan untuk pengelolaan data besar yang efektif. Hadoop disebut sebagai dasar dasar dari sistem Mapreduce dan HDFS yang digabungkan ini yang dikenal sebagai sistem HDFS-MapReduce. Oleh karena itu, tidak perlu dikatakan bahwa MapReduce adalah komponen integral dari ekosistem Apache Hadoop. Kerangka kerja Mapreduce berkontribusi pada peningkatan pemrosesan data secara masif. Apache Hadoop terdiri dari elemen lain yang mencakup Hadoop Distributed File System (HDFS), Apache Pig dan Yarn.

MapReduce membantu meningkatkan pemrosesan data dengan bantuan algoritma yang tersebar dan paralel dari ekosistem Hadoop. Penerapan model pemrograman ini dalam e-commerce dan platform sosial membantu menganalisis data besar yang dikumpulkan dari pengguna online.

Pelajari Kursus Pengembangan Perangkat Lunak online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Bagaimana cara kerja MapReduce?

Algoritma MapReduce terdiri dari dua tugas yang tidak terpisahkan, yaitu Map dan Reduce. Tugas Peta mengambil kumpulan data dan melanjutkan untuk mengubahnya menjadi kumpulan data lain, di mana elemen individual dipecah menjadi tupel atau pasangan nilai kunci. Tugas Reduce mengambil output dari Peta sebagai input dan menggabungkan tupel data atau pasangan nilai kunci tersebut ke dalam kumpulan tupel yang lebih kecil. Tugas Reduce selalu dilakukan setelah pekerjaan peta.

Di bawah ini adalah berbagai fase MapReduce: -

  • Fase Input : Pada fase input, Pembaca Rekam membantu menerjemahkan setiap record dalam file input dan mengirim data yang diurai dalam bentuk pasangan nilai kunci ke mapper.
  • Peta: Fungsi peta ditentukan oleh pengguna. Ini membantu memproses serangkaian pasangan nilai kunci dan menghasilkan nol atau beberapa pasangan nilai kunci.
  • Kunci Menengah: Pasangan kunci-nilai yang dihasilkan oleh pembuat peta dikenal sebagai kunci perantara.
  • Penggabung : Peredam lokal semacam ini membantu mengelompokkan data serupa yang dihasilkan dari fase peta ke dalam kumpulan yang dapat diidentifikasi. Ini adalah bagian opsional dari algoritma MapReduce.
  • Acak dan Urutkan: Tugas Peredam dimulai dengan langkah ini di mana ia mengunduh pasangan nilai kunci yang dikelompokkan ke dalam mesin, tempat Peredam sudah berjalan. Pasangan nilai kunci dipisahkan berdasarkan kunci ke dalam daftar data yang lebih ekstensif. Daftar data kemudian mengelompokkan kunci yang setara untuk mengulangi nilainya dengan mudah dalam tugas Reducer.
  • Reducer : Reducer mengambil data pasangan nilai kunci yang dikelompokkan sebagai input dan kemudian menjalankan fungsi Reducer pada setiap data tersebut. Di sini, data dapat disaring, dikumpulkan, dan digabungkan dengan banyak cara. Itu juga membutuhkan berbagai pemrosesan. Setelah proses selesai, ini memberikan nol atau beberapa pasangan nilai kunci ke langkah terakhir.
  • Fase Output: Pada fase ini, ada formatter output yang menerjemahkan pasangan nilai kunci terakhir dari fungsi Reducer dan menulisnya ke file menggunakan penulis rekaman.

MapReduce terjadi dalam tiga tahap: -

Tahap 1: Tahap peta

Tahap 2: Tahap acak

Tahap 3: Tahap pengurangan.

Contoh untuk membantu memahami tahapan dengan lebih baik. Berikut adalah contoh masalah Wordcount yang diselesaikan oleh Mapreduce melalui tahapan: -

Pertimbangkan data input di bawah ini: -

  • Anna Karen Lola
  • Clara Clara Lola
  • Anna Clara Karen
  1. Data di atas telah dipisahkan menjadi tiga input split.
  • Anna Karen Lola
  • Clara Clara Lola
  • Anna Clara Karen
  1. Pada tahap selanjutnya, data ini diumpankan ke tahap berikutnya, yang disebut sebagai tahap pemetaan.

Mengingat baris pertama (Anna Karen Lola), kita mendapatkan tiga pasangan nilai kunci – Anna, 1; Karin, 1; Lala, 1.

Anda akan menemukan hasilnya dalam fase pemetaan di bawah ini: -

  • Anna, 1
    Karen, 1
    Lola, 1
  • Clara, 1
    Clara, 1
    Lola, 1
  • Anna, 1
    Clara, 1
    Karen, 1
  1. Data yang disebutkan di atas kemudian dimasukkan ke dalam fase berikutnya. Fase ini disebut fase penyortiran dan pengocokan. Data pada fase ini dikelompokkan ke dalam kunci-kunci unik dan diurutkan lebih lanjut. Anda akan menemukan hasil dari fase penyortiran dan pengocokan:
  • Lola,(1,1)
  • Karin(1,1)
  • Anna(1,1)
  • Clara(1,1,1)
  1. Data di atas kemudian dimasukkan ke dalam fase berikutnya, yang disebut sebagai fase reduksi.

Semua nilai kunci dikumpulkan di sini, dan jumlah 1 dihitung.

Di bawah ini adalah hasil dalam fase reduksi:

  • Lola,2
  • Karen, 2
  • Anna,2
  • Clara,3

Baca Artikel Populer kami yang terkait dengan Pengembangan Perangkat Lunak

Bagaimana Menerapkan Abstraksi Data di Jawa? Apa itu Kelas Dalam di Jawa? Java Identifiers: Definisi, Sintaks, dan Contoh
Memahami Enkapsulasi dalam OOPS dengan Contoh Argumen Baris Perintah di C Dijelaskan 10 Fitur & Karakteristik Terbaik Cloud Computing di tahun 2022
Polimorfisme di Jawa: Konsep, Jenis, Karakteristik & Contoh Paket di Java & Bagaimana Cara Menggunakannya? Tutorial Git Untuk Pemula: Belajar Git dari Awal

Mengapa Memilih MapReduce?

Sebagai model pemrograman untuk menulis aplikasi, MapReduce adalah salah satu alat terbaik untuk memproses data besar secara paralel pada banyak node. Keuntungan lain menggunakan MapReduce adalah sebagai berikut: -

  • Keamanan
  • Skalabilitas
  • Fleksibilitas
  • Ramah anggaran
  • Autentikasi
  • Model pemrograman yang disederhanakan
  • Cepat dan efektif
  • Ketersediaan
  • Proses paralel
  • Ketangguhan

Kesimpulan

Big Data adalah bagian yang sangat penting dari kehidupan kita karena perusahaan raksasa tempat ekonomi berkembang bergantung pada Big Data tersebut. Hari ini, ini adalah salah satu pilihan karir paling menguntungkan yang dapat dipilih seseorang.

Jika Anda ingin mendaftar di kursus yang andal di Program Sertifikat Tingkat Lanjut di Big Data , maka tidak perlu mencari lagi. upGrad memiliki kursus terbaik yang akan Anda temui. Anda akan mempelajari keterampilan profesional terbaik seperti Pemrosesan Data dengan PySpark, Data Warehousing, MapReduce, Pemrosesan Data Besar di Cloud, Pemrosesan Waktu Nyata, dan sejenisnya.

Apa itu partisi, dan bagaimana cara menggunakannya?

Partisi adalah fase yang mengontrol partisi kunci keluaran Mapreduce langsung menggunakan fungsi hash. Partisi menentukan peredam, pasangan kunci-nilai dikirim ke.

Apa konfigurasi utama yang ditentukan dalam MapReduce?

MapReduce memerlukan lokasi input dan output pekerjaan di sistem file terdistribusi Hadoop dan formatnya. Pemrogram MapReduce juga perlu menyediakan parameter kelas yang berisi peta dan fungsi reduksi. MapReduce juga memerlukan file .JAR untuk dikonfigurasikan untuk kelas peredam, driver, dan mapper.

Apa yang dimaksud dengan chain mapper dan identity mapper di MapReduce?

Sebuah chain mapper dapat didefinisikan sebagai kelas mapper sederhana yang sedang diimplementasikan dengan bantuan operasi rantai di kelas mapper tertentu dalam satu tugas peta. Identitas mapper dapat didefinisikan sebagai kelas mapper Hadoop secara default. Pemeta identitas dijalankan ketika kelas pembuat peta lainnya tidak ditentukan.