Apache Domuz Eğitimi: Yeni Başlayanlar İçin Mükemmel Bir Kılavuz [222]

Yayınlanan: 2021-01-08

Büyük Veri sürekli gelişen bir alandır. Finans, teknoloji, sağlık vb. dahil olmak üzere çeşitli sektörlerde uygulamaları vardır.

Büyük Veri uzmanı olmak için Büyük Veriyi analiz etmede kullanılan çeşitli teknolojileri öğrenmeniz gerekir. Ve Hadoop, bu Büyük Veri teknolojilerinin önemli bir parçasıdır.

Apache Pig, Hadoop'un birçok temel bileşeninden biridir. Çok miktarda veriyi hızlı bir şekilde analiz etmek istiyorsanız Pig kullanmanız gerekir. Bu makalede, yalnızca büyük veri parçalarıyla ilgilenmenize yardımcı olmakla kalmayıp aynı zamanda bunu yaparken zamandan da tasarruf etmenizi sağlayan analiz aracı Apache Pig'e odaklanacağız.

İçindekiler

Apache Domuz Eğitimi: Bu nedir?

Hadoop öğrenmek istiyorsanız Apache Pig (veya Hadoop Pig) hakkında bilgi edinmek çok önemlidir. Geniş veri kümelerini analiz etmek için kullanabileceğiniz bir platformdur. Bunu, veri kümelerini veri akışları olarak temsil ederek yapabilirsiniz.

Hadoop'un Veri Bilimi dünyasında ne kadar popüler olduğunu hepimiz biliyoruz. Ve bu açık kaynak çerçevesinde uzmanlaşmakla ilgileniyorsanız, Apache Pig hakkında bilgi edinmeniz gerekir.

Hadoop'un önemli bir bileşeni olan Map-Reduce'a dayanmaktadır. Büyük veri kümelerini analiz etmenizi sağladığı için bu aracı kullanırken daha yüksek verimle çalışabilirsiniz. Hadoop'ta veri işleme projeleri için Apache Pig'i de kullanabilirsiniz.

Pig, Pig Latin adlı gelişmiş dilini öğrenmenizi gerektiren üst düzey bir araçtır. Pig Latin, veri analizi programları yazmanıza yardımcı olur. En iyi hadoop araçları hakkında daha fazlasını okuyun. Bu dil aracılığıyla, bu görevler için belirli işlevler geliştirirken verileri yazabilir, okuyabilir ve işleyebilirsiniz.

Pig Latince yazdığınız scriptler Map-Reduce işlemlerinde otomatik olarak dönüştürülecektir. Apache Pig's Engine (Pig Engine olarak adlandırılır), yazılı komut dosyalarınızı bu işlemlere dönüştürmenize yardımcı olur. Bu aracı öğrenmek, Büyük Veri Analitiği gerçekleştirmenizde size önemli ölçüde yardımcı olacaktır.

Farklı süreçleri basitleştirir ve hızlı betik dili sayesinde zamandan tasarruf etmenize yardımcı olur. Bir öğrenme eğrisi olsa da, bunu aştığınızda, çalışmak için en basit araçlardan biri olduğunu anlayacaksınız.

Dünyanın en iyi Üniversitelerinden Yazılım Mühendisliği dereceleri alın . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Apache Domuzunun Tarihi

2006'da Yahoo'da Apache Pig, çok sayıda veri kümesinde MapReduce işlemlerini gerçekleştirmek için oluşturuldu. Apache Incubator aracılığıyla Apache Pig, 2007'de açık kaynaklı hale geldi. Ondan bir yıl sonra ilk sürümü piyasaya girdi.

Son olarak, 2010 yılında Apache Pig, Apache'nin üst düzey bir projesi haline geldi. O zamandan beri, Büyük Veri uzmanları için oldukça önemli bir araç haline geldi. Artık Domuzun kökenini öğrendiğinize göre, neden bu kadar popüler olduğunu ve avantajlarının neler olduğunu tartışmaya başlayabiliriz.

Apache Pig'in Özellikleri

Domuz özellikler açısından zengindir. Çok çeşitli işlevleri, onu uzmanlar için değerli ve yeri doldurulamaz bir araç yapan şeydir.

İşte özellikleri:

  • Pig, programlama işlemlerinizi basitleştirmek için kullanabileceğiniz birçok operatöre sahiptir.
  • Özel gereksinimlerinize bağlı olarak işlevlerinizi oluşturmanıza olanak tanır. Bu işlevlere UDF (Kullanıcı Tanımlı İşlevler) adı verilir ve bunları Python, JRuby, Jave vb. dahil olmak üzere herhangi bir programlama dilinde yazabilirsiniz.
  • Pig, her türlü veriyi işleyebilir. Bu, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veri değerlerini hissedebileceği anlamına gelir.
  • İşlemlerinizi yürütmeden önce otomatik olarak optimize eder.
  • Ayrı Harita ve Küçült işlevleri hakkında endişelenmeden elinizdeki tüm proje üzerinde çalışmanıza olanak tanır.

Apache Pig Neden Bu kadar Popüler?

Apache Pig, onu herhangi bir Büyük Veri uzmanı için bir zorunluluk haline getiren birçok özellik ve avantajla birlikte gelir.

Okuyun: Büyük Veri ve Hadoop Arasındaki Fark

Ayrıca, veri analitiği için Java öğrenme ihtiyacını ortadan kaldırdığı için, bu dili kullanmakta usta olmayan programcılar için hızla tercih edilen seçenek haline gelir.

Apache Pig'in bu kadar önemli ve popüler olmasının bazı nedenleri şunlardır:

  • Java öğrenmek zorunda kalmadan MapReduce kullanabilir ve görevlerini gerçekleştirebilirsiniz.
  • Pig kullanarak daha az kod satırı ile birincil işlemleri gerçekleştirebilirsiniz. MapReduce işlemlerini gerçekleştirmek için Pig kullandığınızda, Pig kullanmıyor olsaydınız yazacağınızdan 20 kat daha az kod satırı yazarsınız.
  • Pig, MapReduce projelerinde çalışırken size çok zaman kazandırır.
  • Birleştirme, Çıkarma, Filtreler vb. gibi geniş bir işlem yelpazesine sahiptir.
  • Pig, modelinde Mapreduce'da bulunmayan birçok veri türüne sahiptir. Bunlara çantalar, demetler ve diğerleri dahildir.

Artık neden bu kadar popüler olduğunu bildiğinize göre, şimdi Pig ve diğer araçlar ve dillerle ilgili bazı yaygın kafa karışıklık nedenlerine odaklanmalıyız.

MapReduce ve Apache Pig Arasındaki Fark

Apache Pig, Hadoop'un MapReduce'u üzerinde bir soyutlama olsa da, örtüşen işlevleri herkesin kafasını karıştırabilir. Her ikisi de MapReduce görevlerini gerçekleştirmekle ilgilidir. Ancak bu kadar benzer uygulamalarla bile ikisi birbirinden tamamen farklıdır.

Pig ve MapReduce arasındaki temel farklar şunlardır:

  • Apache Pig, üst düzey bir veri akışı dilidir. Öte yandan, MapReduce, veri işleme için basitçe düşük seviyeli bir paradigmadır.
  • MapReduce'a kıyasla Pig'de Join görevini çok daha sorunsuz ve verimli bir şekilde gerçekleştirebilirsiniz. İkincisi, birden çok veri kümesinin Birleştirme işlemini basitleştirmek için pek çok seçeneğe sahip değildir.
  • Apache Pig kullanırken hiçbir şey derlemeniz gerekmez. Tüm MapReduce işlemleri, önemli bir derleme işlemi gerektirir.
  • Pig ile çalışmak istiyorsanız biraz (en azından başlangıç ​​seviyesinde) SQL bilgisine sahip olmanız gerekir. Öte yandan MapReduce'u kullanmak için Java'ya aşina olmanız gerekir.
  • Pig, çok az kod satırı yazarken işleminizi daha verimli hale getiren çoklu sorgu işlevselliğini etkinleştirir. MapReduce bu yeteneğe sahip değildir. Aynı işlemi MapReduce'da gerçekleştirmek için Pig'e kıyasla 20 kat daha fazla kod satırı yazmanız gerekir.

SQL ve Apache Pig Arasındaki Fark

Acemi Büyük Veri uzmanları arasında önemli bir kafa karışıklığı SQL ve Apache Pig'dir. İkisi arasındaki önemli farkları bilmiyorlar.

Apache Pig ve SQL arasındaki farklar şunlardır:

  • SQL'in veri modeli düz ilişkisel iken Apache Pig'in veri modeli iç içe ilişkiseldir. Yuvalanmış bir ilişkisel modelin atomik ve ilişkisel alanları vardır. Düz bir ilişkisel model , değerleri depolamak için yalnızca tek bir tabloya sahiptir.
  • Apache Pig'de şema isteğe bağlıdır, ancak SQL'de zorunludur. Bu, SQL ile yapamazken verilerinizi Schema kullanmadan Apache Pig'de depolayabileceğiniz anlamına gelir.
  • Pig, Sorgu optimizasyonu için pek çok özellik ve seçeneğe sahip değildir. SQL bu konuda birçok seçeneğe sahiptir.
  • Apache Pig, prosedürel bir dil olan Pig Latin'i kullanır. Öte yandan, SQL bildirimsel bir dildir. Bu nedenle, Pig Latin gerekli görevleri yürütürken SQL, sistemin ne yapması gerektiğini açıklamaya odaklanır.
  • Apache Pig'de Ayıkla, Dönüştür ve Yükle olan ETL işlevlerini gerçekleştirebilirsiniz. SQL ile yapamazsınız.
  • Pig, ardışık düzendeki herhangi bir konumda veri depolamanıza izin verir, ancak SQL'in bu özelliği yoktur.

Kovan ve Domuz Arasındaki Fark

'Kovana Karşı Domuz', profesyoneller arasında popüler bir tartışma konusudur. İkisi arasındaki farkı öğrendikten sonra, onların bir parçası olmayacaksın. Her ikisi de Hadoop Ekosisteminin parçalarıdır. Her ikisi de Büyük Veri projelerinde çalışmak için gereklidir ve diğer Hadoop bileşenlerinin işlevselliğini de kolaylaştırır.

İkisi arasındaki karışıklığı önlemek için aşağıdaki farklılıkları okumalısınız:

  • Apache Pig, prosedürel bir programlama dili olan Pig Latin'i kullanır. Hive, SQL'e benzeyen HiveQL adlı bir bildirim dili kullanır.
  • Pig, yarı yapılandırılmış, yapılandırılmış ve yapılandırılmamış verilerle çalışabilir. Hive, çoğu durumda yapılandırılmış verilerle çalışır.
  • Rapor oluşturmak için Hive'ı kullanırken programlama için Pig'i kullanırsınız.
  • Pig, Hive'ın desteklemediği Avro dosya biçimini destekler.
  • Pig, kümenin istemci tarafında çalışırken Hive, aynı kümenin sunucu tarafında çalışır.
  • Pig, uygulamaları çoğunlukla programcılar ve araştırmacılar arasında bulur. Öte yandan Hive, veri analistleri arasında uygulamalar buluyor.

Apache Domuzu Ne Yapar?

Apache Pig, verileri analiz etmek için dili olarak Pig Latin'i kullanır. Veri işleme için kullandığınız üst düzey bir dildir, bu nedenle öğrenmek için biraz ekstra çaba gerektirir.

Ancak, görevlerinizi gerçekleştirmeniz için operatörlerle birlikte size birçok veri türü sunar. Pig'i kullanmanın ilk adımı, Pig Latin dilinde yazacağınız bir Pig komut dosyası yazmaktır.

Bundan sonra, görevi yürütmek için çeşitli yürütme sistemlerinden birini kullanmanız gerekecektir. Pig'deki farklı yürütme seçenekleri Embedded, Grunt Shell ve UDF'leri içerir.

Bundan sonra, Pig çerçevesi komut dosyalarını çıktı oluşturma gereksinimlerine göre dönüştürür.

Apache Pig, Pig Latin Komut Dosyalarını MapReduce görevlerine dönüştürür. Bu şekilde, bir programcı olarak işiniz çok daha kolay hale gelir.

Apache Domuz Mimarisi

Artık Apache Pig'in ne yaptığını ve nasıl yaptığını bildiğinize göre, onun farklı bileşenlerine odaklanalım. Daha önce de belirttiğimiz gibi, Pig betikleri istenen çıktıyı üretmek için çeşitli dönüşümlerden geçer. Bunu yapmak için Apache Pig, bu işlemleri aşamalar halinde gerçekleştiren farklı bileşenlere sahiptir.

Her aşamayı ayrı ayrı tartışacağız.

Birinci Aşama: Ayrıştırıcı

Ayrıştırıcı, verileri analiz etmenin erken aşamasını yönetir. Komut dosyası üzerinde tür denetimleri ve sözdizimi denetimleri dahil olmak üzere çeşitli denetimler gerçekleştirir. Çıktı Ayrıştırıcı, DAG (yönlendirilmiş asiklik grafiği) olarak adlandırılır.

DAG, mantıksal operatörleri ve Pig Latin ifadelerini gösterir. Mantıksal operatörleri düğümler ve veri akışlarını kenarlar olarak gösterir.

İkinci Aşama: Optimize Edici ve Derleyici

Ayrıştırıcı, DAG'yi Optimize Edici'ye gönderir. Optimize Edici, dönüştürme, bölme vb. gibi etkinlikleri içeren DAG'nin mantıksal optimizasyonunu gerçekleştirir.

Üretilen verileri işlerken boru hattındaki veri miktarını azaltmak için birden çok işlevi yerine getirir. Verilerin otomatik optimizasyonunu gerçekleştirir ve PushUpFilter, MapKeyPruner, Group By vb. işlevleri kullanır.

Kullanıcı olarak otomatik optimizasyon özelliğini kapatma seçeneğine sahipsiniz. Optimize Edici'den sonra, elde edilen kodu MapReduce görevlerinde derleyen Derleyici gelir. Derleyici, Pig Komut Dosyasının MapReduce işlerine dönüştürülmesini gerçekleştirir.

Üçüncü Aşama: Yürütme Motoru

Son olarak, MapReduce işlerinin Hadoop'a aktarıldığı Yürütme Motoru gelir. Oraya transfer edildikten sonra Hadoop gerekli sonuçları verir.

'DUMP' ifadesini kullanarak verilerin sonucunu görebilirsiniz. Benzer şekilde, çıktıyı HDFS'de (Hadoop'un temel bir bileşeni) depolamak istiyorsanız, 'STORE' ifadesini kullanmanız gerekecektir.

Apache Pig Uygulamaları

Domuzun birincil kullanımları aşağıdaki gibidir:

  • Çevrimiçi akış verileri ve Web Günlükleri gibi büyük veri kümelerini işlemek için.
  • Arama platformlarının verilerini işlemek için. Pig, tüm veri türlerini işleyebilir, bu da onu arama platformlarını analiz etmek için çok faydalı kılar.
  • Zamana duyarlı verileri analiz etmek için. Bu, Twitter'daki tweet'ler gibi sürekli güncellenen verileri içerir.

Bunun harika bir örneği, Twitter'da belirli bir konuyla ilgili tweet'leri analiz etmek olabilir. Belki de belirli bir konuyla ilgili müşteri davranışını anlamak istersiniz. Tweetler çeşitli biçimlerde medya içerir. Ve Pig, gerekli sonuçları elde etmek için onları analiz etmenize yardımcı olabilir.

Domuz Eğitimi: Buradan nereye gidilir?

Apache Pig, şüphesiz Hadoop'un en kritik alanlarından biridir. Öğrenmek kolay değil, ancak bir kez alışınca işinizi ne kadar kolaylaştırdığını göreceksiniz.

Hadoop ve Big Data'da Pig dışında birçok alan var.

Apache domuzu, veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, pratik uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın , sektör danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

upGrad, becerilerinizi geliştirmek ve yazılım geliştirme kariyer yolculuğunuzda büyümeyi teşvik etmek için Bilgisayar Bilimi Kursunda Eşsiz bir Bilim Ustası sunar.

Yazılım Geliştirme Kariyerinizi Şimdi Planlayın.

Yazılım Mühendisliği Yüksek Lisans Programına Hemen Başvur