Python'da Veri Çerçeveleri: Python Ayrıntılı Eğitimi 2022

Yayınlanan: 2021-01-09

Python programlama dilinde çalışan bir geliştirici veya kodlayıcıysanız, piyasadaki en şaşırtıcı veri yönetimi kitaplıklarından birine aşina olmalısınız – piyasadaki en iyi python kitaplıklarından biri olan Pandas. Pandalar yıllar içinde Python kullanarak veri analizi ve yönetimi için standart bir araç haline geldi. Diğer önemli Python araçları hakkında bilgi edinin.

Pandalar şüphesiz veri bilimi için en çok yönlü Python paketidir ve haklı olarak öyledir. Kolay veri işleme ve analizi için güçlü, anlamlı ve esnek veri yapıları sağlar ve Python'daki Veri Çerçeveleri bu yapılardan biridir.

Bu yazıdaki tartışma konularımız tam olarak bu – size Pandalar için temel veri formatını, yani Panda Veri Çerçevesini tanıtacağız.

İçindekiler

Veri Çerçevesi nedir?

Pandas kitaplığı belgelerine göre , bir Veri Çerçevesi "etiketli eksenlere (satırlar ve sütunlar) sahip iki boyutlu, boyut değişebilir, potansiyel olarak heterojen bir tablo veri yapısıdır". Basit bir deyişle, bir Veri Çerçevesi, verilerin tablo şeklinde, yani satırlar ve sütunlar halinde hizalandığı bir veri yapısıdır.

Bir Veri Çerçevesi genellikle aşağıdaki özelliklere sahiptir:

  • Birden çok satırı ve sütunu olabilir.
  • Her satır bir veri örneğini temsil ederken, her sütun örnekleri (satırları) açıklayan farklı bir değişken içerir.
  • Her sütundaki veriler genellikle aynı türde verilerdir (örneğin, sayılar, dizeler, tarihler vb.).
  • Excel veri kümelerinden farklı olarak, eksik değerlerin oluşmasını engeller, bu nedenle satırlar veya sütunlar arasında boşluk veya boş değer olmaz.

Pandas Veri Çerçevesinde, Veri Çerçeveniz için dizin ve sütun adlarını da belirtebilirsiniz. İndeks satırlardaki farkı gösterirken, sütun isimleri sütunlardaki farkı gösterir.

Python'da Veri Çerçevesi Nasıl Oluşturulur (Pandalar Kullanarak)

Bir Veri Çerçevesi oluşturmak, Python'da veri karıştırmanın ilk adımıdır. Aşağıdaki gibi girişleri kullanarak bir Pandas Veri Çerçevesi oluşturabilirsiniz:

  • dikte
  • Listeler
  • Dizi
  • Numpy "ndarray"
  • Başka bir Veri Çerçevesi
  • CS gibi harici dosyalar
  1. Boş Veri Çerçevesi Oluşturma

Boş Veri Çerçevesi olarak da bilinen temel bir Veri Çerçevesi oluşturmak oldukça kolaydır. İşte bir örnek:

Giriş –

Çıktı -

  1. Listelerden Veri Çerçevesi Oluşturma

Tek bir liste veya birden çok liste kullanarak bir Veri Çerçevesi oluşturabilirsiniz.

Giriş –

Çıktı -

  1. “ndarrays” veya Listelerin Dict'sinden Veri Çerçevesi Oluşturma

Bir dizi dizisinden bir Veri Çerçevesi oluşturmak için, tüm dizi dizileri aynı uzunlukta olmalıdır. Ayrıca indekslenmişse indeksin uzunluğu dizilerin uzunluğuna eşit olmalıdır. Ancak, dizine eklenmemişse, dizin varsayılan olarak aralık(n) olacaktır, burada 'n' dizi uzunluğunu belirtir.

Giriş –

Çıktı -

Burada 0,1,2,3 değerleri, işlev aralığı(n) kullanılarak her satıra atanan varsayılan dizindir.

Temel Veri Çerçevesi İşlemleri Nelerdir?

Python'da Veri Çerçeveleri oluşturmanın üç yolunu gördüğümüze göre, bir Veri Çerçevesindeki farklı işlemleri öğrenmenin zamanı geldi.

  1. Pandas Veri Çerçevesinden bir dizin veya sütun seçme

DataFrame içindeki bileşenleri eklemeye, silmeye ve yeniden adlandırmaya başlamadan önce bir dizin veya sütunun nasıl seçileceğini bilmek önemlidir. Bunun Veri Çerçeveniz olduğunu varsayalım:

'A' sütunundaki 0 ​​dizini altındaki değere erişmek istiyorsunuz – değer 1'dir. Bu değere erişmenin birçok yolu vardır, ancak en önemlilerinden ikisi – .loc[] ve .iloc[].

Giriş –

Çıktı -

Yani gördüğünüz gibi değerlere ya etiketlerine göre çağırarak ya da indeks veya sütundaki konumlarını bildirerek erişebilirsiniz. Bu, bir Veri Çerçevesinden bir değer seçerken, bunlardan satırları ve sütunları nasıl seçebilirsiniz?

Bu nasıl:

Giriş –

Çıktı-

  1. Pandas DataFrame'e Dizin, Satır veya Sütun Nasıl Eklenir

Bir Veri Çerçevesinden değerlere nasıl erişeceğinizi ve sütunları nasıl seçeceğinizi öğrendikten sonra, bir Pandas Veri Çerçevesine dizin, satır veya sütun eklemeyi öğrenebilirsiniz.

Dizin Ekleme:

Bir Veri Çerçevesi oluştururken, 'indeks' argümanına bir girdi eklemeyi seçebilirsiniz. Bu, istediğiniz dizine kolayca erişmenizi sağlar. Dizini belirtmezseniz, varsayılan olarak 0 ile başlayan ve DataFrame'in son satırına kadar devam eden sayısal olarak değerli bir dizin buna eklenecektir. Dizin varsayılan olarak belirlendikten sonra bile, bir sütun kullanabilir ve Veri Çerçevesinde set_index() işlevini çağırarak onu bir dizine dönüştürebilirsiniz.

Satır Eklemek:

Ekleme işlevini kullanarak bir DataFrame'e satır ekleyebilirsiniz.

Giriş –

Çıktı -

.loc'u DataFrame'inize şu şekilde satır eklemek için de kullanabilirsiniz:

Giriş –

Çıktı -

Sütun ekleme

Veri Çerçevesinin bir parçası olan bir indeks yapmak istiyorsanız, Veri Çerçevesinden bir sütun alabilir veya henüz oluşturulmamış bir sütuna başvurabilir ve bunu .index özelliğine şu şekilde atayabilirsiniz:

Giriş –

Çıktı -

Bir Veri Çerçevesine sütun eklemek için, Veri Çerçevesine bir dizin eklemek için kullandığınız yaklaşımın aynısını, yani .loc[ ] veya .iloc[ ] işlevini kullanabilirsiniz. Örneğin:

Giriş –

Çıktı

.loc[ ] ile, mevcut bir DataFrame'e bir Seri ekleyebilirsiniz. Bir Series nesnesi, bir Veri Çerçevesinin bir sütununa oldukça benzer olduğundan, mevcut bir Veri Çerçevesine bir Series eklemek çok kolaydır.

  1. Bir Veri Çerçevesinin Dizini Nasıl Sıfırlanır?

Bir Veri Çerçevesinin indeksini istediğiniz gibi olmazsa sıfırlayabilirsiniz. Bunu yapmak için .reset_index() işlevini kullanabilirsiniz.

Giriş –

Çıktı -

  1. Pandas DataFrame'e Dizin, Satır veya Sütun Nasıl Silinir

Bir dizini silme

  • Veri Çerçevesinin indeksini sıfırlama.
  • del df.index.name işlevini kullanarak dizin adını (varsa) kaldırın.
  • Bir satırla birlikte bir dizini kaldırın.
  • Dizini sıfırlayarak, Veri Çerçevesine eklenen dizin sütununun kopyalarını bırakarak ve yeni sütunu (yinelenen dizinden yoksun) dizin olarak yeniden eski durumuna getirerek tüm yinelenen dizin değerlerini kaldırın.

Bir sütunu silme

Bir Veri Çerçevesinden sütunları kaldırmak için drop() işlevini kullanabilirsiniz.

Giriş –

Çıktı -

Bir satırı silme

Bir Veri Çerçevesinden bir satırı silmek için, DataFrame'den silmek istediğiniz satırların dizinini belirtmek için index özelliğini kullanarak drop() işlevini kullanabilirsiniz.

Giriş –

Çıktı -

Ancak yinelenen satırları silmek için df.drop_duplicates() işlevini kullanabilirsiniz.

Giriş –

Çıktı -

Kaynaklar: Tutorialspoint Datacamp

Çözüm

Yani, Panda'ları kullanan Python'da Veri Çerçevesi için temel eğitiminiz var.

Python, veri bilimi öğrenmekle ilgileniyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, pratik uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın. Sektör danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Pandalar neden Python'da veri çerçeveleri oluşturmak için en çok tercih edilen kitaplıklardan biri?

Pandas kitaplığı, veri çerçevesi oluşturmayı verimli hale getiren çeşitli özellikler sağladığı için veri çerçeveleri oluşturmak için en uygun kitap olarak kabul edilir. Bu özelliklerden bazıları aşağıdaki gibidir: Pandalar bize yalnızca verimli bir veri sunumuna izin vermekle kalmayıp aynı zamanda onu manipüle etmemizi sağlayan çeşitli veri çerçeveleri sağlar. Verileri etiketlemenin ve düzenlemenin akıllı yollarını sağlayan verimli hizalama ve indeksleme özellikleri sağlar. Pandaların bazı özellikleri kodu temiz hale getirir ve okunabilirliğini artırır, böylece daha verimli hale getirir. Ayrıca birden fazla dosya biçimini okuyabilir. JSON, CSV, HDF5 ve Excel, Pandalar tarafından desteklenen dosya biçimlerinden bazılarıdır. Birden çok veri kümesinin birleştirilmesi, birçok programcı için gerçek bir zorluk olmuştur. Pandalar bunun da üstesinden gelir ve birden çok veri setini çok verimli bir şekilde birleştirir.

Pandalar kitaplığını tamamlayan diğer kitaplıklar ve araçlar nelerdir?

Pandalar yalnızca veri çerçeveleri oluşturmak için merkezi bir kitaplık olarak çalışmakla kalmaz, aynı zamanda daha verimli olmak için Python'un diğer kitaplıkları ve araçlarıyla da çalışır. Pandalar, Pandaların kitaplık yapısının çoğunun NumPy paketinden kopyalandığını gösteren NumPy Python paketi üzerine kurulmuştur. Pandas kitaplığındaki verilerin istatistiksel analizi, SciPy tarafından, Matplotlib'de işlevlerin çizilmesi ve Scikit-learn'de makine öğrenme algoritmaları tarafından yürütülür. Jupyter Notebook, IDE olarak çalışan ve Pandalar için iyi bir ortam sunan web tabanlı etkileşimli bir ortamdır.

Temel veri çerçevesi işlemleri nelerdir?

Ekleme veya silme gibi herhangi bir işleme başlamadan önce bir dizin veya sütun seçmek önemlidir. Bir Veri Çerçevesinden değerlere nasıl erişeceğinizi ve sütunları nasıl seçeceğinizi öğrendikten sonra, bir Pandas Veri Çerçevesine dizin, satır veya sütun eklemeyi öğrenebilirsiniz. Veri çerçevesindeki indeks istediğiniz gibi çıkmazsa sıfırlayabilirsiniz. Dizini sıfırlamak için “reset_index()” işlevini kullanabilirsiniz.