Bingkai Data dengan Python: Tutorial Mendalam Python 2022

Diterbitkan: 2021-01-09

Jika Anda seorang pengembang atau pembuat kode yang bekerja dalam bahasa pemrograman Python, Anda pasti akrab dengan salah satu perpustakaan manajemen data yang paling menakjubkan – Pandas, salah satu perpustakaan python teratas di luar sana. Selama bertahun-tahun, Pandas telah muncul menjadi alat standar untuk analisis dan manajemen data menggunakan Python. Baca tentang alat Python penting lainnya.

Pandas tidak diragukan lagi merupakan paket Python paling serbaguna untuk ilmu data dan memang demikian. Ini menyediakan struktur data yang kuat, ekspresif, dan fleksibel untuk manipulasi dan analisis data yang mudah, dan Bingkai Data dengan Python adalah salah satu dari struktur ini.

Inilah topik diskusi kami dalam posting ini – kami akan memperkenalkan Anda pada format data dasar untuk Pandas, yaitu, Bingkai Data Pandas.

Daftar isi

Apa itu Bingkai Data?

Menurut dokumentasi perpustakaan Pandas , Bingkai Data adalah "struktur data tabular dua dimensi, ukuran-bisa berubah, berpotensi heterogen dengan sumbu berlabel (baris dan kolom)". Dengan kata sederhana, Bingkai Data adalah struktur data di mana data disejajarkan dengan cara tabel, yaitu dalam baris dan kolom.

Sebuah Frame Data biasanya memiliki karakteristik sebagai berikut:

  • Ini mungkin memiliki beberapa baris dan kolom.
  • Sementara setiap baris mewakili sampel data, setiap kolom terdiri dari variabel berbeda yang menggambarkan sampel (baris).
  • Data di setiap kolom biasanya jenis data yang sama (misalnya, angka, string, tanggal, dll).
  • Tidak seperti kumpulan data excel, ini menghindari nilai yang hilang, sehingga tidak ada celah atau nilai kosong antara baris atau kolom.

Dalam Bingkai Data Pandas, Anda juga dapat menentukan indeks dan nama kolom untuk Bingkai Data Anda. Sementara indeks menunjukkan perbedaan baris, nama kolom menunjukkan perbedaan kolom.

Cara Membuat Bingkai Data Dengan Python (Menggunakan Pandas)

Membuat Frame Data adalah langkah pertama untuk munging data dengan Python. Anda dapat membuat Bingkai Data Pandas menggunakan input seperti:

  • dikte
  • Daftar
  • Seri
  • “ndarray” numply
  • Bingkai Data lain
  • File eksternal seperti CS
  1. Membuat Bingkai Data Kosong

Cukup mudah untuk membuat Bingkai Data dasar, alias Bingkai Data Kosong. Berikut ini contohnya:

Memasukkan -

keluaran –

  1. Membuat Bingkai Data dari Daftar

Anda dapat membuat Bingkai Data baik menggunakan satu daftar atau beberapa daftar.

Memasukkan -

keluaran –

  1. Membuat Bingkai Data dari Dict of "ndarrays" atau Daftar

Untuk membuat Bingkai Data dari dict of ndarrays, semua ndarrays harus memiliki panjang yang sama. Juga, jika diindeks, panjang indeks harus sama dengan panjang array. Namun, jika tidak diindeks, indeks akan menjadi range(n) secara default, di mana 'n' menunjukkan panjang array.

Memasukkan -

keluaran –

Di sini nilai 0,1,2,3 adalah indeks default yang ditetapkan untuk setiap baris menggunakan rentang fungsi (n).

Apa Itu Operasi Bingkai Data Fundamental?

Sekarang kita telah melihat tiga cara untuk membuat Bingkai Data dengan Python, saatnya untuk mempelajari tentang operasi yang berbeda dalam Bingkai Data.

  1. Memilih indeks atau kolom dari Bingkai Data Pandas

Penting untuk mengetahui cara memilih indeks atau kolom sebelum dapat mulai menambahkan, menghapus, dan mengganti nama komponen dalam DataFrame. Misalkan ini adalah Bingkai Data Anda:

Anda ingin mengakses nilai di bawah indeks 0 di kolom 'A' – nilainya adalah 1. Ada banyak cara untuk mengakses nilai ini, tetapi dua yang paling penting adalah – .loc[] dan .iloc[].

Memasukkan -

keluaran –

Jadi, seperti yang Anda lihat, Anda dapat mengakses nilai dengan memanggilnya dengan labelnya atau dengan mendeklarasikan posisinya di indeks atau kolom. Sementara ini memilih nilai dari Bingkai Data, bagaimana Anda bisa memilih baris dan kolom dari yang sama?

Ini adalah bagaimana:

Memasukkan -

Keluaran-

  1. Cara Menambahkan Indeks, Baris, atau Kolom ke DataFrame Pandas

Setelah Anda mempelajari cara mengakses nilai dan memilih kolom dari Bingkai Data, Anda dapat belajar menambahkan indeks, baris, atau kolom dalam Bingkai Data Pandas.

Menambahkan Indeks:

Saat membuat Bingkai Data, Anda dapat memilih untuk menambahkan input ke argumen 'indeks'. Ini memastikan bahwa Anda dapat dengan mudah mengakses indeks yang Anda inginkan. Jika Anda tidak menentukan indeks, secara default, indeks bernilai numerik yang dimulai dengan 0 dan berlanjut hingga baris terakhir DataFrame akan ditambahkan ke dalamnya. Meskipun, bahkan setelah indeks ditentukan secara default, Anda dapat menggunakan kolom dan mengubahnya menjadi indeks dengan memanggil fungsi set_index() dalam Bingkai Data.

Menambahkan Baris:

Anda dapat menambahkan baris ke DataFrame menggunakan fungsi append.

Memasukkan -

keluaran –

Anda juga dapat menggunakan .loc untuk menyisipkan baris di DataFrame Anda seperti:

Memasukkan -

keluaran –

Menambahkan kolom

Jika Anda ingin menjadikan indeks sebagai bagian dari Bingkai Data, Anda dapat mengambil kolom dari Bingkai Data atau merujuk ke kolom yang belum dibuat, dan menetapkannya ke properti .index seperti ini:

Memasukkan -

keluaran –

Untuk menambahkan kolom ke Bingkai Data, Anda juga dapat menggunakan pendekatan yang sama yang akan Anda gunakan untuk menambahkan indeks ke Bingkai Data, yaitu, Anda dapat menggunakan fungsi .loc[ ] atau .iloc[ ]. Sebagai contoh:

Memasukkan -

Keluaran

Dengan .loc[ ], Anda dapat menambahkan Seri ke DataFrame yang ada. Karena objek Seri sangat mirip dengan kolom Bingkai Data, sangat mudah untuk menambahkan Seri ke Bingkai Data yang ada.

  1. Bagaimana Cara Mengatur Ulang Indeks Bingkai Data?

Anda dapat mengatur ulang indeks Bingkai Data jika tidak sesuai dengan keinginan Anda. Anda dapat menggunakan fungsi .reset_index() untuk melakukan ini.

Memasukkan -

keluaran –

  1. Cara Menghapus Indeks, Baris, atau Kolom ke DataFrame Pandas

Menghapus indeks

  • Mengatur ulang indeks Frame Data.
  • Hapus nama indeks (jika ada) dengan menggunakan fungsi del df.index.name.
  • Hapus indeks bersama dengan baris.
  • Hapus semua nilai indeks duplikat dengan mengatur ulang indeks, menghapus duplikat kolom indeks yang telah ditambahkan ke Bingkai Data, dan mengembalikan kolom baru (tanpa indeks duplikat) lagi sebagai indeks.

Menghapus kolom

Untuk menghapus kolom dari Bingkai Data, Anda dapat menggunakan fungsi drop().

Memasukkan -

keluaran –

Menghapus baris

Untuk menghapus baris dari Bingkai Data, Anda bisa menggunakan fungsi drop() dengan menggunakan properti indeks untuk menentukan indeks baris yang ingin Anda hapus dari DataFrame.

Memasukkan -

keluaran –

Namun, untuk menghapus baris duplikat, Anda dapat menggunakan fungsi df.drop_duplicates() .

Memasukkan -

keluaran –

Sumber: Tutorialspoint Datacamp

Kesimpulan

Jadi, ada tutorial dasar Anda untuk Data Frame dengan Python menggunakan Pandas.

Jika Anda tertarik untuk belajar Python, ilmu data, lihat Diploma IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1-on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Mengapa Pandas salah satu perpustakaan yang paling disukai untuk membuat bingkai data dengan Python?

Pustaka Panda dianggap paling cocok untuk membuat bingkai data karena menyediakan berbagai fitur yang membuatnya efisien untuk membuat bingkai data. Beberapa fitur ini adalah sebagai berikut: Panda menyediakan berbagai bingkai data yang tidak hanya memungkinkan representasi data yang efisien tetapi juga memungkinkan kita untuk memanipulasinya. Ini menyediakan fitur penyelarasan dan pengindeksan yang efisien yang menyediakan cara cerdas untuk memberi label dan mengatur data. Beberapa fitur Pandas membuat kode bersih dan meningkatkan keterbacaannya, sehingga membuatnya lebih efisien. Itu juga dapat membaca berbagai format file. JSON, CSV, HDF5, dan Excel adalah beberapa format file yang didukung oleh Pandas. Penggabungan beberapa kumpulan data telah menjadi tantangan nyata bagi banyak programmer. Panda juga mengatasi ini dan menggabungkan beberapa kumpulan data dengan sangat efisien.

Apa perpustakaan dan alat lain yang melengkapi perpustakaan Pandas?

Pandas tidak hanya berfungsi sebagai pustaka pusat untuk membuat bingkai data, tetapi juga berfungsi dengan pustaka dan alat Python lainnya agar lebih efisien. Pandas dibangun di atas paket NumPy Python yang menunjukkan bahwa sebagian besar struktur perpustakaan Pandas direplikasi dari paket NumPy. Analisis statistik pada data di perpustakaan Pandas dioperasikan oleh SciPy, memplot fungsi di Matplotlib, dan algoritma pembelajaran mesin di Scikit-learn. Jupyter Notebook adalah lingkungan interaktif berbasis web yang berfungsi sebagai IDE dan menawarkan lingkungan yang baik untuk Panda.

Apa operasi kerangka data dasar?

Memilih indeks atau kolom sebelum memulai operasi apa pun seperti penambahan atau penghapusan adalah penting. Setelah Anda mempelajari cara mengakses nilai dan memilih kolom dari Bingkai Data, Anda dapat belajar menambahkan indeks, baris, atau kolom dalam Bingkai Data Pandas. Jika indeks pada data frame tidak sesuai dengan yang diinginkan, Anda dapat meresetnya. Untuk mengatur ulang indeks, Anda dapat menggunakan fungsi "reset_index()".