Visualisasi Data dengan Python: Plot Fundamental Dijelaskan [Dengan Ilustrasi Grafis]

Diterbitkan: 2021-02-08

Daftar isi

Prinsip Desain Dasar

Untuk setiap ilmuwan data yang bercita-cita tinggi atau sukses, mampu menjelaskan penelitian dan analisis Anda adalah keterampilan yang sangat penting dan berguna untuk dimiliki. Di sinilah visualisasi data muncul. Sangat penting untuk menggunakan alat ini dengan jujur ​​karena audiens dapat dengan mudah salah informasi atau tertipu oleh pilihan desain yang buruk.

Sebagai ilmuwan data, kita semua memiliki kewajiban tertentu dalam hal menjaga kebenaran.

Yang pertama adalah bahwa kita harus benar-benar jujur ​​dengan diri kita sendiri saat membersihkan dan meringkas data. Pra-pemrosesan data adalah langkah yang sangat penting agar algoritme pembelajaran mesin apa pun dapat berfungsi, sehingga setiap ketidakjujuran dalam data akan menghasilkan hasil yang sangat berbeda.

Kewajiban lain adalah terhadap audiens target kami. Ada berbagai teknik dalam visualisasi data yang digunakan untuk menyoroti bagian data tertentu dan membuat beberapa bagian data lainnya kurang menonjol. Sehingga jika kita tidak cukup teliti, pembaca tidak akan dapat mendalami dan menilai analisis dengan baik yang dapat menimbulkan keraguan dan kurangnya kepercayaan.

Selalu mempertanyakan diri sendiri adalah sifat yang baik untuk dimiliki oleh para ilmuwan data. Dan kita harus selalu berpikir tentang bagaimana menunjukkan apa yang benar-benar penting dengan cara yang dapat dimengerti serta menyenangkan secara estetika, sambil juga mengingat bahwa konteks itu penting.

Inilah yang coba digambarkan Alberto Cairo dalam ajarannya. Dia menyebutkan Lima Kualitas Visualisasi Hebat: indah, mencerahkan, fungsional, berwawasan luas, dan jujur ​​yang patut diingat.

Beberapa Plot Fundamental

Sekarang setelah kita memiliki pemahaman dasar tentang prinsip-prinsip desain, mari selami beberapa teknik visualisasi mendasar menggunakan pustaka matplotlib dengan python.

Semua kode di bawah ini dapat dieksekusi di notebook Jupyter.

%matplotlib buku catatan

# ini menyediakan lingkungan interaktif dan mengatur bagian belakang. ( %matplotlib inline juga dapat digunakan tetapi tidak interaktif. Ini berarti bahwa panggilan lebih lanjut ke fungsi plot tidak akan secara otomatis memperbarui visualisasi asli kita.)

impor matplotlib.pyplot sebagai plt # mengimpor modul perpustakaan yang diperlukan

Plot Titik

Fungsi matplotlib paling sederhana untuk memplot suatu titik adalah plot() . Argumen mewakili koordinat X dan Y, kemudian nilai string yang menjelaskan bagaimana output data harus ditampilkan.

plt.figur()

plt.plot( 5, 6, '+' ) # tanda + berfungsi sebagai penanda

plot sebar

Scatterplot adalah plot dua dimensi. Fungsi scatter() juga mengambil nilai X sebagai argumen pertama dan nilai Y sebagai argumen kedua. Plot di bawah ini adalah garis diagonal dan matplotlib secara otomatis menyesuaikan ukuran kedua sumbu. Di sini, plot pencar tidak memperlakukan item sebagai rangkaian. Jadi, kita juga bisa memberikan daftar warna yang diinginkan sesuai dengan masing-masing titik.

impor numpy sebagai np

x = np.array( [1, 2, 3, 4, 5, 6, 7, 8] )

y = x

plt.figur()

plt.scatter( x, y )

Plot Garis

Plot garis dibuat dengan fungsi plot() dan memplot sejumlah seri titik data yang berbeda seperti plot sebar tetapi menghubungkan setiap seri titik dengan garis.

impor numpy sebagai np

linear_data = np.array( [1, 2, 3, 4, 5, 6, 7, 8] )

kuadrat_data = linear_data**2

plt.figur()

plt.plot( linear_data, '-o', kuadrat_data, '-o')

Untuk membuat grafik lebih mudah dibaca, kita juga dapat menambahkan legenda yang akan memberi tahu kita apa yang diwakili oleh setiap baris. Judul yang cocok untuk grafik dan kedua sumbu itu penting. Juga setiap bagian grafik dapat diarsir menggunakan fungsi fill_between() untuk menyorot wilayah yang relevan.

plt.xlabel('Nilai X')

plt.ylabel('Nilai Y')

plt.title('Plot Garis')

plt.legend( ['linier', 'kuadrat'] )

plt.gca().fill_between( range ( len ( linear_data ) ), linear_data, squared_data, facecolor = 'blue', alpha = 0.25)

Seperti inilah tampilan grafik yang dimodifikasi-

Diagram batang

Kita dapat memplot diagram batang dengan mengirimkan argumen untuk nilai X dan tinggi setiap batang ke fungsi bar() . Di bawah ini adalah plot batang dari array data linier yang sama yang kami gunakan di atas.

plt.figur()

x = rentang( len ( linear_data ))

plt.bar( x, linear_data )

# untuk memplot data kuadrat sebagai kumpulan batang lain pada grafik yang sama, kita harus menyesuaikan nilai x baru untuk menggantikan kumpulan batang pertama

baru_x = []

untuk data dalam x:

new_x.append(data+0.3)

plt.bar(new_x, squared_data, lebar = 0,3, warna = 'hijau')

# Untuk graf dengan orientasi horizontal kita menggunakan fungsi barh ()

plt.figur()

x = rentang( len( linear_data ))

plt.barh( x, linear_data, tinggi = 0,3, warna = 'b')

plt.barh( x, kuadrat_data, tinggi = 0,3, kiri = linear_data, warna = 'g')

#berikut adalah contoh petak bar susun secara vertikal

plt.figur()

x = rentang( len( linear_data ))

plt.bar( x, linear_data, lebar = 0,3, warna = 'b')

plt.bar( x, squared_data, lebar = 0,3, bawah = linear_data, warna = 'g')

Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

Kesimpulan

Jenis visualisasi tidak hanya berakhir di sini. Python juga memiliki perpustakaan hebat yang disebut seaborn yang pasti layak untuk dijelajahi. Visualisasi informasi yang tepat sangat membantu meningkatkan nilai data kita. Visualisasi data akan selalu menjadi pilihan yang lebih baik untuk mendapatkan wawasan dan mengidentifikasi berbagai tren dan pola daripada melihat tabel membosankan dengan jutaan catatan.

Jika Anda penasaran untuk belajar tentang ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa saja paket Python yang berguna untuk visualisasi data?

Python memiliki beberapa paket luar biasa dan berguna untuk visualisasi data. Beberapa paket tersebut disebutkan di bawah ini:
1. Matplotlib - Matplotlib adalah library Python yang populer digunakan untuk visualisasi data dalam berbagai bentuk seperti scatterplots, diagram batang, diagram lingkaran, dan diagram garis. Ia menggunakan Numpy untuk operasi matematikanya.

2. Seaborn - Perpustakaan Seaborn digunakan untuk representasi statistik dengan Python. Ini dikembangkan di atas Matplotlib dan terintegrasi dengan struktur data Pandas.
3. Altair - Altair adalah pustaka Python populer lainnya untuk visualisasi data. Ini adalah perpustakaan statistik deklaratif yang memungkinkan Anda membuat visual dengan pengkodean seminimal mungkin.
4. Plotly - Plotly adalah perpustakaan visualisasi data interaktif dan open-source dari Python. Visual yang dibuat oleh perpustakaan berbasis browser ini didukung oleh banyak platform seperti Jupyter Notebook dan file HTML mandiri.

Apa yang kamu ketahui tentang plot titik dan plot pencar?

Plot titik adalah plot paling dasar dan paling sederhana untuk visualisasi data. Plot titik menampilkan data dalam bentuk titik-titik pada bidang kartesius. "+" menunjukkan peningkatan nilai sementara "-" menunjukkan penurunan nilai dari waktu ke waktu.
Plot Scatter di sisi lain adalah plot yang dioptimalkan di mana data divisualisasikan pada bidang 2-D. Ini didefinisikan menggunakan fungsi scatter() yang mengambil nilai sumbu x sebagai parameter pertama dan nilai sumbu y sebagai parameter kedua.

Apa keuntungan dari visualisasi data?

Keuntungan berikut menunjukkan bagaimana visualisasi data dapat menjadi pahlawan nyata bagi pertumbuhan organisasi:
1. Visualisasi data memudahkan untuk menginterpretasikan data mentah dan memahaminya untuk analisis lebih lanjut.
2. Setelah meneliti dan menganalisis data, hasilnya dapat ditampilkan menggunakan visualisasi yang bermakna. Ini membuatnya lebih mudah untuk terhubung dengan audiens dan menjelaskan hasilnya.
3. Salah satu aplikasi yang paling penting dari teknik ini adalah untuk menganalisis pola dan tren untuk menyimpulkan prediksi dan potensi area pertumbuhan.
4. Ini juga memungkinkan Anda untuk memisahkan data sesuai dengan preferensi pelanggan. Anda juga dapat mengidentifikasi area yang membutuhkan perhatian lebih.