Python'da Veri Görselleştirme: Açıklanan Temel Grafikler [Grafik Çizimle]

Yayınlanan: 2021-02-08

İçindekiler

Temel Tasarım İlkeleri

Hevesli veya başarılı herhangi bir veri bilimcisi için araştırmanızı ve analizinizi açıklayabilmek, sahip olunması gereken çok önemli ve faydalı bir beceridir. Veri görselleştirmenin resme girdiği yer burasıdır. İzleyiciler kötü tasarım seçimleriyle kolayca yanlış bilgilendirilebileceği veya aldatılabileceği için bu aracı dürüstçe kullanmak çok önemlidir.

Veri bilimcileri olarak, doğru olanı koruma konusunda hepimizin belirli yükümlülükleri var.

Birincisi, verileri temizlerken ve özetlerken kendimize karşı tamamen dürüst olmalıyız. Veri ön işleme, herhangi bir makine öğrenimi algoritmasının çalışması için çok önemli bir adımdır ve bu nedenle verilerdeki herhangi bir sahtekârlık, büyük ölçüde farklı sonuçlara yol açacaktır.

Bir diğer yükümlülüğümüz de hedef kitlemize karşıdır. Veri görselleştirmede, belirli veri bölümlerini vurgulamak ve diğer bazı veri parçalarını daha az belirgin hale getirmek için kullanılan çeşitli teknikler vardır. Bu nedenle, yeterince dikkatli olmazsak, okuyucu, şüphelere ve güven eksikliğine yol açabilecek analizi doğru bir şekilde keşfedemez ve yargılayamaz.

Her zaman kendini sorgulamak, veri bilimcileri için iyi bir özelliktir. Ve her zaman gerçekten önemli olanı anlaşılır ve estetik açıdan hoş bir şekilde nasıl göstereceğimizi düşünmeli ve aynı zamanda bağlamın da önemli olduğunu hatırlamalıyız.

Alberto Cairo'nun öğretilerinde tam olarak tasvir etmeye çalıştığı şey budur. Harika Görselleştirmelerin Beş Niteliğinden bahseder: güzel, aydınlatıcı, işlevsel, anlayışlı ve gerçek ki bunlar akılda tutulmaya değer.

Bazı Temel Planlar

Artık tasarım ilkeleri hakkında temel bir anlayışa sahip olduğumuza göre, python'da matplotlib kitaplığını kullanarak bazı temel görselleştirme tekniklerine geçelim .

Aşağıdaki tüm kodlar bir Jupyter not defterinde yürütülebilir.

%matplotlib not defteri

# bu etkileşimli bir ortam sağlar ve arka ucu ayarlar. ( %matplotlib satır içi de kullanılabilir ancak etkileşimli değildir. Bu, çizim işlevlerine yapılan başka çağrıların orijinal görselleştirmemizi otomatik olarak güncellemeyeceği anlamına gelir.)

matplotlib.pyplot'u plt olarak içe aktar # gerekli kitaplık modülünü içe aktar

Nokta Grafikleri

Bir noktayı çizmek için en basit matplotlib işlevi plot() işlevidir . Argümanlar X ve Y koordinatlarını, ardından veri çıktısının nasıl gösterilmesi gerektiğini açıklayan bir dize değerini temsil eder.

plt.şekil()

plt.plot( 5, 6, '+' ) # + işareti bir işaretleyici görevi görür

dağılım grafikleri

Dağılım grafiği iki boyutlu bir çizimdir. scatter() işlevi ayrıca ilk argüman olarak X değerini ve ikinci argüman olarak Y değerini alır . Aşağıdaki çizim çapraz bir çizgidir ve matplotlib her iki eksenin boyutunu otomatik olarak ayarlar. Burada dağılım grafiği, öğeleri bir dizi olarak ele almaz. Böylece, noktaların her birine karşılık gelen istenen renklerin bir listesini de verebiliriz.

numpy'yi np olarak içe aktar

x = np.dizi( [1, 2, 3, 4, 5, 6, 7, 8] )

y = x

plt.şekil()

plt.scatter( x, y )

Çizgi Grafikleri

plot() işleviyle bir çizgi grafiği oluşturulur ve bir dağılım grafiği gibi bir dizi farklı veri noktası dizisini çizer, ancak her nokta serisini bir çizgiyle birleştirir.

numpy'yi np olarak içe aktar

lineer_data = np.array( [1, 2, 3, 4, 5, 6, 7, 8] )

squared_data = linear_data**2

plt.şekil()

plt.plot( linear_data, '-o', squared_data, '-o')

Grafiği daha okunabilir hale getirmek için, bize her satırın neyi temsil ettiğini söyleyen bir açıklama da ekleyebiliriz. Grafik ve her iki eksen için uygun bir başlık önemlidir. Ayrıca grafiğin herhangi bir bölümü, ilgili bölgeleri vurgulamak için fill_between() işlevi kullanılarak gölgelendirilebilir.

plt.xlabel('X değerleri')

plt.ylabel('Y değerleri')

plt.title('Çizgi Grafikleri')

plt.legend( ['doğrusal', 'kare'] )

plt.gca().fill_between( range ( len ( linear_data ) ), linear_data, squared_data, facecolor = 'blue', alpha = 0.25)

Değiştirilen grafik böyle görünüyor-

Çubuk grafikler

Bar() işlevine X değerleri ve her bir çubuğun yüksekliği için argümanlar göndererek bir çubuk grafiği çizebiliriz . Aşağıda, yukarıda kullandığımız aynı doğrusal veri dizisinin bir çubuk grafiği verilmiştir.

plt.şekil()

x = aralık( len ( linear_data ))

plt.bar( x, linear_data )

# karesi alınmış verileri aynı grafik üzerinde başka bir çubuk grubu olarak çizmek için, ilk çubuk grubunu telafi etmek için yeni x değerlerini ayarlamamız gerekiyor

new_x = []

x'teki veriler için:

new_x.append(veri+0.3)

plt.bar(new_x, squared_data, genişlik = 0,3, renk = 'yeşil')

# Yatay yönelimli grafikler için barh() işlevini kullanırız

plt.şekil()

x = aralık( len( linear_data ))

plt.barh( x, linear_data, yükseklik = 0,3, renk = 'b')

plt.barh( x, squared_data, yükseklik = 0,3, sol = linear_data, renk = 'g')

#burada çubuk grafiklerini dikey olarak istiflemeye bir örnek

plt.şekil()

x = aralık( len( linear_data ))

plt.bar( x, linear_data, genişlik = 0,3, renk = 'b')

plt.bar( x, squared_data, genişlik = 0,3, alt = doğrusal_veri, renk = 'g')

Dünyanın en iyi Üniversitelerinden veri bilimi derslerini öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Çözüm

Görselleştirme türleri sadece burada bitmiyor. Python ayrıca , kesinlikle keşfetmeye değer, seaborn adlı harika bir kütüphaneye sahiptir. Doğru bilgi görselleştirmesi, verilerimizin değerini artırmaya büyük ölçüde yardımcı olur. Veri görselleştirme, milyonlarca kayıt içeren sıkıcı tablolara bakmak yerine içgörü kazanmak ve çeşitli eğilimleri ve kalıpları belirlemek için her zaman daha iyi bir seçenek olacaktır.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Veri görselleştirme için bazı yararlı Python paketleri nelerdir?

Python, veri görselleştirme için bazı şaşırtıcı ve kullanışlı paketlere sahiptir. Bu paketlerden bazıları aşağıda belirtilmiştir:
1. Matplotlib - Matplotlib, dağılım grafikleri, çubuk grafikler, pasta grafikler ve çizgi grafikler gibi çeşitli biçimlerde veri görselleştirme için kullanılan popüler bir Python kitaplığıdır. Matematiksel işlemleri için Numpy kullanır.

2. Seaborn - Seaborn kütüphanesi, Python'da istatistiksel temsiller için kullanılır. Matplotlib'in üstünde geliştirildi ve Pandas veri yapılarıyla entegre edildi.
3. Altair - Altair, veri görselleştirme için bir başka popüler Python kütüphanesidir. Mümkün olan minimum kodlama ile görseller oluşturmanıza olanak sağlayan bildirimsel istatistik kütüphanesidir.
4. Plotly - Plotly, Python'un etkileşimli ve açık kaynaklı bir veri görselleştirme kitaplığıdır. Tarayıcı tabanlı bu kitaplığın oluşturduğu görseller, Jupyter Notebook ve bağımsız HTML dosyaları gibi birçok platform tarafından desteklenmektedir.

Nokta grafikleri ve dağılım grafikleri hakkında ne biliyorsunuz?

Nokta çizimleri, veri görselleştirme için en temel ve en basit çizimlerdir. Nokta grafiği, verileri kartezyen düzlemde noktalar şeklinde görüntüler. “+” değerdeki artışı gösterirken “-” değerdeki zamanla azalmayı gösterir.
Öte yandan bir Dağılım grafiği, verilerin 2 boyutlu bir düzlemde görselleştirildiği optimize edilmiş bir çizimdir. İlk parametre olarak x ekseni değerini ve ikinci parametre olarak y ekseni değerini alan scatter() işlevi kullanılarak tanımlanır.

Veri görselleştirmenin avantajları nelerdir?

Aşağıdaki avantajlar, veri görselleştirmelerinin bir organizasyonun büyümesi için nasıl gerçek kahraman haline gelebileceğini göstermektedir:
1. Veri görselleştirme, ham verileri yorumlamayı ve daha fazla analiz için anlamayı kolaylaştırır.
2. Verileri araştırıp analiz ettikten sonra, sonuçlar anlamlı görselleştirmeler kullanılarak görüntülenebilir. Bu, izleyiciyle bağlantı kurmayı ve sonuçları açıklamayı kolaylaştırır.
3. Bu tekniğin en önemli uygulamalarından biri, tahminleri ve potansiyel büyüme alanlarını ortaya çıkarmak için kalıpları ve eğilimleri analiz etmektir.
4. Verileri müşteri tercihlerine göre ayırmanıza da olanak tanır. Daha fazla dikkat gerektiren alanları da belirleyebilirsiniz.