Wizualizacja danych w Pythonie: podstawowe wykresy wyjaśnione [z ilustracją graficzną]

Opublikowany: 2021-02-08

Spis treści

Podstawowe zasady projektowania

Dla każdego aspirującego lub odnoszącego sukcesy naukowca danych umiejętność wyjaśnienia swoich badań i analiz jest bardzo ważną i przydatną umiejętnością. W tym miejscu pojawia się wizualizacja danych. Uczciwe korzystanie z tego narzędzia jest bardzo ważne, ponieważ odbiorca może łatwo zostać wprowadzony w błąd lub zwiedziony przez złe wybory projektowe.

Jako badacze danych wszyscy mamy pewne obowiązki w kwestii zachowania prawdy.

Po pierwsze, podczas czyszczenia i podsumowywania danych powinniśmy być całkowicie szczerzy wobec siebie. Wstępne przetwarzanie danych jest bardzo ważnym etapem działania każdego algorytmu uczenia maszynowego, więc każda nieuczciwość w danych doprowadzi do drastycznie odmiennych wyników.

Kolejny obowiązek dotyczy naszej grupy docelowej. Istnieją różne techniki wizualizacji danych, które służą do wyróżnienia określonych sekcji danych i zmniejszenia widoczności innych fragmentów danych. Jeśli więc nie będziemy wystarczająco ostrożni, czytelnik nie będzie w stanie właściwie zbadać i ocenić analizy, co może prowadzić do wątpliwości i braku zaufania.

Ciągłe zadawanie sobie pytań jest dobrą cechą dla naukowców zajmujących się danymi. I zawsze powinniśmy pomyśleć o tym, jak w zrozumiały i estetyczny sposób pokazać to, co naprawdę jest ważne, pamiętając jednocześnie, że ważny jest kontekst.

To jest dokładnie to, co Alberto Cairo stara się przedstawić w swoich naukach. Wspomina o pięciu cechach wspaniałych wizualizacji: pięknych, pouczających, funkcjonalnych, wnikliwych i prawdziwych , o których warto pamiętać.

Niektóre podstawowe wątki

Teraz, gdy mamy podstawową wiedzę na temat zasad projektowania, zagłębmy się w kilka podstawowych technik wizualizacji przy użyciu biblioteki matplotlib w pythonie.

Cały poniższy kod można wykonać w notatniku Jupyter.

%notplotlib notatnik

# to zapewnia interaktywne środowisko i ustawia zaplecze. ( %matplotlib inline może być również użyty, ale nie jest interaktywny. Oznacza to, że dalsze wywołania funkcji kreślenia nie będą automatycznie aktualizować naszej oryginalnej wizualizacji.)

import matplotlib.pyplot jako plt # importowanie wymaganego modułu biblioteki

Wykresy punktowe

Najprostszą funkcją matplotlib do wykreślania punktu jest plot() . Argumenty reprezentują współrzędne X i Y, a następnie wartość ciągu opisującą sposób wyświetlania danych wyjściowych.

pl.figura()

plt.plot( 5, 6, '+' ) # znak + działa jak znacznik

Wykresy punktowe

Wykres rozrzutu to wykres dwuwymiarowy. Funkcja scatter() również przyjmuje wartość X jako pierwszy argument i wartość Y jako drugi. Poniższy wykres jest linią ukośną, a matplotlib automatycznie dostosowuje rozmiar obu osi. Tutaj wykres punktowy nie traktuje pozycji jako serii. Możemy więc podać również listę pożądanych kolorów odpowiadających każdemu z punktów.

importuj numer jako np

x = np. tablica( [1, 2, 3, 4, 5, 6, 7, 8] )

y = x

pl.figura()

plt.scatter( x, y )

Działki liniowe

Wykres liniowy jest tworzony za pomocą funkcji plot() i wykreśla szereg różnych serii punktów danych, takich jak wykres punktowy, ale łączy każdą serię punktów za pomocą linii.

importuj numer jako np

dane_liniowe = np. tablica( [1, 2, 3, 4, 5, 6, 7, 8] )

dane_kwadratowe = dane_liniowe**2

pl.figura()

plt.plot( dane_liniowe, '-o', dane_kwadratowe, '-o')

Aby wykres był bardziej czytelny, możemy również dodać legendę, która powie nam, co reprezentuje każda linia. Ważny jest odpowiedni tytuł wykresu i obu osi. Również każdą sekcję wykresu można zacienić za pomocą funkcji fill_between() , aby podświetlić odpowiednie regiony.

plt.xlabel('Wartości X')

plt.ylabel('Wartości Y')

plt.title('Wykresy liniowe')

plt.legend( ['liniowe', 'kwadratowe'] )

plt.gca().fill_between( range ( len ( linear_data ) ), linear_data, squared_data, facecolor = 'blue', alpha = 0.25)

Tak wygląda zmodyfikowany wykres-

Wykresy słupkowe

Możemy wykreślić wykres słupkowy, wysyłając argumenty dla wartości X i wysokości każdego słupka do funkcji bar() . Poniżej znajduje się wykres słupkowy tej samej liniowej tablicy danych, której użyliśmy powyżej.

pl.figura()

x = zakres( dł ( dane_liniowe ))

plt.bar( x, dane_liniowe )

# aby wykreślić dane do kwadratu jako kolejny zestaw słupków na tym samym wykresie, musimy dostosować nowe wartości x, aby uzupełnić pierwszy zestaw słupków

nowy_x = []

dla danych w x:

nowy_x.append(dane+0.3)

plt.bar(nowy_x, dane_kwadratowe, szerokość = 0,3, kolor = 'zielony')

# Dla wykresów z orientacją poziomą używamy funkcji barh ()

pl.figura()

x = zakres( len( dane_liniowe ))

plt.barh( x, dane_liniowe, wysokość = 0,3, kolor = 'b')

plt.barh( x, dane_kwadratowe, wysokość = 0,3, lewa = dane_liniowe, kolor = 'g')

#tutaj jest przykład pionowego układania wykresów słupków

pl.figura()

x = zakres( len( dane_liniowe ))

plt.bar( x, linear_data, width = 0.3, color = 'b')

plt.bar( x, dane_kwadratowe, szerokość = 0,3, dół = dane_liniowe, kolor = 'g')

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Wniosek

Rodzaje wizualizacji nie kończą się tutaj. Python ma również świetną bibliotekę o nazwie seaborn , którą zdecydowanie warto poznać. Właściwa wizualizacja informacji znacznie pomaga zwiększyć wartość naszych danych. Wizualizacja danych zawsze będzie lepszą opcją do uzyskiwania wglądu i identyfikowania różnych trendów i wzorców, zamiast przeglądania nudnych tabel z milionami rekordów.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jakie są przydatne pakiety Pythona do wizualizacji danych?

Python ma kilka niesamowitych i użytecznych pakietów do wizualizacji danych. Niektóre z tych pakietów są wymienione poniżej:
1. Matplotlib — Matplotlib to popularna biblioteka Pythona używana do wizualizacji danych w różnych formach, takich jak wykresy rozrzutu, wykresy słupkowe, wykresy kołowe i wykresy liniowe. Używa Numpy do swoich operacji matematycznych.

2. Seaborn — Biblioteka Seaborn jest używana do reprezentacji statystycznych w Pythonie. Jest rozwijany na bazie Matplotlib i jest zintegrowany ze strukturami danych Pandas.
3. Altair — Altair to kolejna popularna biblioteka Pythona do wizualizacji danych. Jest to deklaratywna biblioteka statystyczna, która pozwala tworzyć wizualizacje przy minimalnym możliwym kodowaniu.
4. Plotly — Plotly to interaktywna biblioteka do wizualizacji danych o otwartym kodzie źródłowym w Pythonie. Wizualizacje tworzone przez tę bibliotekę opartą na przeglądarce są obsługiwane przez wiele platform, takich jak Jupyter Notebook i samodzielne pliki HTML.

Co wiesz o wykresach punktowych i wykresach punktowych?

Wykresy punktowe to najbardziej podstawowe i najprostsze wykresy do wizualizacji danych. Wykres punktowy wyświetla dane w postaci punktów na płaszczyźnie kartezjańskiej. „+” pokazuje wzrost wartości, a „-” oznacza spadek wartości w czasie.
Z drugiej strony wykres punktowy to zoptymalizowany wykres, w którym dane są wizualizowane na płaszczyźnie 2D. Jest ona definiowana za pomocą funkcji scatter(), która przyjmuje wartość z osi x jako pierwszy parametr, a wartość z osi y jako drugi parametr.

Jakie są zalety wizualizacji danych?

Poniższe zalety pokazują, jak wizualizacje danych mogą stać się prawdziwym bohaterem rozwoju organizacji:
1. Wizualizacja danych ułatwia interpretację surowych danych i zrozumienie ich do dalszej analizy.
2. Po zbadaniu i przeanalizowaniu danych wyniki można wyświetlić za pomocą znaczących wizualizacji. Ułatwia to nawiązanie kontaktu z publicznością i wyjaśnienie wyników.
3. Jednym z najważniejszych zastosowań tej techniki jest analiza wzorców i trendów w celu wywnioskowania przewidywań i potencjalnych obszarów wzrostu.
4. Pozwala również na segregowanie danych według preferencji klienta. Możesz także określić obszary, które wymagają większej uwagi.