Objaśnienie bibliotek w Pythonie: lista ważnych bibliotek

Opublikowany: 2021-06-14

Spis treści

Czym jest biblioteka?

Biblioteka to wcześniej połączony zestaw kodów, których można używać iteracyjnie, co skraca czas. Jak sugeruje termin, jest podobny do fizycznej biblioteki, w której znajdują się zasoby wielokrotnego użytku. Python stworzył kilka bibliotek open source w oparciu o fakt, że każda biblioteka ma źródło główne.

Czym są biblioteki Pythona?

Python jest szeroko stosowany w obecnych czasach jako język programowania wysokiego poziomu. Łatwość użycia polega na jego składni, która używa mniejszej liczby kodów do wyrażenia koncepcji. Dzięki temu użytkownik może stosować Pythona i pisać programy zarówno na dużą, jak i na małą skalę. Język obsługuje automatyczne zarządzanie pamięcią i posiada dużą standardową bibliotekę.

Biblioteka Pythona definiuje wiersze kodu, które można ponownie wykorzystać w innych programach. Jest to w zasadzie zbiór modułów. Ich użyteczność polega na tym, że nie trzeba pisać nowych kodów za każdym razem, gdy ten sam proces jest wymagany do uruchomienia. Biblioteki w Pythonie odgrywają ważną rolę w obszarach nauki o danych, uczenia maszynowego, aplikacji do manipulacji danymi itp.

Standardowa biblioteka Pythona

Życie programisty staje się łatwe dzięki dostępności dużej liczby standardowych bibliotek w Pythonie. Dzieje się tak głównie dlatego, że od programisty nie wymaga się ciągłego pisania kodów. Na przykład programista może użyć biblioteki MySQLdb do połączenia bazy danych MySQL z serwerem. Biblioteki Pythona są w większości napisane w języku programowania C, który obsługuje operacje takie jak I/O i inne podstawowe moduły. Standardowa biblioteka składa się z ponad 200 podstawowych modułów i do tej pory opracowano około 137 000 bibliotek Pythona .

Ważne biblioteki Pythona

1. Matplotlib

Ta biblioteka służy do wykreślania danych liczbowych i jest używana w analizie danych. Ta biblioteka typu open source służy do publikowania wysokiej jakości danych, takich jak wykresy, wykresy kołowe, wykresy rozrzutu, histogramy itp.

2. Pandy

Panda jest biblioteką typu open source i posiada licencję BSD. Biblioteka jest szeroko stosowana w dziedzinie nauki o danych. Służą one głównie do analizy, manipulacji i czyszczenia danych. Bez konieczności przełączania go na inny język, taki jak R, panda umożliwia łatwe operacje modelowania i analizy danych.

Dane używane przez biblioteki w Pythonie to:

Dane tabelaryczne
Szeregi czasowe z danymi uporządkowanymi i nieuporządkowanymi.
Etykietowanie danych macierzy wierszami i kolumnami.
Dane nieoznakowane
Dowolna inna forma danych statystycznych

Instalacja Pand

Użytkownik musi wpisać „pip install pandas” w wierszu poleceń lub „conda install pandas”, jeśli anakonda została już zainstalowana w systemie. Po zakończeniu instalacji można go zaimportować do IDE, wpisując polecenie „import pandas as pd”.

Operacje w Pandzie

W pandzie można wykonać dużą liczbę operacji:

Krojenie ramki danych
Scalanie i łączenie ramek danych
Łączenie kolumn z dwóch ramek danych
Zmiana wartości indeksów w ramce danych.
Zmiana nagłówków w kolumnie.
Konwersja danych do różnych formatów.

3. Nudny

Odchodząc w kierunku obszarów obliczeń naukowych, NumPy jest najczęściej używanymi pakietami open-source oferowanymi przez Pythona. Obsługuje duże macierze i dane wielowymiarowe oraz ma wbudowane funkcje matematyczne ułatwiające obliczenia. Nazwa „NumPy” definiuje „Pyton numeryczny”. Może być używany w algebrze liniowej, funkcjach liczb losowych itp. i może działać jako wielowymiarowy pojemnik na dane ogólne. Python NumPy Array to obiekt definiujący N-wymiarową tablicę w postaci wierszy i kolumn.

NumPy jest preferowany nad listami w Pythonie z powodu:

Mniej pamięci
Szybko
Wygodna

Instalacja

Instalacja pakietu NumPy odbywa się poprzez wpisanie polecenia „pip install numpy” w wierszu poleceń. Import pakietu w IDE można wykonać za pomocą polecenia „import numpy as np”. Pakiety instalacyjne na NumPy można znaleźć w linku

4. Scipy (python naukowy)

Scipy to biblioteka Pythona typu open source używana do obliczeń naukowych, obliczeń danych i obliczeń o wysokiej wydajności. W bibliotece znajduje się duża liczba przyjaznych dla użytkownika podprogramów, które ułatwiają obliczenia. Pakiet jest zbudowany na rozszerzeniu NumPy umożliwiającym manipulację i wizualizację danych z dostępnością poleceń wysokiego poziomu. Wraz z NumPy, Scipy jest używany do obliczeń matematycznych. NumPy umożliwia sortowanie, indeksowanie danych tablicy, podczas gdy kod numeryczny jest przechowywany w SciPy.

W SciPy dostępna jest duża liczba podpakietów: klaster, stałe, fftpack, integracja, interpolacja, io, linalg, ndimage, odr, optymalizacja, sygnał, sparse, przestrzenne, specjalne i statystyki. Można je zaimportować ze SciPy poprzez „from scipy import subpackage-name”.

Jednak podstawowe pakiety SciPy to NumPy, biblioteka SciPy, Matplotlib, IPython, Sympy i Pandas.

5. SQLAlchemia

Ta biblioteka Pythona jest używana głównie do uzyskiwania dostępu do informacji z baz danych obsługujących szeroką gamę baz danych i układów. Dla łatwego zrozumienia SQLAlchemy może być używany na poziomie początkującym. Obsługuje wiele platform, takich jak Python 2.5, Jython i Pypy, które umożliwiają szybką komunikację między językiem Python a bazą danych.

Pakiet można zainstalować z linku

6. Złośliwy

Scrapy to framework o otwartym kodzie źródłowym w Pythonie do ekstrakcji danych ze stron internetowych. Jest to szybka, wysokopoziomowa biblioteka do skrobania i przeszukiwania sieci pod nazwą „Scrapinghub ltd”. Scrapy wielu stron w ciągu minuty, Scrapy to szybsze podejście do skrobania stron internetowych.

Może być używany do:

Porównanie cen w portalach internetowych dla poszczególnych produktów.
Eksploracja danych do wyszukiwania informacji.
Obliczanie danych w narzędziach do analizy danych.
Gromadzenie danych i dostarczanie ich do ośrodków informacyjnych, takich jak portale informacyjne.

Instalacja

W przypadku środowiska conda instalację można wykonać za pomocą polecenia „conda install -c conda-forge scrapy”. Jeśli conda nie jest zainstalowany, używane jest polecenie „pip install scrapy”.

7. Piękna Zupa

Podobnie jak Scrapy, BeautifulSoup jest biblioteką w języku Python, używaną do wydobywania i zbierania informacji ze stron internetowych. Posiada doskonałą bibliotekę XML-HTML dla początkujących.

8. Scikit-ucz się

Scikit-learning to biblioteka typu open source w środowisku programowania Python, używana w podejściach do uczenia maszynowego. Obsługuje szeroką gamę nadzorowanych i nienadzorowanych algorytmów uczenia się. Biblioteka zawiera popularne algorytmy wraz z pakietami NumPy, Matplotlib i SciPy. Słynna aplikacja Scikit-learn znajduje się w Spotify do rekomendacji muzycznych.

Instalacja

Aby zainstalować Scikit-learn, najpierw należy zainstalować powyższe pakiety. Ponieważ Scikit-learn jest zbudowany na platformie SciPy, SciPy musi być najpierw zainstalowany. Instalację można następnie wykonać za pomocą pip.

8. Rampa

Biblioteka Ramp służy do szybkiego prototypowania modeli uczenia maszynowego z prostą składnią do eksploracji algorytmów, funkcji i transformacji. Może być używany z pakietami uczenia maszynowego i narzędziami statystycznymi. Składa się z różnych bibliotek uczenia maszynowego i statystycznych, takich jak; pandy, scikit-learn itp. Kolekcja tych bibliotek Pythona zapewnia prostą składnię, która pomaga w efektywnym eksplorowaniu funkcji i transformacji.

Szczegółowe informacje na temat biblioteki Ramp można uzyskać pod linkiem

9. Zrodzony z morza

Pakiet może służyć do wizualizacji modeli statystycznych. Biblioteka oparta jest na Matplotlib i umożliwia tworzenie grafiki statystycznej poprzez:

Porównanie zmiennych poprzez API na podstawie zbiorów danych.
Łatwe generowanie złożonej wizualizacji obsługującej siatki wielu wykresów.
Porównanie podzbiorów danych za pomocą wizualizacji jednowymiarowych i dwuwymiarowych.
Opcje różnych palet kolorów do wyświetlania wzorów.
Automatyczne szacowanie regresji liniowej i jej wykreślanie.

Instalacja

Do instalacji Seaborn można użyć następujących poleceń:

pip zainstalować seaborn
conda install seaborn (dla środowiska conda)

Po instalacji biblioteki następuje instalacja jej zależności: NumPy , SciPy , Matplotlib i Pandas . Inną zalecaną zależnością są modele statystyk.

Dowolny typ zestawu danych można zaimportować z GIT za pośrednictwem seaborn za pomocą funkcji load_dataset(). Zestaw danych można wyświetlić za pomocą funkcji get_dataset_names().

10. Modele statystyk

Statsmodels to biblioteka Pythona przydatna w analizie i estymacji modeli statystycznych. Biblioteka jest włączona do przeprowadzania testów statystycznych itp., zapewniając wyniki o wysokiej wydajności.

11. Przepływ Tensora

TensorFlow to biblioteka typu open source używana do wysokowydajnych obliczeń numerycznych. Jest również stosowany w podejściach do uczenia maszynowego i algorytmach głębokiego uczenia. Opracowany przez naukowców z zespołu Google Brain w ramach organizacji Google AI, jest obecnie szeroko stosowany przez badaczy matematyki, fizyki i uczenia maszynowego do złożonych obliczeń matematycznych. TensorFlow jest obsługiwany przez system macOS 10.12.6 (Sierra) lub nowszy; Windows 7 lub nowszy; Ubuntu 16.04 lub nowszy; i Raspbian 9.0 lub nowszy

12. PyGame

Pakiet PyGame zapewnia interfejs do niezależnej od platformy biblioteki graficznej, dźwiękowej i wejściowej Simple Directmedia Library (SDL).

Instalacja

Instalacja Pythona 2.7 jest koniecznością przed instalacją PyGame. Po zainstalowaniu Pythona 2.7 należy pobrać oficjalny instalator PyGame. Należy wykonać odpowiednie pliki.

Polecenie „import pygame” jest wymagane do zaimportowania modułów wymaganych dla PyGame.
Polecenie „pygame.init()” jest wymagane do zainicjowania wymaganych modułów dla PyGame.
Funkcja „pygame.display.set_mode((szerokość, wysokość))” uruchomi okno, w którym mają zostać wykonane operacje graficzne.
Polecenie „pygame.event.get()” pomaga w opróżnianiu zdarzeń z kolejki, w przeciwnym razie zdarzenia będą się nawarstwiać, co prowadzi do ryzyka, że gra przestanie odpowiadać.
Pierwsza funkcja wyjścia z gry „pygame.QUIT” jest używana
Polecenie „pygame.display.flip()” służy do wyświetlania wszelkich aktualizacji wprowadzonych do gry.

13. PyTorch

PyTorch to biblioteka oparta na Pythonie, łącząca dwie funkcje wysokiego poziomu:

Obliczenia tensorowe (jak NumPy) z silnym przyspieszeniem GPU
Platformy Deep Neural Network zapewniają elastyczność i szybkość.

Został wprowadzony przez Facebook w 2017 roku. Niektóre funkcje PyTorch to:

Obsługa Pythona i jego bibliotek.
Wykorzystywany w rozwoju Facebooka ze względu na jego wymagania dotyczące głębokiego uczenia się.
Łatwy w użyciu interfejs API zapewniający lepszą użyteczność i zrozumienie.
W dowolnym momencie wykonywania kodu wykresy mogą być budowane dynamicznie i mogą być dynamicznie obliczane w czasie wykonywania.
Łatwe kodowanie i szybkie przetwarzanie.
Może być wykonywany na maszynach GPU, ponieważ jest obsługiwany przez CUDA.

Instalacja

PyTorch można zainstalować za pomocą wiersza poleceń lub w środowisku IDE.

14. Teano

Podobnie jak inne biblioteki używane do operacji matematycznych, Theano umożliwia użytkownikowi definiowanie, optymalizację i ocenę wyrażeń matematycznych. Obejmuje duże wielowymiarowe tablice do wydajnych obliczeń matematycznych. Normalne kody oparte na C stają się wolniejsze, biorąc pod uwagę ogromne ilości danych. Jednak dzięki dostępności biblioteki Theano umożliwia szybką implementację kodu. Wyrażenia niestabilne mogą być rozpoznawane i obliczane, dzięki czemu biblioteka jest bardziej użyteczna niż NumPy.

15. SymPy

Pakiet jest najbliższy bibliotece Theano i jest używany we wszystkich symbolach matematycznych. Dzięki prostemu kodowi dostarczonemu przez pakiet, biblioteka może być efektywnie wykorzystana w systemie algebry komputerowej. Napisany tylko w Pythonie SymPy można dostosować i zastosować w innych aplikacjach. Kod źródłowy pakietu można znaleźć w serwisie GitHub.

16. Kawa2

Caffe2 to oparta na Pythonie platforma do głębokiego uczenia się. Niektóre cechy pakietu Caffe2 to:

Obsługuje rozproszone szkolenia na dużą skalę.
Wsparcie dla nowego sprzętu.
Możliwość zastosowania do kilku obliczeń, takich jak obliczenia kwantowe.

Pakiet jest kompatybilny z systemami operacyjnymi takimi jak MacOSX, Ubuntu, CentOS, Windows, iOS, Android, Raspbian i Tegra. Można go zainstalować z gotowych bibliotek, zbudowanych ze źródeł, obrazów doków lub chmury. Instrukcja instalacji jest dostępna

17. NuPIC

Biblioteka to skrót od Numenta Platform for Intelligent Computing (NuPIC). Stanowi platformę do implementacji algorytmu uczenia HTM. Przyszłe algorytmy uczenia maszynowego mogą być oparte na tej bibliotece opartej na korze nowej. HTM zawiera oparte na czasie algorytmy ciągłego uczenia się i jest szczegółową teorią obliczeniową kory nowej. Algorytmy są związane z przechowywaniem i przywoływaniem wzorców przestrzennych i czasowych. Problemy takie jak wykrywanie anomalii itp. można rozwiązać za pomocą NuPIC.

Pliki można pobrać z linku „https://pypi.org/project/nupic/”.

18. Pipen

Pipenv został oficjalnie włączony do bibliotek Pythona w 2017 roku. Jest to narzędzie do pakowania Pythona rozwiązujące problemy przepływu pracy. Głównym celem pakietu jest zapewnienie środowiska łatwego do skonfigurowania przez użytkowników. Gromadzi wszystkie światy opakowań, tj. bundler, kompozytor, npm, cargo, yarn, itp. i integruje się ze środowiskiem Pythona. Niektóre z problemów rozwiązanych przez Pipenv to:

Użytkownicy nie muszą już używać osobno „pip” i „virtualenv”, aby pracować razem.
Użytkownicy mogą uzyskać właściwy wgląd w wykres zależności.
Usprawnij przepływ pracy programistycznej dzięki plikom .env.

Instalacja

Za pomocą polecenia „$ sudo apt install pipenv” w Debian Buster.
Za pomocą polecenia „$ sudo dnf install pipenv” w Fedorze.
Za pomocą polecenia „pkg install py36-pipenv” we FreeBSD.
Przez Pipxa używając „$ pipx install pipenv”.

19. Pymózg

PyBrain to biblioteka open source z dostępnych bibliotek w Pythonie używana do algorytmów uczenia maszynowego dla każdego ucznia na poziomie podstawowym w badaniach. Celem PyBrain jest oferowanie elastycznych i łatwych w użyciu algorytmów do zadań uczenia maszynowego. Zapewnia również predefiniowane środowiska do porównywania algorytmów. PyBrain to skrót od Python-Based Reinforcement Learning, Artificial Intelligence i Neural Network Library. W porównaniu do innych bibliotek uczenia maszynowego dostarczanych przez Pythona, PyBrain jest szybki i łatwy do zrozumienia.

Niektóre z funkcji PyBrain to:

Sieci: sieć definiuje się jako moduły połączone łączami. Niewiele sieci obsługiwanych przez PyBrain to Feed-Forward Network, Recurrent Network itp.

- Sieć, w której informacje są przekazywane z jednego węzła do drugiego w kierunku do przodu, nazywana jest siecią Feed-Forward. Informacje nie będą cofać się w tego typu sieciach. Jest to jedna z pierwszych i najprostszych sieci oferowanych przez sztuczną sieć neuronową. Przepływ danych odbywa się z węzłów wejściowych do węzłów ukrytych i wreszcie do węzłów wyjściowych.
- Podobnie do węzłów Feed-Forward są węzły powtarzające się, w których informacje muszą być zapamiętane na każdym kroku.

Zestawy danych: Zestawy danych zawierają dane, które mają być dostarczone do sieci w celu testowania, walidacji i szkolenia sieci. Zależy to od zadania, które ma zostać wykonane z uczeniem maszynowym. PyBrain obsługuje głównie dwa typy zbiorów danych, tj. SupervisedDataSet i ClassificationDataSet.

- SupervisedDataSet: tego typu zestawy danych są najczęściej używane do nadzorowanych zadań uczenia się. Pola w zbiorach danych to „dane wejściowe” i „docelowe”.
- ClassificationDataSet: Tego typu zestawy danych są najczęściej używane do zadań klasyfikacyjnych. Wraz z polami „input” i „target” istnieje dodatkowe pole „class”. „Klasa” obejmuje automatyczną kopię zapasową celów.

Trener: Dane w sieci neuronowej są trenowane z danymi treningowymi dostarczanymi do sieci. Aby sprawdzić, czy sieć jest odpowiednio przeszkolona, analizowane są przewidywania danych testowych w tej sieci. Dwa typy trenerów najczęściej używane w PyBrain to:

- Backprop Trainer: parametry w sieci są szkolone na podstawie nadzorowanego zestawu danych lub zestawu danych ClassificationDataSet poprzez wsteczną propagację błędów.
- TrainUntilConvergence: moduł jest trenowany aż do zbieżności

Wizualizacja : wizualizację danych można przeprowadzić za pomocą innych frameworków, takich jak Mathplotlib, pyplot itp.

20. MLEKO

Pakiet uczenia maszynowego „MILK” w Pythonie skupia się na wykorzystaniu dostępnych klasyfikatorów do nadzorowanej klasyfikacji. Dostępne klasyfikatory to SVM, k-NN, lasy losowe i drzewa decyzyjne. Wraz z klasyfikacją MILK pomaga w procesie doboru cech. Kombinacja klasyfikatorów różni się w zależności od systemów klasyfikacji.

W przypadku problemu klasyfikacji nienadzorowanej MILK używa klastrowania -średnie i propagacji powinowactwa.
Wejścia dla MLEKA są różne. Przeważnie jest zoptymalizowany pod kątem tablic NumPy, ale można zaakceptować inne formy danych wejściowych.
Kody w MILK są napisane w C++, które zużywają mało pamięci i są bardzo szybkie.

Instalacja

Kod instalacyjny MILK można pobrać z Github. Komendy używane do instalacji to „easy_install milk” lub „pip install milk”.

Więcej informacji na temat zestawu narzędzi można znaleźć w linku.

Wniosek

Prosty w użyciu język Pythona ma szerokie zastosowanie w kilku obszarach świata rzeczywistego. Będąc językiem wysokiego poziomu, dynamicznie typowanym i interpretowanym, język ten szybko rozwija się w obszarach debugowania błędów. Niektóre globalne aplikacje, w których python jest coraz częściej używany, to YouTube, DropBox itp. Ponadto, dzięki dostępności bibliotek w pythonie , użytkownicy mogą wykonywać wiele zadań bez konieczności pisania własnych kodów.

Jeśli chcesz dowiedzieć się więcej o bibliotekach Pythona i nauce o danych, sprawdź program Executive PG w dziedzinie Data Science IIIT-B i upGrad, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring w branży eksperci, indywidualni z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jakie są najlepsze biblioteki do nauki o danych w Pythonie?

- Pandas to biblioteka Pythona używana głównie do analizy danych. Jest to jedna z najczęściej używanych bibliotek Pythona. Daje dostęp do niektórych z najważniejszych narzędzi do eksploracji, czyszczenia i analizowania danych.
- NumPy jest dobrze znany z obsługi tablic N-wymiarowych. NumPy jest ulubieńcem naukowców zajmujących się danymi, ponieważ te wielowymiarowe tablice są 50 razy bardziej odporne niż listy Pythona.
- Scikit-learn jest prawdopodobnie najważniejszą biblioteką uczenia maszynowego w Pythonie. Scikit-learn służy do budowania modeli uczenia maszynowego po oczyszczeniu i przetworzeniu danych za pomocą Pandas lub NumPy. Zawiera wiele narzędzi do modelowania i analizy predykcyjnej.
- TensorFlow to jedna z najczęściej używanych bibliotek Pythona do tworzenia sieci neuronowych. Wykorzystuje wielowymiarowe tablice, zwane również tensorami, do wykonywania kilku operacji na jednym wejściu.
- Keras jest najczęściej używany do budowania modeli głębokiego uczenia, w szczególności sieci neuronowych. Opiera się na TensorFlow i Theano i pozwala na szybkie tworzenie sieci neuronowych.
- SciPy jest używany głównie do funkcji naukowych i matematycznych generowanych z NumPy, jak sama nazwa wskazuje. Funkcje statystyczne, funkcje optymalizacji i funkcje przetwarzania sygnałów to tylko niektóre z przydatnych funkcji udostępnianych przez tę bibliotekę.

Jakie znaczenie mają biblioteki modułów w Pythonie?

Moduł pomaga uporządkować kod Pythona w logiczny sposób. Kod jest łatwiejszy do zrozumienia i wykorzystania, gdy jest zorganizowany w moduły. Możesz łatwo powiązać i odwołać się do modułu. Moduł to po prostu obiekt Pythona zawierający arbitralnie nazwane atrybuty.
Moduł to po prostu plik zawierający kod Pythona. Zmienne, klasy i funkcje można zdefiniować w module. W module można również umieścić kod, który można uruchomić.

Jak zaimportować bibliotekę Pythona?

Aby wykorzystać funkcje modułu, należy najpierw zaimportować moduł za pomocą instrukcji import. Po słowie kluczowym import następuje nazwa modułu w instrukcji import. Zostanie to podane w górnej części programu, pod wszelkimi wierszami lub komentarzami ogólnymi, w pliku Pythona.