Bibliothèques en Python expliquées : liste des bibliothèques importantes

Publié: 2021-06-14

Table des matières

Qu'est-ce qu'une bibliothèque ?
Que sont les bibliothèques Python ?
Bibliothèque standard Python
- Bibliothèques Python importantes
- 1. Matplotlib
- 4. Scipy (Python scientifique)
- 5. SQLAlchemy
- 6. Scrapy
- 13. PyTorch
- 14. Théano
- 15. SymPie
- 16. Café2
- 17. NuPIC
- 18. Pipenv
- 19. PyBrain
- 20. LAIT
Conclusion
- Quelles sont les meilleures bibliothèques pour la science des données en Python ?
- Quelle est l'importance des bibliothèques de modules en Python ?
- Comment importer une bibliothèque Python ?

Qu'est-ce qu'une bibliothèque ?

Une bibliothèque est un ensemble de codes précédemment combinés qui peuvent être utilisés de manière itérative, ce qui réduit le temps. Comme le terme l'indique, il est similaire à la bibliothèque physique qui contient des ressources réutilisables. Python a fondé plusieurs bibliothèques open source basées sur le fait que chaque bibliothèque a une source racine.

Que sont les bibliothèques Python ?

Python a été largement utilisé de nos jours en tant que langage de programmation de haut niveau. La facilité d'utilisation réside dans sa syntaxe qui utilise un nombre moindre de codes pour exprimer un concept. Par conséquent, cela permet à l'utilisateur d'appliquer python et d'écrire des programmes à grande et à petite échelle. Le langage prend en charge la gestion automatique de la mémoire et possède une grande bibliothèque standard.

Une bibliothèque Python définit des lignes de code qui peuvent être réutilisées dans d'autres programmes. Il s'agit essentiellement d'une collection de modules. Leur utilité réside dans le fait qu'il n'est pas nécessaire d'écrire de nouveaux codes à chaque fois que le même processus doit s'exécuter. Les bibliothèques en Python jouent un rôle important dans les domaines de la science des données, de l'apprentissage automatique, des applications de manipulation de données, etc.

Bibliothèque standard Python

La vie d'un programmeur devient facile avec la disponibilité d'un grand nombre de bibliothèques standards en python. C'est principalement parce que le programmeur n'est pas obligé de continuer à écrire les codes. Par exemple, un programmeur peut utiliser la bibliothèque MySQLdb pour connecter une base de données MySQL à un serveur. Les bibliothèques python sont principalement écrites dans le langage de programmation C qui gère les opérations telles que les E/S et d'autres modules de base. La bibliothèque standard se compose de plus de 200 modules de base et environ 137 000 bibliothèques Python ont été développées à ce jour.

Bibliothèques Python importantes

1. Matplotlib

Cette bibliothèque est utilisée pour le traçage de données numériques et utilisée dans l'analyse de données. Cette bibliothèque open source est utilisée pour publier des chiffres de haute qualité tels que des graphiques, des camemberts, des nuages de points, des histogrammes, etc.

2. Les pandas

Le panda est une bibliothèque open-source et sous licence BSD. La bibliothèque est largement utilisée dans le domaine de la science des données. Ils sont principalement utilisés pour l'analyse, la manipulation et le nettoyage des données. Sans qu'il soit nécessaire de le basculer vers un autre langage comme R, panda facilite les opérations de modélisation et d'analyse de données.

Les données utilisées par les librairies en python sont :

Données tabulaires
Séries chronologiques avec des données ordonnées et non ordonnées.
Données matricielles étiquetant les lignes et les colonnes.
Données non étiquetées
Toute autre forme de données statistiques

Installation de Pandas

L'utilisateur doit taper "pip install pandas" dans la ligne de commande ou taper "conda install pandas" si un anaconda a déjà été installé dans le système. Une fois l'installation terminée, il peut être importé dans l'IDE en tapant la commande "import pandas as pd".

Opérations à Panda

Un grand nombre d'opérations peuvent être effectuées dans panda :

Découpage de la trame de données
Fusion et jonction de blocs de données
Concaténation de colonnes à partir de deux blocs de données
Modification des valeurs d'index dans une trame de données.
Modification des en-têtes dans une colonne.
Conversion des données dans différents formats.

3. Numpy

S'écartant vers les domaines du calcul scientifique, NumPy est le package open source le plus utilisé proposé par python. Il prend en charge de grandes matrices et des données multidimensionnelles et possède des fonctions mathématiques intégrées pour un calcul facile. Le nom "NumPy" définit "Python numérique". Il peut être utilisé en algèbre linéaire, capacité de nombre aléatoire, etc., et peut agir comme un conteneur multidimensionnel pour les données génériques. Python NumPy Array est un objet définissant un tableau à N dimensions sous forme de lignes et de colonnes.

NumPy est préféré aux listes en python à cause de :

Moins de mémoire
Vite
Pratique

Installation

L'installation du package NumPy se fait en tapant la commande "" pip install numpy "sur l'invite de commande. L'importation du package dans l'IDE peut être effectuée via la commande "import numpy as np". Les packages d'installation sur NumPy se trouvent dans le lien

4. Scipy (Python scientifique)

Scipy est une bibliothèque python open source utilisée pour le calcul scientifique, le calcul de données et le calcul haute performance. Un grand nombre de routines conviviales sont présentes dans la bibliothèque pour un calcul facile. Le package est construit sur l'extension NumPy permettant la manipulation et la visualisation des données avec la disponibilité de commandes de haut niveau. Avec le NumPy, Scipy est utilisé pour le calcul mathématique. NumPy permet le tri, l'indexation des données du tableau, tandis que le code numérique est stocké dans SciPy.

Un grand nombre de sous-packages sont disponibles dans SciPy : cluster, constants, fftpack,integrate, interpolate, io, linalg, ndimage, odr,optimize, signal, sparse, spatial, special et stats. Ceux-ci peuvent être importés de SciPy via "from scipy import subpackage-name".

Cependant, les packages de base de SciPy sont NumPy, la bibliothèque SciPy, Matplotlib, IPython, Sympy et Pandas.

5. SQLAlchemy

Cette bibliothèque de python est principalement utilisée pour accéder aux informations à partir de bases de données prenant en charge un large éventail de bases de données et de mises en page. Pour sa compréhension facile, SQLAlchemy peut être utilisé au niveau débutant. Un grand nombre de plates-formes sont prises en charge par celui-ci, comme Python 2.5, Jython et Pypy, ce qui permet une communication rapide entre le langage Python et la base de données.

Le package peut être installé à partir du lien

6. Scrapy

Scrapy est un framework open-source en Python pour l'extraction de données à partir de sites Web. Il s'agit d'une bibliothèque de grattage et d'exploration Web rapide et de haut niveau sous «Scrapinghub ltd». En grattant plusieurs pages en une minute, Scrapy est une approche plus rapide pour le grattage Web.

Il peut être utilisé pour :

Comparaison des prix sur les portails Web pour des produits spécifiques.
Extraction de données pour la recherche d'informations.
Calcul des données dans les outils d'analyse de données.
Collecte de données et transmission aux centres d'information tels que les portails d'actualités.

Installation

Pour l'environnement conda, l'installation peut être effectuée via la commande "conda install -c conda-forge scrapy". Si conda n'est pas installé, la commande "pip install scrapy" est utilisée.

7. Belle soupe

Semblable à Scrapy, BeautifulSoup est une bibliothèque sous programmation Python utilisée pour l'extraction et la collecte d'informations à partir de sites Web. Il possède une excellente bibliothèque XML-HTML pour les débutants.

8. Scikit - apprendre

Scikit-learn est une bibliothèque open source sous l'environnement de programmation Python utilisée pour les approches d'apprentissage automatique. Il prend en charge une large gamme d'algorithmes d'apprentissage supervisés et non supervisés. La bibliothèque contient des algorithmes populaires ainsi que les packages NumPy, Matplotlib et SciPy. La célèbre application de Scikit-learn est dans Spotify pour les recommandations musicales.

Installation

Pour installer Scikit-learn, les packages ci-dessus doivent d'abord être installés. Étant donné que Scikit-learn est construit sur la plate-forme SciPy, SciPy doit d'abord être installé. L'installation peut alors se faire via pip.

8. Rampe

La bibliothèque Ramp est utilisée pour le prototypage rapide de modèles d'apprentissage automatique avec une syntaxe simple pour explorer les algorithmes, les fonctionnalités et les transformations. Il peut être utilisé avec des packages d'apprentissage automatique et des outils statistiques. Il se compose de diverses bibliothèques d'apprentissage automatique et de statistiques telles que; pandas, scikit-learn, etc. La collection de ces bibliothèques python fournit une syntaxe simple qui aide à explorer efficacement les fonctionnalités et les transformations.

Les détails de la bibliothèque Ramp sont accessibles à partir du lien

9. Seaborn

Le package peut être utilisé pour la visualisation des modèles statistiques. La librairie est basée sur Matplotlib et permet la création de graphiques statistiques à travers :

Comparaison de variables via une API basée sur des jeux de données.
Génération facile de visualisations complexes supportant des grilles multi-parcelles.
Comparaison de sous-ensembles de données via des visualisations univariées et bivariées.
Options de différentes palettes de couleurs pour afficher les motifs.
Estimation automatique de la régression linéaire et son traçage.

Installation

Les commandes suivantes peuvent être utilisées pour installer Seaborn :

pip installer seaborn
conda install seaborn (pour l'environnement conda)

L'installation de la bibliothèque est suivie de l'installation de ses dépendances : NumPy , SciPy , Matplotlib et Pandas . Une autre dépendance recommandée est les statsmodels.

Tout type de jeu de données peut être importé depuis GIT, via seaborn en utilisant la fonction load_dataset(). Le jeu de données peut être visualisé via la fonction get_dataset_names().

10. Modèles de statistiques

Statsmodels est une bibliothèque python utile dans l'analyse et l'estimation de modèles statistiques. La bibliothèque est incorporée pour effectuer les tests statistiques, etc. fournissant des résultats de haute performance.

11. TensorFlow

TensorFlow est une bibliothèque open source utilisée pour le calcul numérique haute performance. Il est également utilisé dans les approches d'apprentissage automatique et les algorithmes d'apprentissage en profondeur. Développé par les chercheurs de l'équipe Google Brain au sein de l'organisation Google AI, il est désormais largement utilisé par les chercheurs en mathématiques, en physique et en apprentissage automatique pour des calculs mathématiques complexes. TensorFlow est pris en charge par macOS 10.12.6 (Sierra) ou version ultérieure ; Windows 7 ou supérieur ; Ubuntu 16.04 ou version ultérieure ; et Raspbian 9.0 ou version ultérieure

12. PyGame

Le package PyGame fournit une interface aux bibliothèques graphiques, audio et d'entrée indépendantes de la plate-forme Simple Directmedia Library (SDL).

Installation

L'installation de Python 2.7 est indispensable avant l'installation de PyGame. Une fois Python 2.7 installé, le programme d'installation officiel de PyGame doit être téléchargé. Les fichiers correspondants sont à exécuter.

La commande « import pygame » est nécessaire pour importer les modules requis pour PyGame.
La commande "pygame.init()" est requise pour l'initialisation des modules requis pour PyGame.
La fonction « pygame.display.set_mode((width, height)) » lancera une fenêtre où les opérations graphiques doivent être effectuées.
La commande "pygame.event.get()" aide à vider les événements mis en file d'attente, sinon les événements s'accumuleront, ce qui entraînera le risque que le jeu ne réponde plus.
Pour quitter le jeu, la fonction "pygame.QUIT" est utilisée
La commande "pygame.display.flip()" est utilisée pour afficher toutes les mises à jour apportées au jeu.

13. PyTorch

PyTorch est une bibliothèque basée sur python combinant deux fonctionnalités de haut niveau :

Calcul du tenseur (comme NumPy) avec une forte accélération GPU
Les plates-formes Deep Neural Network offrent flexibilité et rapidité.

Il a été introduit par Facebook en 2017. Certaines des fonctionnalités de PyTorch sont :

Prend en charge Python et ses bibliothèques.
Utilisé dans le développement de Facebook pour ses besoins en Deep Learning.
Une API facile à utiliser pour une meilleure convivialité et une meilleure compréhension.
À tout moment de l'exécution du code, les graphiques peuvent être construits dynamiquement et peuvent être calculés dynamiquement au moment de l'exécution.
Codage facile et traitement rapide.
Peut être exécuté sur des machines GPU car il est pris en charge par CUDA.

Installation

PyTorch peut être installé via l'invite de commande ou dans un IDE.

14. Théano

Semblable à d'autres bibliothèques utilisées pour les opérations mathématiques, Theano permet à l'utilisateur de définir, d'optimiser et d'évaluer des expressions mathématiques. Il implique de grands tableaux multidimensionnels pour un calcul mathématique efficace. Les codes normaux basés sur C deviennent plus lents compte tenu des énormes volumes de données. Cependant, avec la disponibilité de la bibliothèque, Theano permet l'implémentation rapide du code. Les expressions instables peuvent être reconnues et calculées, ce qui rend la bibliothèque plus utile sur NumPy.

15. SymPie

Le package est le plus proche de la bibliothèque Theano et est utilisé dans toutes les mathématiques symboliques. Avec un code simple fourni par le package, la bibliothèque peut être utilisée efficacement pour le système de calcul formel. Écrit en python uniquement, SymPy peut être personnalisé et appliqué dans d'autres applications. Le code source du package peut être trouvé dans GitHub.

16. Café2

Caffe2 est un framework basé sur python pour l'apprentissage en profondeur. Certaines des fonctionnalités du package Caffe2 sont :

Prend en charge la formation distribuée à grande échelle.
Prise en charge du nouveau matériel.
Applicabilité à plusieurs calculs comme le calcul quantifié.

Le package est compatible avec les systèmes d'exploitation tels que MacOSX, Ubuntu, CentOS, Windows, iOS, Android, Raspbian et Tegra. Il peut être installé à partir de bibliothèques pré-construites, construites à partir de la source, d'images Docker ou du Cloud. Le guide d'installation est disponible

17. NuPIC

La bibliothèque signifie Numenta Platform for Intelligent Computing (NuPIC). Il fournit une plate-forme pour la mise en œuvre de l'algorithme d'apprentissage HTM. Les futurs algorithmes d'apprentissage automatique peuvent être fondés sur cette bibliothèque basée sur le néocortex. HTM contient des algorithmes d'apprentissage continu basés sur le temps et est une théorie computationnelle détaillée du néocortex. Les algorithmes sont associés au stockage et au rappel de modèles spatiaux et temporels. Des problèmes tels que la détection d'anomalies, etc. peuvent être résolus grâce à l'utilisation de NuPIC.

Les fichiers peuvent être téléchargés à partir du lien « https://pypi.org/project/nupic/ ».

18. Pipenv

Le Pipenv a été officiellement inclus dans les bibliothèques python en 2017. Il s'agit d'un outil de packaging python résolvant les problèmes de workflow. L'objectif principal du package est de fournir un environnement facile à configurer par les utilisateurs. Il rassemble tous les mondes de l'emballage, c'est-à-dire bundler, composer, npm, cargo, yarn, etc., et s'intègre dans l'environnement python. Certains des problèmes résolus par Pipenv sont :

Les utilisateurs n'ont plus besoin d'utiliser le « pip » et le « virtualenv » séparément pour travailler ensemble.
Les utilisateurs peuvent avoir un bon aperçu du graphique de dépendance.
Rationalisez le workflow de développement grâce aux fichiers .env.

Installation

Via la commande "$ sudo apt install pipenv" dans un Debian Buster.
Via la commande "$ sudo dnf install pipenv" dans Fedora.
Via la commande "pkg install py36-pipenv" dans FreeBSD.
Via Pipx en utilisant "$ pipx install pipenv".

19. PyBrain

PyBrain est une bibliothèque open source parmi les bibliothèques disponibles en python utilisées pour les algorithmes d'apprentissage automatique pour chaque étudiant débutant en recherche. L'objectif de PyBrain est de proposer des algorithmes flexibles et faciles à utiliser pour les tâches d'apprentissage automatique. Il fournit également des environnements prédéfinis pour comparer les algorithmes. PyBrain signifie Python-Based Reinforcement Learning, Artificial Intelligence et Neural Network Library. Comparé aux autres bibliothèques d'apprentissage automatique fournies par python, PyBrain est rapide et facilement compréhensible.

Certaines des fonctionnalités de PyBrain sont :

Réseaux : un réseau est défini comme des modules connectés par des liens. Peu de réseaux pris en charge par PyBrain sont Feed-Forward Network, Recurrent Network, etc.

- Le réseau où les informations sont transmises d'un nœud à l'autre dans le sens aller est appelé réseau Feed-Forward. L'information ne remontera pas dans ce type de réseau. C'est l'un des premiers et des plus simples réseaux offerts par le réseau de neurones artificiels. Le flux de données va des nœuds d'entrée vers les nœuds cachés et enfin vers les nœuds de sortie.
- Semblables aux nœuds Feed-Forward sont les nœuds récurrents, où les informations doivent être mémorisées à chaque étape.

Ensembles de données : les ensembles de données comprennent les données qui doivent être fournies aux réseaux pour les tests, la validation et la formation des réseaux. Cela dépend de la tâche à réaliser avec le machine learning. Deux types d'ensembles de données sont principalement pris en charge par PyBrain, à savoir SupervisedDataSet et ClassificationDataSet.

- SupervisedDataSet : ces types d'ensembles de données sont principalement utilisés pour des tâches d'apprentissage supervisé. Les champs des ensembles de données sont « l'entrée » et la « cible ».
- ClassificationDataSet : ces types d'ensembles de données sont principalement utilisés pour les tâches de classification. Outre les champs "entrée" et "cible", il existe un champ supplémentaire, à savoir "classe". La « classe » comprend la sauvegarde automatisée des cibles.

Entraîneur : les données d'un réseau neuronal sont entraînées avec les données d'entraînement fournies aux réseaux. Pour vérifier si le réseau est correctement formé, la prédiction des données de test sur ce réseau est analysée. Deux types d'entraîneurs principalement utilisés dans PyBrain sont :

- Backprop Trainer : les paramètres d'un réseau sont formés sur la base de l'ensemble de données supervisé ou ClassificationDataSet en rétropropageant les erreurs.
- TrainUntilConvergence : le module est entraîné jusqu'à la convergence

Visualisation : la visualisation des données peut être réalisée via d'autres frameworks comme Mathplotlib, pyplot, etc.

20. LAIT

Le package d'apprentissage automatique "MILK" en python se concentre sur l'utilisation des classificateurs disponibles pour la classification supervisée. Les classificateurs disponibles sont les SVM, k-NN, les forêts aléatoires et les arbres de décision. Parallèlement à la classification, MILK aide dans le processus de sélection des fonctionnalités. La combinaison des classificateurs varie selon les systèmes de classification.

Pour le problème de classification non supervisée, MILK utilise le clustering -means et la propagation d'affinité.
Les apports pour le LAIT varient. Il est principalement optimisé pour les tableaux NumPy, mais d'autres formes d'entrées peuvent être acceptées.
Les codes de MILK sont écrits en C++ qui utilise peu de mémoire et est à grande vitesse.

Installation

Le code d'installation de MILK peut être récupéré sur Github. Les commandes utilisées pour l'installation sont "easy_install milk" ou "pip install milk".

Plus d'informations sur la boîte à outils peuvent être récupérées à partir du lien.

Conclusion

Le langage python, simple à utiliser, a fait de nombreuses applications dans plusieurs domaines du monde réel. En tant que langage de haut niveau, typé dynamiquement et interprété, le langage se développe rapidement dans les domaines des erreurs de débogage. Certaines des applications mondiales où python est de plus en plus utilisé sont YouTube, DropBox, etc. De plus, avec la disponibilité de bibliothèques en python , les utilisateurs peuvent effectuer de nombreuses tâches sans avoir à écrire leurs propres codes.

Si vous êtes curieux d'en savoir plus sur les bibliothèques Python et la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, du mentorat avec l'industrie experts, 1-on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Quelles sont les meilleures bibliothèques pour la science des données en Python ?

- Pandas est une bibliothèque Python principalement utilisée pour l'analyse de données. C'est l'une des bibliothèques Python les plus utilisées. Il vous donne accès à certains des outils les plus essentiels pour explorer, nettoyer et analyser vos données.
- NumPy est bien connu pour sa prise en charge des tableaux à N dimensions. NumPy est un favori parmi les scientifiques des données car ces tableaux multidimensionnels sont 50 fois plus résistants que les listes Python.
- Scikit-learn est probablement la bibliothèque d'apprentissage automatique la plus importante en Python. Scikit-learn est utilisé pour créer des modèles d'apprentissage automatique après avoir nettoyé et traité vos données avec Pandas ou NumPy. Il contient de nombreux outils de modélisation et d'analyse prédictive.
- TensorFlow est l'une des bibliothèques Python les plus utilisées pour créer des réseaux de neurones. Il utilise des tableaux multidimensionnels, également appelés tenseurs, pour exécuter plusieurs opérations sur une seule entrée.
- Keras est principalement utilisé pour construire des modèles d'apprentissage en profondeur, en particulier des réseaux de neurones. Il est basé sur TensorFlow et Theano et vous permet de créer rapidement des réseaux de neurones.
- SciPy est principalement utilisé pour les fonctions scientifiques et mathématiques générées à partir de NumPy, comme son nom l'indique. Les fonctions statistiques, les fonctions d'optimisation et les fonctions de traitement du signal sont quelques-unes des fonctionnalités utiles fournies par cette bibliothèque.

Quelle est l'importance des bibliothèques de modules en Python ?

Le module vous aide à organiser votre code Python de manière logique. Le code est plus facile à comprendre et à utiliser lorsqu'il est organisé en modules. Vous pouvez facilement lier et référencer un module. Un module est juste un objet Python contenant des attributs nommés arbitrairement.
Un module est simplement un fichier contenant du code Python. Les variables, les classes et les fonctions peuvent toutes être définies dans un module. Le code exécutable peut également être inclus dans un module.

Comment importer une bibliothèque Python ?

Pour utiliser les fonctions d'un module, vous devez d'abord importer le module via une instruction d'importation. Le mot-clé import est suivi du nom du module dans une instruction d'importation. Cela sera indiqué en haut du programme, sous toutes les lignes shebang ou commentaires généraux, dans un fichier Python.