Bibliotecas em Python Explicadas: Lista de Bibliotecas Importantes
Publicados: 2021-06-14Índice
O que é uma biblioteca?
Uma biblioteca é um conjunto previamente combinado de códigos que podem ser usados iterativamente, reduzindo assim o tempo. Como o termo sugere, é semelhante à biblioteca física que contém recursos reutilizáveis. Python fundou várias bibliotecas de código aberto com base no fato de que cada biblioteca tem uma fonte raiz.
O que são bibliotecas Python?
Python tem sido amplamente utilizado nos tempos atuais sendo uma linguagem de programação de alto nível. A facilidade de uso está em sua sintaxe que utiliza um número menor de códigos para expressar um conceito. Portanto, isso permite que o usuário aplique python e escreva programas em escalas grandes e pequenas. A linguagem suporta gerenciamento automático de memória e possui uma grande biblioteca padrão.
Uma biblioteca Python define linhas de código que podem ser reutilizadas em outros programas. É basicamente uma coleção de módulos. Sua utilidade reside no fato de que novos códigos não precisam ser escritos toda vez que o mesmo processo é executado. As bibliotecas em Python desempenham um papel importante nas áreas de ciência de dados, aprendizado de máquina, aplicativos de manipulação de dados, etc.
Biblioteca padrão do Python
A vida de um programador se torna fácil com a disponibilidade de um grande número de bibliotecas padrão em python. Isso ocorre principalmente porque o programador não é obrigado a continuar escrevendo os códigos. Por exemplo, um programador pode usar a biblioteca MySQLdb para conectar um banco de dados MySQL a um servidor. As bibliotecas python são escritas principalmente na linguagem de programação C que lida com operações como E/S e outros módulos principais. A biblioteca padrão consiste em mais de 200 módulos principais e cerca de 137.000 bibliotecas python foram desenvolvidas até o momento.
Bibliotecas Python importantes
1. Matplotlib
Esta biblioteca é usada para a plotagem de dados numéricos e usada na análise de dados. Esta biblioteca de código aberto é usada para publicar figuras de alta qualidade, como gráficos, gráficos de pizza, gráficos de dispersão, histogramas, etc.
2. Pandas
O panda é uma biblioteca de código aberto e licenciada BSD. A biblioteca é amplamente utilizada na área de ciência de dados. Eles são usados principalmente para a análise, manipulação e limpeza de dados. Sem a necessidade de mudar para outra linguagem como R, o panda possibilita as operações fáceis de modelagem e análise de dados.
Os dados usados pelas bibliotecas em python são:
- Dados tabulares
- Séries temporais com dados ordenados e não ordenados.
- Dados de matriz rotulando linhas e colunas.
- Dados não rotulados
- Qualquer outra forma de dados estatísticos
Instalação de pandas
O usuário deve digitar “pip install pandas” na linha de comando ou digitar “conda install pandas” se uma anaconda já estiver instalada no sistema. Assim que a instalação estiver concluída, ela pode ser importada para o IDE digitando o comando “import pandas as pd”.
Operações em Panda
Um grande número de operações pode ser realizado no panda:
- Fatiar o quadro de dados
- Mesclando e juntando quadros de dados
- Concatenação de colunas de dois quadros de dados
- Alteração de valores de índice em um quadro de dados.
- Alteração de cabeçalhos em uma coluna.
- Conversão de dados em diferentes formatos.
3. Numpy
Desviando-se para as áreas de computação científica, o NumPy é o pacote de código aberto mais usado oferecido pelo python. Ele suporta grandes matrizes e dados multidimensionais e possui funções matemáticas embutidas para facilitar o cálculo. O nome “NumPy” define “Pyton Numérico”. Ele pode ser usado em álgebra linear, capacidade de números aleatórios, etc., e pode atuar como um contêiner multidimensional para dados genéricos. Python NumPy Array é um objeto que define um array N-dimensional na forma de linhas e colunas.
NumPy é preferível a listas em python por causa de:
- Menos memória
- Rápido
- Conveniente
Instalação
A instalação do pacote NumPy é feita digitando o comando ““pip install numpy” no prompt de comando. A importação do pacote no IDE pode ser feita através do comando “import numpy as np”. Os pacotes de instalação no NumPy podem ser encontrados no link
4. Scipy (Píton Científico)
Scipy é uma biblioteca python de código aberto usada para computação científica, computação de dados e computação de alto desempenho. Um grande número de rotinas amigáveis estão presentes na biblioteca para facilitar a computação. O pacote é construído sobre a extensão NumPy permitindo a manipulação e visualização dos dados com a disponibilidade de comandos de alto nível. Junto com o NumPy, o Scipy é usado para computação matemática. NumPy permite a classificação, indexação dos dados do array, enquanto o código numérico é armazenado no SciPy.
Um grande número de subpacotes estão disponíveis no SciPy que são: cluster, constants, fftpack, integr, interpolate, io, linalg, ndimage, odr, optimize, signal, sparse, espacial, special e stats. Estes podem ser importados do SciPy através de “from scipy import subpackage-name”.
No entanto, os pacotes principais do SciPy são NumPy, biblioteca SciPy, Matplotlib, IPython, Sympy e Pandas.
5. SQLAlquimia
Esta biblioteca de python é usada principalmente para acessar informações de bancos de dados que suportam uma ampla variedade de bancos de dados e layouts. Para sua fácil compreensão, SQLAlchemy pode ser usado no nível iniciante. Um grande número de plataformas são suportadas por ele, como Python 2.5, Jython e Pypy, fazendo uma comunicação rápida entre a linguagem Python e o banco de dados.
O pacote pode ser instalado a partir do link
6. Sucata
Scrapy é uma estrutura de código aberto em Python para a extração de dados de sites. É uma biblioteca rápida e de alto nível de raspagem e rastreamento na web sob o “Scrapinghub ltd”. Raspagem de várias páginas em um minuto, o Scrapy é uma abordagem mais rápida para raspagem da web.
Pode ser usado para:
- Comparação de preços em portais web para produtos específicos.
- Mineração de dados para recuperação de informações.
- Cálculo de dados em ferramentas de análise de dados.
- Coleta de dados e entrega aos centros de informação como portais de notícias.
Instalação
Para o ambiente conda, a instalação pode ser feita através do comando “conda install -c conda-forge scrapy”. Se o conda não estiver instalado, o comando “pip install scrapy” será usado.
7. Linda Sopa
Semelhante ao Scrapy, o BeautifulSoup é uma biblioteca sob programação Python usada para extração e coleta de informações de sites. Possui uma excelente biblioteca XML-HTML para iniciantes.
8. Scikit- aprender
Scikit-learn é uma biblioteca de código aberto no ambiente de programação Python usada para abordagens de aprendizado de máquina. Ele suporta uma ampla gama de algoritmos de aprendizado supervisionados e não supervisionados. A biblioteca contém algoritmos populares junto com os pacotes NumPy, Matplotlib e SciPy. O famoso aplicativo do Scikit-learn está no Spotify para recomendações de músicas.
Instalação
Para instalar o Scikit-learn, os pacotes acima devem ser instalados primeiro. Como o Scikit-learn é construído sobre a plataforma SciPy, o SciPy precisa ser instalado primeiro. A instalação pode então ser feita através do pip.
8. Rampa
A biblioteca Ramp é usada para prototipagem rápida de modelos de aprendizado de máquina com uma sintaxe simples para explorar algoritmos, recursos e transformações. Ele pode ser usado com pacotes de aprendizado de máquina e ferramentas estatísticas. Consiste em várias bibliotecas de aprendizado de máquina e estatísticas como; pandas, scikit-learn, etc. A coleção dessas bibliotecas python fornece uma sintaxe simples que ajuda na exploração de recursos e transformações de forma eficiente.
Os detalhes da biblioteca Ramp podem ser acessados no link
9. Marinho
O pacote pode ser utilizado para a visualização dos modelos estatísticos. A biblioteca é baseada no Matplotlib e permite a criação de gráficos estatísticos através de:
- Comparação de variáveis através de uma API baseada em conjuntos de dados.
- Fácil geração de visualização complexa suportando grades multi-plot.
- Comparação de subconjuntos de dados por meio de visualizações univariadas e bivariadas.
- Opções de várias paletas de cores para exibir os padrões.
- Estimação automática de regressão linear e sua plotagem.
Instalação
Os seguintes comandos podem ser usados para instalar o Seaborn:
- pip instalar seaborn
- conda install seaborn (para ambiente conda)
A instalação da biblioteca é seguida pela instalação de suas dependências: NumPy , SciPy , Matplotlib e Pandas . Outra dependência recomendada é o statsmodels.
Qualquer tipo de dataset pode ser importado do GIT, através do seaborn usando a função load_dataset(). O conjunto de dados pode ser visualizado através da função get_dataset_names().
10. Modelos de estatísticas
Statsmodels é uma biblioteca python útil na análise e estimativa de modelos estatísticos. A biblioteca é incorporada para realizar os testes estatísticos, etc. proporcionando resultados de alto desempenho.
11. TensorFlow
O TensorFlow é uma biblioteca de código aberto usada para computação numérica de alto desempenho. Também é usado em abordagens de aprendizado de máquina e algoritmos de aprendizado profundo. Desenvolvido pelos pesquisadores da equipe do Google Brain dentro da organização Google AI, agora é amplamente utilizado por pesquisadores de matemática, física e aprendizado de máquina para cálculos matemáticos complexos. O TensorFlow é compatível com o macOS 10.12.6 (Sierra) ou posterior; Windows 7 ou superior; Ubuntu 16.04 ou posterior; e Raspbian 9.0 ou posterior
12. PyGame
O pacote PyGame fornece uma interface para as bibliotecas de gráficos, áudio e entrada independentes de plataforma Simple Directmedia Library (SDL).
Instalação
A instalação do Python 2.7 é obrigatória antes da instalação do PyGame. Depois que o Python 2.7 estiver instalado, o instalador oficial do PyGame precisa ser baixado. Os arquivos correspondentes devem ser executados.
- O comando “import pygame” é necessário para importar os módulos necessários para o PyGame.
- O comando “pygame.init()” é necessário para a inicialização dos módulos necessários para o PyGame.
- A função “pygame.display.set_mode((width, height))” abrirá uma janela onde as operações gráficas serão executadas.
- O comando “pygame.event.get()” ajuda a esvaziar os eventos enfileirados, caso contrário os eventos se acumularão levando ao risco de o jogo não responder.
- Ao sair do jogo, a função “pygame.QUIT” é usada
- O comando “pygame.display.flip()” é usado para exibir quaisquer atualizações feitas no jogo.
13. PyTorch
PyTorch é uma biblioteca baseada em python que combina dois recursos de alto nível:
- Computação de tensor (como NumPy) com forte aceleração de GPU
- As plataformas Deep Neural Network oferecem flexibilidade e velocidade.
Foi introduzido pelo Facebook em 2017. Alguns dos recursos do PyTorch são:
- Suporta Python e suas bibliotecas.
- Usado no desenvolvimento do Facebook para seus requisitos de Deep Learning.
- Uma API fácil de usar para melhor usabilidade e compreensão.
- Em qualquer ponto de execução do código, os gráficos podem ser construídos dinamicamente e podem ser calculados dinamicamente em tempo de execução.
- Codificação fácil e processamento rápido.
- Pode ser executado em máquinas GPU, pois é suportado por CUDA.
Instalação
O PyTorch pode ser instalado por meio do prompt de comando ou em um IDE.
14. Theano
Semelhante a outras bibliotecas usadas para operações matemáticas, o Theano permite que o usuário defina, otimize e avalie expressões matemáticas. Envolve grandes matrizes multidimensionais para computação matemática eficiente. Os códigos normais baseados em C tornam-se mais lentos considerando grandes volumes de dados. No entanto, com a disponibilidade da biblioteca, Theano permite a implementação de código rapidamente. Expressões instáveis podem ser reconhecidas e computadas, tornando a biblioteca mais útil em relação ao NumPy.
15. SymPy
O pacote é o mais próximo da biblioteca Theano e é usado em toda a matemática simbólica. Com código simples fornecido pelo pacote, a biblioteca pode ser efetivamente usada para o sistema de álgebra computacional. Escrito apenas em python, o SymPy pode ser personalizado e aplicado em outros aplicativos. O código fonte do pacote pode ser encontrado no GitHub.
16. Café2
Caffe2 é uma estrutura baseada em python para aprendizado profundo. Algumas das características do pacote Caffe2 são:
- Suporta treinamento distribuído em larga escala.
- Suporte para novo hardware.
- Aplicabilidade a vários cálculos como computação quantizada.
O pacote é compatível com sistemas operacionais como MacOSX, Ubuntu, CentOS, Windows, iOS, Android, Raspbian e Tegra. Ele pode ser instalado a partir de bibliotecas pré-criadas, construídas a partir da fonte, imagens do docker ou nuvem. O guia de instalação está disponível
17. NuPIC
A Biblioteca significa Numenta Platform for Intelligent Computing (NuPIC). Ele fornece uma plataforma para a implementação do algoritmo de aprendizado HTM. Futuros algoritmos de aprendizado de máquina podem ser baseados nessa biblioteca baseada no neocórtex. HTM contém algoritmos de aprendizado contínuo baseados em tempo e é uma teoria computacional detalhada do neocórtex. Os algoritmos estão associados ao armazenamento e recuperação de padrões espaciais e temporais. Problemas como detecção de anomalias, etc. podem ser resolvidos com o uso do NuPIC.
Os arquivos podem ser baixados no link “https://pypi.org/project/nupic/”.
18. Pipenv
O Pipenv foi oficialmente incluído nas bibliotecas python em 2017. É uma ferramenta de empacotamento python que resolve problemas do workflow. O principal objetivo do pacote é fornecer um ambiente que seja fácil de configurar pelos usuários. Ele coleta todos os mundos de empacotamento, ou seja, bundler, composer, npm, cargo, yarn, etc., e se integra ao ambiente python. Alguns dos problemas resolvidos pelo Pipenv são:
- Os usuários não precisam mais usar o “pip” e o “virtualenv” separadamente para trabalhar coletivamente.
- Os usuários podem obter uma visão adequada do gráfico de dependência.
- Simplifique o fluxo de trabalho de desenvolvimento por meio de arquivos .env.
Instalação
- Através do comando “$ sudo apt install pipenv” em um Debian Buster.
- Através do comando “$ sudo dnf install pipenv” no Fedora.
- Através do comando “pkg install py36-pipenv” no FreeBSD.
- Através do Pipx usando “$ pipx install pipenv”.
19. PyBrain
PyBrain é uma biblioteca de código aberto das bibliotecas disponíveis em python usadas para algoritmos de aprendizado de máquina para todos os alunos iniciantes em pesquisa. O objetivo do PyBrain é oferecer algoritmos flexíveis e fáceis de usar para tarefas de aprendizado de máquina. Ele também fornece ambientes predefinidos para comparar os algoritmos. PyBrain significa Aprendizado de Reforço Baseado em Python, Inteligência Artificial e Biblioteca de Rede Neural. Comparado com outras bibliotecas de aprendizado de máquina fornecidas pelo python, o PyBrain é rápido e fácil de entender.
Alguns dos recursos do PyBrain são:
- Redes: Uma rede é definida como módulos conectados por meio de links. Poucas redes suportadas pelo PyBrain são Feed-Forward Network, Recurrent Network, etc.
- A rede onde a informação é passada de um nó para o outro em uma direção direta é chamada de rede Feed-Forward. A informação não viajará para trás neste tipo de rede. É uma das primeiras e mais simples redes oferecidas pela rede neural artificial. O fluxo de dados é dos nós de entrada para os nós ocultos e, por último, para os nós de saída.
- Semelhante aos nós Feed-Forward são os nós recorrentes, onde as informações devem ser lembradas em cada etapa.
- Conjuntos de dados: Os conjuntos de dados incluem os dados que devem ser fornecidos às redes para teste, validação e treinamento das redes. Depende da tarefa a ser realizada com aprendizado de máquina. Dois tipos de conjuntos de dados são suportados principalmente pelo PyBrain, ou seja, SupervisedDataSet e ClassificationDataSet.
- SupervisedDataSet: Esses tipos de conjuntos de dados são usados principalmente para tarefas de aprendizado supervisionado. Os campos nos conjuntos de dados são a “entrada” e o “destino”.
- ClassificationDataSet: Esses tipos de conjuntos de dados são usados principalmente para tarefas de classificação. Junto com os campos “input” e “target”, existe um campo adicional, ou seja, “class”. A “classe” inclui o backup automatizado dos alvos.
- Trainer: Os dados em uma rede neural são treinados com os dados de treinamento fornecidos às redes. Para verificar se a rede está devidamente treinada, é analisada a previsão dos dados de teste nessa rede. Dois tipos de treinador mais usados no PyBrain são:
- Backprop Trainer: os parâmetros em uma rede são treinados com base no conjunto de dados supervisionado ou ClassificationDataSet por retropropagação dos erros.
- TrainUntilConvergence: O módulo é treinado até a convergência
- Visualização : a visualização dos dados pode ser realizada através de outros frameworks como Mathplotlib, pyplot, etc.
20. LEITE
O pacote de aprendizado de máquina “MILK” em python foca no uso de classificadores disponíveis para a classificação supervisionada. Os classificadores disponíveis são SVMs, k-NN, florestas aleatórias e árvores de decisão. Junto com a classificação, o MILK ajuda no processo de seleção de recursos. A combinação dos classificadores varia de acordo com os sistemas de classificação.
- Para o problema de classificação não supervisionada, o MILK usa o agrupamento -means e a propagação de afinidade.
- As entradas para LEITE variam. Principalmente é otimizado para os arrays NumPy, mas outras formas de entradas podem ser aceitas.
- Os códigos em MILK são escritos em C++ que usa pouca memória e é de alta velocidade.
Instalação
O código de instalação do MILK pode ser recuperado do Github. Os comandos usados para a instalação são “easy_install milk” ou “pip install milk”.
Mais informações sobre o kit de ferramentas podem ser obtidas no link.
Conclusão
A linguagem python simples de usar vem fazendo amplas aplicações em diversas áreas do mundo real. Por ser uma linguagem de alto nível, tipada dinamicamente e interpretada, a linguagem está crescendo rapidamente nas áreas de erros de depuração. Algumas das aplicações globais onde o python tem sido cada vez mais utilizado são YouTube, DropBox, etc. Além disso, com a disponibilidade de bibliotecas em python , os usuários podem realizar muitas tarefas sem ter que escrever seus próprios códigos.
Se você está curioso para aprender sobre bibliotecas Python e ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com a indústria especialistas, 1-on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
- Pandas é uma biblioteca Python que é usada principalmente para análise de dados. É uma das bibliotecas Python mais utilizadas. Ele oferece acesso a algumas das ferramentas mais essenciais para explorar, limpar e analisar seus dados. O módulo ajuda você a organizar seu código Python de maneira lógica. O código é mais fácil de compreender e utilizar quando organizado em módulos. Você pode facilmente vincular e fazer referência a um módulo. Um módulo é apenas um objeto Python contendo atributos nomeados arbitrariamente. Para utilizar as funções de um módulo, você deve primeiro importar o módulo por meio de uma instrução de importação. A palavra-chave import é seguida pelo nome do módulo em uma instrução de importação. Isso será declarado na parte superior do programa, sob quaisquer linhas de discussão ou comentários gerais, em um arquivo Python.Quais são as principais bibliotecas para ciência de dados em Python?
- O NumPy é bem conhecido por seu suporte a matriz N-dimensional. O NumPy é um favorito entre os cientistas de dados porque esses arrays multidimensionais são 50 vezes mais resilientes do que as listas do Python.
- Scikit-learn é provavelmente a biblioteca de aprendizado de máquina mais importante em Python. O Scikit-learn é usado para criar modelos de aprendizado de máquina após limpar e processar seus dados com Pandas ou NumPy. Ele contém muitas ferramentas para modelagem e análise preditiva.
- O TensorFlow é uma das bibliotecas Python mais usadas para criar redes neurais. Ele faz uso de arrays multidimensionais, também conhecidos como tensores, para executar várias operações em uma única entrada.
- Keras é usado principalmente para construir modelos de aprendizado profundo, principalmente redes neurais. É baseado em TensorFlow e Theano e permite criar redes neurais rapidamente.
- SciPy é usado principalmente para funções científicas e matemáticas geradas a partir do NumPy, como o nome sugere. Funções estatísticas, funções de otimização e funções de processamento de sinal são alguns dos recursos úteis fornecidos por esta biblioteca. Qual é a importância das bibliotecas de módulos em Python?
Um módulo é simplesmente um arquivo contendo código Python. Variáveis, classes e funções podem ser definidas em um módulo. O código executável também pode ser incluído em um módulo. Como importo uma biblioteca Python?