Python 中的库解释：重要库列表

已发表: 2021-06-14

什么是图书馆？

库是以前组合的一组代码，可以迭代使用，从而减少时间。正如该术语所暗示的，它类似于拥有可重用资源的物理库。基于每个库都有一个根源这一事实，Python 已经创建了几个开源库。

什么是 Python 库？

Python作为一种高级编程语言在当今已被广泛使用。易用性在于它的语法使用较少数量的代码来表达一个概念。因此，这允许用户在大小范围内应用 python 和编写程序。该语言支持自动内存管理，并拥有一个大型标准库。

Python 库定义了可以在其他程序中重用的代码行。它基本上是一个模块的集合。它们的用处在于，不需要在每次需要运行相同的进程时都编写新代码。 Python 中的库在数据科学、机器学习、数据操作应用程序等领域发挥着重要作用。

Python 标准库

随着 python 中大量标准库的可用性，程序员的生活变得轻松。这主要是因为程序员不需要继续编写代码。例如，程序员可以使用 MySQLdb 库将 MySQL 数据库连接到服务器。 python 库大多是用 C 编程语言编写的，用于处理 I/O 和其他核心模块等操作。 标准库由 200 多个核心模块组成，迄今为止已经开发了大约 137,000个 Python 库。

重要的 Python 库

1. Matplotlib

该库用于绘制数值数据并用于数据分析。这个开源库用于发布高质量的图形，如图形、饼图、散点图、直方图等。

2.熊猫

panda 是一个开源库并获得 BSD 许可。该库广泛用于数据科学领域。它们主要用于数据的分析、操作和清理。不需要像 R 那样切换到另一种语言，panda 使得建模和数据分析的简单操作成为可能。

python中的库使用的数据是：

表格数据
具有有序和无序数据的时间序列。
矩阵数据标记行和列。
未标记的数据
任何其他形式的统计数据

熊猫的安装

如果系统中已经安装了 anaconda，用户必须在命令行中输入“pip install pandas”或输入“conda install pandas”。安装完成后，可以通过输入命令“import pandas as pd”将其导入 IDE。

Panda中的操作

在 panda 中可以进行大量的操作：

数据框切片
数据框的合并和连接
连接来自两个数据帧的列
更改数据框中的索引值。
更改列中的标题。
将数据转换为不同的格式。

3. 麻木

偏离科学计算领域，NumPy 是 python 提供的最常用的开源包。它支持大型矩阵和多维数据，并具有易于计算的内置数学函数。 “NumPy”这个名字定义了“Numerical Python”。可用于线性代数、随机数能力等，可作为通用数据的多维容器。 Python NumPy Array 是一个以行和列的形式定义 N 维数组的对象。

NumPy 比 python 中的列表更受欢迎，因为：

更少的内存
快速地
方便的

安装

NumPy 包的安装是通过在命令提示符下键入命令“pip install numpy”来完成的。可以通过命令“import numpy as np”在 IDE 中导入包。 NumPy 上的安装包可以在链接中找到

4. Scipy（科学Python）

Scipy 是一个用于科学计算、数据计算和高性能计算的开源 python 库。库中存在大量用户友好的例程，以便于计算。该包建立在 NumPy 扩展之上，允许使用高级命令对数据进行操作和可视化。与 NumPy 一起，Scipy 用于数学计算。 NumPy 允许对数组数据进行排序、索引，而数字代码存储在 SciPy 中。

SciPy 中提供了大量子包，它们是：cluster、constants、fftpack、integrate、interpolate、io、linalg、ndimage、odr、optimize、signal、sparse、spatial、special 和 stats。这些可以通过“from scipy import subpackage-name”从 SciPy 导入。

然而，SciPy 的核心包是 NumPy、SciPy 库、Matplotlib、IPython、Sympy 和 Pandas。

5. SQL炼金术

这个 python 库主要用于从支持各种数据库和布局的数据库中访问信息。为了易于理解，SQLAlchemy 可以在初学者级别使用。它支持大量平台，如 Python 2.5、Jython 和 Pypy，从而在 Python 语言和数据库之间实现快速通信。

该软件包可以从链接安装

6.刮擦

Scrapy 是 Python 中的一个开源框架，用于从网站中提取数据。它是“Scrapinghub ltd”下的一个快速、高级的爬虫和网络爬虫库。一分钟内抓取多个页面，Scrapy 是一种更快的网页抓取方法。

它可用于：

特定产品的门户网站价格比较。
用于信息检索的数据挖掘。
在数据分析工具中计算数据。
收集数据并将其提供给新闻门户等信息中心。

安装

对于 conda 环境，可以通过命令“conda install -c conda-forge scrapy”进行安装。如果未安装 conda，则使用命令“pip install scrapy”。

7. 美丽汤

BeautifulSoup 与 Scrapy 类似，是 Python 编程下的一个库，用于从网站中提取和收集信息。它为初学者提供了一个优秀的 XML-HTML 库。

8. Scikit-学习

Scikit-learn 是 Python 编程环境下的一个开源库，用于机器学习方法。它支持广泛的有监督和无监督学习算法。该库包含流行的算法以及 NumPy、Matplotlib 和 SciPy 包。 Scikit-learn 的著名应用是在 Spotify 中用于音乐推荐。

安装

要安装 Scikit-learn，必须先安装上述软件包。由于 Scikit-learn 是在 SciPy 平台上构建的，因此需要先安装 SciPy。然后可以通过 pip 完成安装。

8. 坡道

Ramp 库用于使用简单的语法对机器学习模型进行快速原型设计，以探索算法、特征和转换。它可以与机器学习包和统计工具一起使用。它由各种机器学习和统计库组成，例如； pandas、scikit-learn 等。这些python 库的集合提供了简单的语法，有助于有效地探索特征和转换。

可以从链接访问 Ramp 库的详细信息

9. Seaborn

该软件包可用于统计模型的可视化。该库基于 Matplotlib，允许通过以下方式创建统计图形：

通过基于数据集的 API 比较变量。
轻松生成支持多图网格的复杂可视化。
通过单变量和双变量可视化比较数据子集。
各种调色板的选项来显示图案。
线性回归的自动估计及其绘图。

安装

以下命令可用于安装 Seaborn：

点安装seaborn
conda install seaborn (用于 conda 环境)

库的安装之后是其依赖项的安装： NumPy 、 SciPy 、 Matplotlib和Pandas 。另一个推荐的依赖项是 statsmodels。

任何类型的数据集都可以通过 seaborn 使用 load_dataset() 函数从 GIT 导入。可以通过 get_dataset_names() 函数查看数据集。

10. 统计模型

Statsmodels 是一个 Python 库，可用于统计模型的分析和估计。该库用于执行统计测试等，提供高性能结果。

11. TensorFlow

TensorFlow 是一个用于高性能数值计算的开源库。它还用于机器学习方法和深度学习算法。它由 Google AI 组织内的 Google Brain 团队的研究人员开发，现在被数学、物理和机器学习的研究人员广泛用于复杂的数学计算。 macOS 10.12.6 (Sierra) 或更高版本支持 TensorFlow；视窗 7 或以上； Ubuntu 16.04 或更高版本；和 Raspbian 9.0 或更高版本

12. PyGame

PyGame 包提供了与简单直接媒体库 (SDL) 平台无关的图形、音频和输入库的接口。

安装

在安装 PyGame 之前必须安装 Python 2.7。安装 Python 2.7 后，需要下载官方 PyGame 安装程序。相应的文件将被执行。

导入 PyGame 所需的模块需要命令“import pygame”。
PyGame 所需模块的初始化需要命令“pygame.init()”。
函数“pygame.display.set_mode((width, height))”将启动一个窗口，将在其中执行图形操作。
命令“pygame.event.get()”有助于清空排队的事件，否则事件将堆积起来导致游戏变得无响应的风险。
冷杉退出游戏“pygame.QUIT”函数使用
命令“pygame.display.flip()”用于显示对游戏所做的任何更新。

13. PyTorch

PyTorch 是一个基于 python 的库，融合了两个高级特性：

具有强大 GPU 加速功能的张量计算（如 NumPy）
深度神经网络平台提供了灵活性和速度。

它由 Facebook 于 2017 年推出。PyTorch 的一些功能包括：

支持 Python 及其库。
用于 Facebook 的开发以满足其深度学习需求。
易于使用的 API，可提高可用性和理解性。
在代码执行的任何时候，图形都可以动态构建，并且可以在运行时动态计算。
易于编码和快速处理。
可以在 GPU 机器上执行，因为它受 CUDA 支持。

安装

PyTorch 可以通过命令提示符或在 IDE 中安装。

14. Theano

与用于数学运算的其他库类似，Theano 使用户能够定义、优化和评估数学表达式。它涉及用于高效数学计算的大型多维数组。考虑到大量数据，普通的基于 C 的代码会变得更慢。然而，随着库的可用性，Theano 可以快速实现代码。可以识别和计算不稳定的表达式，使该库比 NumPy 更有用。

15. SymPy

该包最接近 Theano 库，用于所有符号数学。通过软件包提供的简单代码，该库可以有效地用于计算机代数系统。 SymPy 仅用 python 编写，可以自定义并应用于其他应用程序。包的源代码可以在 GitHub 中找到。

16. 咖啡2

Caffe2 是一个基于 Python 的深度学习框架。 Caffe2 包的一些特性是：

支持大规模分布式训练。
支持新硬件。
适用于多种计算，如量化计算。

该软件包与 MacOSX、Ubuntu、CentOS、Windows、iOS、Android、Raspbian 和 Tegra 等操作系统兼容。它可以从预建库安装，也可以从源代码、docker 镜像或云构建。安装指南可用

17. NuPIC

该库代表 Numenta 智能计算平台 (NuPIC)。它为HTM学习算法的实现提供了一个平台。未来的机器学习算法可以建立在这个基于新皮质的库上。 HTM 包含基于时间的连续学习算法，是新皮质的详细计算理论。这些算法与空间和时间模式的存储和召回相关联。异常检测等问题可以通过使用 NuPIC 来解决。

这些文件可以从链接“https://pypi.org/project/nupic/”下载。

18. Pipenv

Pipenv 于 2017 年正式纳入python 库，是一个解决工作流问题的 python 打包工具。 该软件包的主要目的是提供一个易于用户设置的环境。它收集了所有的打包世界，即bundler、composer、npm、cargo、yarn等，并集成到python环境中。 Pipenv 解决的一些问题是：

用户不再需要单独使用“pip”和“virtualenv”来共同工作。
用户可以正确了解依赖关系图。
通过 .env 文件简化开发工作流程。

安装

通过 Debian Buster 中的命令“$ sudo apt install pipenv”。
通过 Fedora 中的“$ sudo dnf install pipenv”命令。
通过 FreeBSD 中的“pkg install py36-pipenv”命令。
通过 Pipx 使用“$ pipx install pipenv”。

19. PyBrain

PyBrain 是一个开源库，来自python 中的可用库，用于每个研究中的入门级学生的机器学习算法。 PyBrain 的目标是为机器学习任务提供灵活且易于使用的算法。它还提供了用于比较算法的预定义环境。 PyBrain 代表基于 Python 的强化学习、人工智能和神经网络库。与 python 提供的其他机器学习库相比，PyBrain 快速且易于理解。

PyBrain 的一些特性是：

网络：网络被定义为通过链接连接的模块。 PyBrain 支持的网络很少有前馈网络、循环网络等。

- 信息从一个节点向前传递到另一个节点的网络称为前馈网络。信息不会在这种类型的网络中向后传播。它是人工神经网络提供的第一个也是最简单的网络之一。数据流是从输入节点到隐藏节点，最后到输出节点。
- 与前馈节点类似的是循环节点，在每个步骤中都必须记住信息。

数据集：数据集包括要提供给网络以进行网络测试、验证和训练的数据。 这取决于机器学习要执行的任务。 PyBrain 主要支持两种类型的数据集，即 SupervisedDataSet 和 ClassificationDataSet。

- SupervisedDataSet：这些类型的数据集主要用于监督学习任务。数据集中的字段是“输入”和“目标”。
- ClassificationDataSet：这些类型的数据集主要用于分类任务。除了“输入”和“目标”字段外，还有一个附加字段，即“类”。 “类”包括目标的自动备份。

训练器：神经网络中的数据使用提供给网络的训练数据进行训练。 为了检查网络是否经过适当的训练，分析该网络上测试数据的预测。 PyBrain 中主要使用的两种类型的训练器是：

- 反向传播训练器：网络中的参数是基于监督或分类数据集数据集通过反向传播错误来训练的。
- TrainUntilConvergence：训练模块直到收敛

可视化：数据的可视化可以通过其他框架进行，如 Mathplotlib、pyplot 等。

20. 牛奶

python 中的机器学习包“MILK”专注于使用可用的分类器进行监督分类。可用的分类器是 SVM、k-NN、随机森林和决策树。除了分类，MILK 还有助于特征选择过程。分类器的组合因分类系统而异。

对于无监督分类问题，MILK 使用-means 聚类和亲和力传播。
MILK 的输入有所不同。大多数情况下，它针对 NumPy 数组进行了优化，但也可以接受其他形式的输入。
MILK 中的代码是用 C++ 编写的，占用内存少，速度快。

安装

MILK 的安装代码可以从 Github 中获取。用于安装的命令是“easy_install milk”或“pip install milk”。

可以从链接中检索有关该工具包的更多信息。

结论

简单易用的 Python 语言已在现实世界的多个领域得到广泛应用。作为一种高级、动态类型和解释性语言，该语言在调试错误方面正在迅速发展。越来越多地使用 python 的一些全球应用程序是 YouTube、DropBox 等。此外，随着python 库的可用性，用户无需编写自己的代码即可执行大量任务。

如果您想了解 Python 库和数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划专为在职专业人士创建，提供 10 多个案例研究和项目、实用的实践研讨会、行业指导专家，与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

Python中数据科学的顶级库是什么？

- Pandas 是一个 Python 库，主要用于数据分析。它是使用最广泛的 Python 库之一。它使您可以访问一些用于探索、清理和分析数据的最重要的工具。
- NumPy 以其 N 维数组支持而闻名。 NumPy 是数据科学家的最爱，因为这些多维数组的弹性是 Python 列表的 50 倍。
- Scikit-learn 可能是 Python 中最重要的机器学习库。 Scikit-learn 用于在使用 Pandas 或 NumPy 清理和处理数据后构建机器学习模型。它包含许多用于预测建模和分析的工具。
- TensorFlow 是用于创建神经网络的最广泛使用的 Python 库之一。它利用多维数组（也称为张量）对单个输入执行多个操作。
- Keras 主要用于构建深度学习模型，尤其是神经网络。它基于 TensorFlow 和 Theano，可让您快速创建神经网络。
- 顾名思义，SciPy 主要用于从 NumPy 生成的科学和数学函数。统计函数、优化函数和信号处理函数是这个库提供的一些有用的特性。

Python 中模块库的重要性是什么？

模块可帮助您以合乎逻辑的方式组织 Python 代码。当代码被组织成模块时，它更容易理解和使用。您可以轻松地绑定和引用模块。模块只是一个包含任意命名属性的 Python 对象。
模块只是一个包含 Python 代码的文件。变量、类和函数都可以在模块中定义。可运行代码也可以包含在模块中。

如何导入 Python 库？

要使用模块的功能，您必须首先通过 import 语句导入模块。 import 关键字后跟 import 语句中的模块名称。这将在 Python 文件中的任何 shebang 行或一般注释下的程序顶部说明。