Python 中的庫解釋:重要庫列表

已發表: 2021-06-14

目錄

什麼是圖書館?

庫是以前組合的一組代碼,可以迭代使用,從而減少時間。 正如該術語所暗示的,它類似於擁有可重用資源的物理庫。 基於每個庫都有一個根源這一事實,Python 已經創建了幾個開源庫。

什麼是 Python 庫?

Python作為一種高級編程語言在當今已被廣泛使用。 易用性在於它的語法使用較少數量的代碼來表達一個概念。 因此,這允許用戶在大小範圍內應用 python 和編寫程序。 該語言支持自動內存管理,並擁有一個大型標準庫。

Python 庫定義了可以在其他程序中重用的代碼行。 它基本上是一個模塊的集合。 它們的用處在於,不需要在每次需要運行相同的進程時都編寫新代碼。 Python 中的庫在數據科學、機器學習、數據操作應用程序等領域發揮著重要作用。

Python 標準庫

隨著 python 中大量標準庫的可用性,程序員的生活變得輕鬆。 這主要是因為程序員不需要繼續編寫代碼。 例如,程序員可以使用 MySQLdb 庫將 MySQL 數據庫連接到服務器。 python 庫大多是用 C 編程語言編寫,用於處理 I/O 和其他核心模塊等操作。 標準庫由 200 多個核心模塊組成,迄今為止已經開發了大約 137,000個 Python 庫。

重要的 Python 庫

1. Matplotlib

該庫用於繪製數值數據並用於數據分析。 這個開源庫用於發布高質量的圖形,如圖形、餅圖、散點圖、直方圖等。

2.熊貓

panda 是一個開源庫並獲得 BSD 許可。 該庫廣泛用於數據科學領域。 它們主要用於數據的分析、操作和清理。 不需要像 R 那樣切換到另一種語言,panda 使得建模和數據分析的簡單操作成為可能。

python中的庫使用的數據是:

  • 表格數據
  • 具有有序和無序數據的時間序列。
  • 矩陣數據標記行和列。
  • 未標記的數據
  • 任何其他形式的統計數據

熊貓的安裝

如果系統中已經安裝了 anaconda,用戶必須在命令行中輸入“pip install pandas”或輸入“conda install pandas”。 安裝完成後,可以通過輸入命令“import pandas as pd”將其導入 IDE。

Panda中的操作

在 panda 中可以進行大量的操作:

  • 數據框切片
  • 數據框的合併和連接
  • 連接來自兩個數據幀的列
  • 更改數據框中的索引值。
  • 更改列中的標題。
  • 將數據轉換為不同的格式。

3. 麻木

偏離科學計算領域,NumPy 是 python 提供的最常用的開源包。 它支持大型矩陣和多維數據,並具有易於計算的內置數學函數。 “NumPy”這個名字定義了“Numerical Python”。 可用於線性代數、隨機數能力等,可作為通用數據的多維容器。 Python NumPy Array 是一個以行和列的形式定義 N 維數組的對象。

NumPy 比 python 中的列表更受歡迎,因為:

  • 更少的內存
  • 快速地
  • 方便的

安裝

NumPy 包的安裝是通過在命令提示符下鍵入命令“pip install numpy”來完成的。 可以通過命令“import numpy as np”在 IDE 中導入包。 NumPy 上的安裝包可以在鏈接中找到

4. Scipy(科學Python)

Scipy 是一個用於科學計算、數據計算和高性能計算的開源 python 庫。 庫中存在大量用戶友好的例程,以便於計算。 該包建立在 NumPy 擴展之上,允許使用高級命令對數據進行操作和可視化。 與 NumPy 一起,Scipy 用於數學計算。 NumPy 允許對數組數據進行排序、索引,而數字代碼存儲在 SciPy 中。

SciPy 中提供了大量子包,它們是:cluster、constants、fftpack、integrate、interpolate、io、linalg、ndimage、odr、optimize、signal、sparse、spatial、special 和 stats。 這些可以通過“from scipy import subpackage-name”從 SciPy 導入。

然而,SciPy 的核心包是 NumPy、SciPy 庫、Matplotlib、IPython、Sympy 和 Pandas。

5. SQL煉金術

這個 python 庫主要用於從支持各種數據庫和佈局的數據庫中訪問信息。 為了易於理解,SQLAlchemy 可以在初學者級別使用。 它支持大量平台,如 Python 2.5、Jython 和 Pypy,從而在 Python 語言和數據庫之間實現快速通信。

該軟件包可以從鏈接安裝

6.刮擦

Scrapy 是 Python 中的一個開源框架,用於從網站中提取數據。 它是“Scrapinghub ltd”下的一個快速、高級的爬蟲和網絡爬蟲庫。 一分鐘內抓取多個頁面,Scrapy 是一種更快的網頁抓取方法。

它可用於:

  • 特定產品的門戶網站價格比較。
  • 用於信息檢索的數據挖掘。
  • 在數據分析工具中計算數據。
  • 收集數據並將其提供給新聞門戶等信息中心。

安裝

對於 conda 環境,可以通過命令“conda install -c conda-forge scrapy”進行安裝。 如果未安裝 conda,則使用命令“pip install scrapy”。

7. 美麗湯

BeautifulSoup 與 Scrapy 類似,是 Python 編程下的一個庫,用於從網站中提取和收集信息。 它為初學者提供了一個優秀的 XML-HTML 庫。

8. Scikit-學習

Scikit-learn 是 Python 編程環境下的一個開源庫,用於機器學習方法。 它支持廣泛的有監督和無監督學習算法。 該庫包含流行的算法以及 NumPy、Matplotlib 和 SciPy 包。 Scikit-learn 的著名應用是在 Spotify 中用於音樂推薦。

安裝

要安裝 Scikit-learn,必須先安裝上述軟件包。 由於 Scikit-learn 是在 SciPy 平台上構建的,因此需要先安裝 SciPy。 然後可以通過 pip 完成安裝。

8. 坡道

Ramp 庫用於使用簡單的語法對機器學習模型進行快速原型設計,以探索算法、特徵和轉換。 它可以與機器學習包和統計工具一起使用。 它由各種機器學習和統計庫組成,例如; pandas、scikit-learn 等。這些python 庫的集合提供了簡單的語法,有助於有效地探索特徵和轉換。

可以從鏈接訪問 Ramp 庫的詳細信息

9. Seaborn

該軟件包可用於統計模型的可視化。 該庫基於 Matplotlib,允許通過以下方式創建統計圖形:

  • 通過基於數據集的 API 比較變量。
  • 輕鬆生成支持多圖網格的複雜可視化。
  • 通過單變量和雙變量可視化比較數據子集。
  • 各種調色板的選項來顯示圖案。
  • 線性回歸的自動估計及其繪圖。

安裝

以下命令可用於安裝 Seaborn:

  • 點安裝seaborn
  • conda install seaborn (用於 conda 環境)

庫的安裝之後是其依賴項的安裝: NumPy SciPy MatplotlibPandas 另一個推薦的依賴項是 statsmodels。

任何類型的數據集都可以通過 seaborn 使用 load_dataset() 函數從 GIT 導入。 可以通過 get_dataset_names() 函數查看數據集。

10. 統計模型

Statsmodels 是一個 Python 庫,可用於統計模型的分析和估計。 該庫用於執行統計測試等,提供高性能結果。

11. TensorFlow

TensorFlow 是一個用於高性能數值計算的開源庫。 它還用於機器學習方法和深度學習算法。 它由 Google AI 組織內的 Google Brain 團隊的研究人員開發,現在被數學、物理和機器學習的研究人員廣泛用於復雜的數學計算。 macOS 10.12.6 (Sierra) 或更高版本支持 TensorFlow; 視窗 7 或以上; Ubuntu 16.04 或更高版本; 和 Raspbian 9.0 或更高版本

12. PyGame

PyGame 包提供了與簡單直接媒體庫 (SDL) 平台無關的圖形、音頻和輸入庫的接口。

安裝

在安裝 PyGame 之前必須安裝 Python 2.7。 安裝 Python 2.7 後,需要下載官方 PyGame 安裝程序。 相應的文件將被執行。

  • 導入 PyGame 所需的模塊需要命令“import pygame”。
  • PyGame 所需模塊的初始化需要命令“pygame.init()”。
  • 函數“pygame.display.set_mode((width, height))”將啟動一個窗口,將在其中執行圖形操作。
  • 命令“pygame.event.get()”有助於清空排隊的事件,否則事件將堆積起來導致遊戲變得無響應的風險。
  • 冷杉退出遊戲“pygame.QUIT”函數使用
  • 命令“pygame.display.flip()”用於顯示對遊戲所做的任何更新。

13. PyTorch

PyTorch 是一個基於 python 的庫,融合了兩個高級特性:

  • 具有強大 GPU 加速功能的張量計算(如 NumPy)
  • 深度神經網絡平台提供了靈活性和速度。

它由 Facebook 於 2017 年推出。PyTorch 的一些功能包括:

  • 支持 Python 及其庫。
  • 用於 Facebook 的開發以滿足其深度學習需求。
  • 易於使用的 API,可提高可用性和理解性。
  • 在代碼執行的任何時候,圖形都可以動態構建,並且可以在運行時動態計算。
  • 易於編碼和快速處理。
  • 可以在 GPU 機器上執行,因為它受 CUDA 支持。

安裝

PyTorch 可以通過命令提示符或在 IDE 中安裝。

14. Theano

與用於數學運算的其他庫類似,Theano 使用戶能夠定義、優化和評估數學表達式。 它涉及用於高效數學計算的大型多維數組。 考慮到大量數據,普通的基於 C 的代碼會變得更慢。 然而,隨著庫的可用性,Theano 可以快速實現代碼。 可以識別和計算不穩定的表達式,使該庫比 NumPy 更有用。

15. SymPy

該包最接近 Theano 庫,用於所有符號數學。 通過軟件包提供的簡單代碼,該庫可以有效地用於計算機代數係統。 SymPy 僅用 python 編寫,可以自定義並應用於其他應用程序。 包的源代碼可以在 GitHub 中找到。

16. 咖啡2

Caffe2 是一個基於 Python 的深度學習框架。 Caffe2 包的一些特性是:

  • 支持大規模分佈式訓練。
  • 支持新硬件。
  • 適用於多種計算,如量化計算。

該軟件包與 MacOSX、Ubuntu、CentOS、Windows、iOS、Android、Raspbian 和 Tegra 等操作系統兼容。 它可以從預建庫安裝,也可以從源代碼、docker 鏡像或云構建。 安裝指南可用

17. NuPIC

該庫代表 Numenta 智能計算平台 (NuPIC)。 它為HTM學習算法的實現提供了一個平台。 未來的機器學習算法可以建立在這個基於新皮質的庫上。 HTM 包含基於時間的連續學習算法,是新皮質的詳細計算理論。 這些算法與空間和時間模式的存儲和召回相關聯。 異常檢測等問題可以通過使用 NuPIC 來解決。

這些文件可以從鏈接“https://pypi.org/project/nupic/”下載。

18. Pipenv

Pipenv 於 2017 年正式納入python 庫,是一個解決工作流問題的 python 打包工具。 該軟件包的主要目的是提供一個易於用戶設置的環境。 它收集了所有的打包世界,即bundler、composer、npm、cargo、yarn等,並集成到python環境中。 Pipenv 解決的一些問題是:

  • 用戶不再需要單獨使用“pip”和“virtualenv”來共同工作。
  • 用戶可以正確了解依賴關係圖。
  • 通過 .env 文件簡化開發工作流程。

安裝

  • 通過 Debian Buster 中的命令“$ sudo apt install pipenv”。
  • 通過 Fedora 中的“$ sudo dnf install pipenv”命令。
  • 通過 FreeBSD 中的“pkg install py36-pipenv”命令。
  • 通過 Pipx 使用“$ pipx install pipenv”。

19. PyBrain

PyBrain 是一個開源庫,來自python 中的可用庫,用於每個研究中的入門級學生的機器學習算法。 PyBrain 的目標是為機器學習任務提供靈活且易於使用的算法。 它還提供了用於比較算法的預定義環境。 PyBrain 代表基於 Python 的強化學習、人工智能和神經網絡庫。 與 python 提供的其他機器學習庫相比,PyBrain 快速且易於理解。

PyBrain 的一些特性是:

  1. 網絡:網絡被定義為通過鏈接連接的模塊。 PyBrain 支持的網絡很少有前饋網絡、循環網絡等。
    • 信息從一個節點向前傳遞到另一個節點的網絡稱為前饋網絡。 信息不會在這種類型的網絡中向後傳播。 它是人工神經網絡提供的第一個也是最簡單的網絡之一。 數據流是從輸入節點到隱藏節點,最後到輸出節點。
    • 與前饋節點類似的是循環節點,在每個步驟中都必須記住信息。
  1. 數據集:數據集包括要提供給網絡以進行網絡測試、驗證和訓練的數據。 這取決於機器學習要執行的任務。 PyBrain 主要支持兩種類型的數據集,即 SupervisedDataSet 和 ClassificationDataSet。
    • SupervisedDataSet:這些​​類型的數據集主要用於監督學習任務。 數據集中的字段是“輸入”和“目標”。
    • ClassificationDataSet:這些​​類型的數據集主要用於分類任務。 除了“輸入”和“目標”字段外,還有一個附加字段,即“類”。 “類”包括目標的自動備份。
  1. 訓練器:神經網絡中的數據使用提供給網絡的訓練數據進行訓練。 為了檢查網絡是否經過適當的訓練,分析該網絡上測試數據的預測。 PyBrain 中主要使用的兩種類型的訓練器是:
    • 反向傳播訓練器:網絡中的參數是基於監督或分類數據集數據集通過反向傳播錯誤來訓練的。
    • TrainUntilConvergence:訓練模塊直到收斂
  1. 可視化:數據的可視化可以通過其他框架進行,如 Mathplotlib、pyplot 等。

20. 牛奶

python 中的機器學習包“MILK”專注於使用可用的分類器進行監督分類。 可用的分類器是 SVM、k-NN、隨機森林和決策樹。 除了分類,MILK 還有助於特徵選擇過程。 分類器的組合因分類系統而異。

  • 對於無監督分類問題,MILK 使用-means 聚類和親和力傳播。
  • MILK 的輸入有所不同。 大多數情況下,它針對 NumPy 數組進行了優化,但也可以接受其他形式的輸入。
  • MILK 中的代碼是用 C++ 編寫的,佔用內存少,速度快。

安裝

MILK 的安裝代碼可以從 Github 中獲取。 用於安裝的命令是“easy_install milk”或“pip install milk”。

可以從鏈接中檢索有關該工具包的更多信息。

結論

簡單易用的 Python 語言已在現實世界的多個領域得到廣泛應用。 作為一種高級、動態類型和解釋性語言,該語言在調試錯誤方面正在迅速發展。 越來越多地使用 python 的一些全球應用程序是 YouTube、DropBox 等。此外,隨著python 庫的可用性用戶無需編寫自己的代碼即可執行大量任務。

如果您想了解 Python 庫和數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃專為在職專業人士創建,提供 10 多個案例研究和項目、實用的實踐研討會、行業指導專家,與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。

Python中數據科學的頂級庫是什麼?

- Pandas 是一個 Python 庫,主要用於數據分析。 它是使用最廣泛的 Python 庫之一。 它使您可以訪問一些用於探索、清理和分析數據的最重要的工具。
- NumPy 以其 N 維數組支持而聞名。 NumPy 是數據科學家的最愛,因為這些多維數組的彈性是 Python 列表的 50 倍。
- Scikit-learn 可能是 Python 中最重要的機器學習庫。 Scikit-learn 用於在使用 Pandas 或 NumPy 清理和處理數據後構建機器學習模型。 它包含許多用於預測建模和分析的工具。
- TensorFlow 是用於創建神經網絡的最廣泛使用的 Python 庫之一。 它利用多維數組(也稱為張量)對單個輸入執行多個操作。
- Keras 主要用於構建深度學習模型,尤其是神經網絡。 它基於 TensorFlow 和 Theano,可讓您快速創建神經網絡。
- 顧名思義,SciPy 主要用於從 NumPy 生成的科學和數學函數。 統計函數、優化函數和信號處理函數是這個庫提供的一些有用的特性。

Python 中模塊庫的重要性是什麼?

模塊可幫助您以合乎邏輯的方式組織 Python 代碼。 當代碼被組織成模塊時,它更容易理解和使用。 您可以輕鬆地綁定和引用模塊。 模塊只是一個包含任意命名屬性的 Python 對象。
模塊只是一個包含 Python 代碼的文件。 變量、類和函數都可以在模塊中定義。 可運行代碼也可以包含在模塊中。

如何導入 Python 庫?

要使用模塊的功能,您必須首先通過 import 語句導入模塊。 import 關鍵字後跟 import 語句中的模塊名稱。 這將在 Python 文件中的任何 shebang 行或一般註釋下的程序頂部說明。