Python의 데이터 프레임: Python 심층 자습서 2022

게시 됨: 2021-01-09

Python 프로그래밍 언어로 작업하는 개발자 또는 코더라면 가장 놀라운 데이터 관리 라이브러리 중 하나인 Pandas에 대해 잘 알고 있어야 합니다. Pandas는 최고의 Python 라이브러리 중 하나입니다. 수년에 걸쳐 Pandas는 Python을 사용한 데이터 분석 및 관리를 위한 표준 도구로 부상했습니다. 다른 중요한 Python 도구에 대해 읽어보세요.

Pandas는 의심할 여지 없이 데이터 과학을 위한 가장 다재다능한 Python 패키지입니다. 데이터를 쉽게 조작하고 분석할 수 있도록 강력하고 표현력이 풍부하며 유연한 데이터 구조를 제공하며 Python의 데이터 프레임은 이러한 구조 중 하나입니다.

이것이 바로 이 게시물에서 논의할 주제입니다. Pandas의 기본 데이터 형식, 즉 Pandas Data Frame을 소개합니다.

데이터 프레임이란 무엇입니까?

Pandas 라이브러리 문서 에 따르면 데이터 프레임은 "2차원, 크기 변경 가능, 레이블이 지정된 축(행 및 열)이 있는 잠재적으로 이질적인 테이블 형식 데이터 구조"입니다. 간단히 말해서 데이터 프레임은 데이터가 테이블 형식, 즉 행과 열로 정렬된 데이터 구조입니다.

데이터 프레임에는 일반적으로 다음과 같은 특성이 있습니다.

여러 행과 열이 있을 수 있습니다.
각 행은 데이터 샘플을 나타내지만 각 열은 샘플(행)을 설명하는 다른 변수로 구성됩니다.
모든 열의 데이터는 일반적으로 동일한 유형의 데이터(예: 숫자, 문자열, 날짜 등)입니다.
Excel 데이터 세트와 달리 누락된 값을 방지하므로 행이나 열 사이에 공백이나 빈 값이 없습니다.

Pandas 데이터 프레임에서 데이터 프레임의 인덱스 및 열 이름을 지정할 수도 있습니다. 인덱스는 행의 차이를 나타내는 반면 열 이름은 열의 차이를 나타냅니다.

Python에서 데이터 프레임을 만드는 방법(Pandas 사용)

데이터 프레임 생성은 Python에서 데이터 병합을 위한 첫 번째 단계입니다. 다음과 같은 입력을 사용하여 Pandas 데이터 프레임을 만들 수 있습니다.

딕셔너리
기울기
시리즈
Numpy "ndarray"
또 다른 데이터 프레임
CS와 같은 외부 파일

빈 데이터 프레임 만들기

기본 데이터 프레임, 일명 빈 데이터 프레임을 만드는 것은 매우 쉽습니다. 다음은 예입니다.

입력 –

출력 –

목록에서 데이터 프레임 만들기

단일 목록 또는 여러 목록을 사용하여 데이터 프레임을 만들 수 있습니다.

입력 –

출력 –

"ndarrays" 또는 목록의 사전에서 데이터 프레임 만들기

ndarrays의 dict에서 데이터 프레임을 만들려면 모든 ndarrays의 길이가 같아야 합니다. 또한 인덱싱된 경우 인덱스의 길이는 배열의 길이와 같아야 합니다. 그러나 인덱싱되지 않은 경우 인덱스는 기본적으로 range(n)이 됩니다. 여기서 'n'은 배열 길이를 나타냅니다.

입력 –

출력 –

여기서 값 0,1,2,3은 range(n) 함수를 사용하여 각 행에 할당된 기본 인덱스입니다.

기본 데이터 프레임 작업이란 무엇입니까?

이제 Python에서 데이터 프레임을 생성하는 세 가지 방법을 살펴보았으므로 데이터 프레임 내에서 다양한 작업에 대해 알아볼 차례입니다.

Pandas 데이터 프레임에서 인덱스 또는 열 선택

DataFrame 내에서 구성 요소 추가, 삭제 및 이름 바꾸기를 시작하기 전에 인덱스 또는 열을 선택하는 방법을 아는 것이 중요합니다. 이것이 데이터 프레임이라고 가정합니다.

열 'A'의 인덱스 0 아래에 있는 값에 액세스하려고 합니다. 값은 1입니다. 이 값에 액세스하는 방법은 여러 가지가 있지만 가장 중요한 두 가지 방법은 .loc[] 및 .iloc[]입니다.

입력 –

출력 –

따라서 보시다시피 레이블로 값을 호출하거나 인덱스 또는 열에서 값의 위치를 선언하여 값에 액세스할 수 있습니다. 이것이 데이터 프레임에서 값을 선택하는 동안 어떻게 동일한 데이터 프레임에서 행과 열을 선택할 수 있습니까?

이 방법은 다음과 같습니다.

입력 –

산출-

Pandas DataFrame에 인덱스, 행 또는 열을 추가하는 방법

데이터 프레임에서 값에 액세스하고 열을 선택하는 방법을 배우고 나면 Pandas 데이터 프레임에 인덱스, 행 또는 열을 추가하는 방법을 배울 수 있습니다.

색인 추가:

데이터 프레임을 생성하는 동안 'index' 인수에 입력을 추가하도록 선택할 수 있습니다. 이렇게 하면 원하는 인덱스에 쉽게 액세스할 수 있습니다. 인덱스를 지정하지 않으면 기본적으로 0부터 시작하여 DataFrame의 마지막 행까지 계속되는 숫자 값 인덱스가 추가됩니다. 기본적으로 인덱스가 지정된 후에도 데이터 프레임에서 set_index() 함수를 호출하여 열을 사용하고 인덱스로 변환할 수 있습니다.

행 추가:

추가 기능을 사용하여 DataFrame에 행을 추가할 수 있습니다.

입력 –

출력 –

.loc을 사용하여 다음과 같이 DataFrame에 행을 삽입할 수도 있습니다.

입력 –

출력 –

열 추가

인덱스를 데이터 프레임의 일부로 만들려면 데이터 프레임에서 열을 가져오거나 아직 생성되지 않은 열을 참조하고 다음과 같이 .index 속성에 할당하면 됩니다.

입력 –

출력 –

데이터 프레임에 열을 추가하기 위해 인덱스를 데이터 프레임에 추가할 때와 동일한 접근 방식을 사용할 수도 있습니다. 즉, .loc[ ] 또는 .iloc[ ] 함수를 사용할 수 있습니다. 예를 들어:

입력 –

산출

.loc[ ]를 사용하여 기존 DataFrame에 Series를 추가할 수 있습니다. Series 개체는 데이터 프레임의 열과 매우 유사하기 때문에 기존 데이터 프레임에 시리즈를 추가하는 것은 매우 쉽습니다.

데이터 프레임의 인덱스를 재설정하는 방법은 무엇입니까?

원하는 모양이 아닌 경우 데이터 프레임의 인덱스를 재설정할 수 있습니다. .reset_index() 함수를 사용하여 이를 수행할 수 있습니다.

입력 –

출력 –

Pandas DataFrame에서 인덱스, 행 또는 열을 삭제하는 방법

인덱스 삭제

데이터 프레임의 인덱스를 재설정합니다.
del df.index.name 함수를 사용하여 인덱스 이름(있는 경우)을 제거합니다.
행과 함께 인덱스를 제거합니다.
인덱스를 재설정하고 데이터 프레임에 추가된 인덱스 열의 중복을 삭제하고 새 열(중복 인덱스가 없는)을 인덱스로 다시 복원하여 모든 중복 인덱스 값을 제거합니다.

열 삭제

데이터 프레임에서 열을 제거하려면 drop() 함수를 사용할 수 있습니다.

입력 –

출력 –

행 삭제

데이터 프레임에서 행을 삭제하려면 index 속성을 사용하여 데이터 프레임에서 삭제하려는 행의 인덱스를 지정하여 drop() 함수를 사용할 수 있습니다.

입력 –

출력 –

그러나 중복 행을 삭제하려면 df.drop_duplicates() 함수를 사용할 수 있습니다.

입력 –

출력 –

출처: Tutorialspoint Datacamp

결론

따라서 Pandas를 사용하는 Python의 Data Frame에 대한 기본 자습서가 있습니다.

Python, 데이터 과학을 배우는 데 관심이 있는 경우 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 업계 멘토와의 1:1 학습, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

Pandas가 Python에서 데이터 프레임을 생성하는 데 가장 선호되는 라이브러리 중 하나인 이유는 무엇입니까?

Pandas 라이브러리는 데이터 프레임을 효율적으로 생성할 수 있는 다양한 기능을 제공하므로 데이터 프레임 생성에 가장 적합한 것으로 간주됩니다. 이러한 기능 중 일부는 다음과 같습니다. Pandas는 효율적인 데이터 표현을 허용할 뿐만 아니라 이를 조작할 수 있는 다양한 데이터 프레임을 제공합니다. 데이터에 레이블을 지정하고 구성하는 지능적인 방법을 제공하는 효율적인 정렬 및 인덱싱 기능을 제공합니다. Pandas의 일부 기능은 코드를 깔끔하게 만들고 가독성을 높여 더 효율적으로 만듭니다. 또한 여러 파일 형식을 읽을 수 있습니다. JSON, CSV, HDF5 및 Excel은 Pandas에서 지원하는 파일 형식 중 일부입니다. 여러 데이터 세트를 병합하는 것은 많은 프로그래머에게 진정한 도전이었습니다. Pandas는 이것을 극복하고 여러 데이터 세트를 매우 효율적으로 병합합니다.

Pandas 라이브러리를 보완하는 다른 라이브러리와 도구는 무엇입니까?

Pandas는 데이터 프레임을 생성하기 위한 중앙 라이브러리로 작동할 뿐만 아니라 Python의 다른 라이브러리 및 도구와도 함께 작동하여 더 효율적입니다. Pandas는 대부분의 Pandas 라이브러리 구조가 NumPy 패키지에서 복제되었음을 나타내는 NumPy Python 패키지를 기반으로 합니다. Pandas 라이브러리의 데이터에 대한 통계 분석은 SciPy에 의해 운영되고 Matplotlib에 함수를 표시하고 Scikit-learn에 머신 러닝 알고리즘이 적용됩니다. Jupyter Notebook은 IDE로 작동하며 Pandas에 좋은 환경을 제공하는 웹 기반 대화형 환경입니다.

기본적인 데이터 프레임 작업은 무엇입니까?

추가 또는 삭제와 같은 작업을 시작하기 전에 인덱스 또는 열을 선택하는 것이 중요합니다. 데이터 프레임에서 값에 액세스하고 열을 선택하는 방법을 배우고 나면 Pandas 데이터 프레임에서 인덱스, 행 또는 열을 추가하는 방법을 배울 수 있습니다. 데이터 프레임의 인덱스가 원하는 대로 나오지 않으면 재설정할 수 있습니다. 인덱스를 재설정하려면 "reset_index()" 함수를 사용할 수 있습니다.