Seaborn으로 Python 히트맵을 만드는 방법은 무엇입니까? [종합설명]
게시 됨: 2021-10-06빅데이터 시대의 기업은 하루하루 방대한 양의 데이터에 압도당하고 있습니다. 그러나 중요한 것은 관련 데이터의 양이 아니라 데이터로 수행되는 작업입니다. 따라서 궁극적으로 더 나은 결정을 내리고 전략적 비즈니스 움직임에 영향을 미칠 통찰력을 얻기 위해 빅 데이터를 분석해야 합니다.
그러나 데이터를 분석하고 그대로 두는 것만으로는 충분하지 않습니다. 다음 단계는 데이터를 시각적 형식으로 표시하여 데이터의 패턴, 추세 및 이상치를 보고 이해하는 데이터 시각화입니다. Python의 Heatmap은 많은 데이터 시각화 기술 중 하나입니다.
데이터 시각화는 데이터의 그래픽 표현을 말하며 그래프, 차트, 지도 및 기타 시각적 요소를 포함할 수 있습니다. 방대한 양의 정보를 분석하고 데이터 기반 의사 결정을 내리는 데 매우 중요합니다.
이 기사에서는 Python의 히트맵 개념과 Seaborn을 사용하여 히트맵을 만드는 방법을 안내합니다.
목차
히트맵이란?
Python의 히트맵은 색상이 관심 값이 다른 두 변수의 값으로 어떻게 변하는지 나타내는 데이터 시각화 기술입니다. 색상으로 인코딩된 값으로 데이터를 2차원 그래픽으로 표현하여 정보에 대한 단순화되고 통찰력 있고 시각적으로 매력적인 보기를 제공합니다. 아래 이미지는 히트맵을 단순화한 것입니다.
일반적으로 히트맵은 다양한 범주 집합을 나타내는 행과 열이 있는 데이터 테이블입니다. 표의 각 셀에는 주어진 색상표를 기반으로 셀의 색상을 결정하는 논리값 또는 숫자 값이 포함되어 있습니다. 따라서 열 지도는 색상을 사용하여 원시 숫자를 사용하여 일반 테이블에 배열하는 경우 이해하기 어려운 데이터 값 간의 관계를 강조합니다.
히트맵은 여러 실제 시나리오에서 애플리케이션을 찾습니다. 예를 들어 아래의 히트 맵을 고려하십시오. 주식 시장의 지배적인 추세를 식별하는 주가 지수 히트맵입니다. 히트맵은 차가운 색에서 뜨거운 색 구성표를 사용하여 어떤 주식이 약세이고 어떤 주식이 강세인지 보여줍니다. 전자는 빨간색으로 표현하고 후자는 녹색으로 표현합니다.
원천
히트맵은 다른 여러 영역에서 사용됩니다. 몇 가지 예로는 웹사이트 히트맵, 지리적 히트맵 및 스포츠 히트맵이 있습니다. 예를 들어 히트맵을 사용하여 도시 집합에서 월별 강우량이 어떻게 변하는지 이해할 수 있습니다. 히트맵은 또한 인간 행동을 연구하는 데 매우 유용합니다.
상관 히트맵
상관 히트맵은 두 개의 개별 변수 간의 상관 관계를 보여주는 2차원 매트릭스입니다. 테이블의 행에는 첫 번째 변수의 값이 표시되고 두 번째 변수는 열로 표시됩니다. 일반 히트맵과 마찬가지로 상관 히트맵에는 데이터를 읽고 이해할 수 있는 색상 막대가 함께 제공됩니다.
사용된 색 구성표는 색 구성표의 한쪽 끝이 낮은 값의 데이터 요소를 나타내고 다른 쪽 끝이 높은 값의 데이터 요소를 나타내는 방식입니다. 따라서 상관 히트맵은 데이터의 변화를 강조하면서 쉽게 읽을 수 있는 형태로 패턴을 제시하기 때문에 데이터 분석에 이상적입니다.
아래는 상관 히트맵의 고전적인 표현입니다.
원천
Python에서 Seaborn 히트맵 만들기
Seaborn은 데이터 시각화에 사용되는 Python 라이브러리이며 matplotlib를 기반으로 합니다. 통계 그래프 형식으로 데이터를 표시하기 위해 유익하고 시각적으로 매력적인 매체를 제공합니다. seaborn을 사용하여 만든 히트맵에서 색상 팔레트는 관련 데이터의 변화를 나타냅니다. 초보자이고 데이터 과학에 대한 전문 지식을 얻으려면 데이터 과학 과정을 확인하십시오.
Python에서 히트맵을 만드는 단계
다음 단계는 Python에서 간단한 히트맵을 만드는 방법에 대한 대략적인 개요를 제공합니다.
- 필요한 모든 패키지 가져오기
- 데이터를 저장한 파일 가져오기
- 히트맵 플로팅
- matplotlib를 사용하여 히트맵 표시
이제 matplotlib 및 pandas와 함께 seaborn을 사용하여 히트맵을 생성하는 방법을 보여드리겠습니다.
이 예에서는 Python으로 30개의 제약 회사 주식에 대한 seaborn 히트맵을 구성합니다. 결과 히트맵은 주식 기호와 해당 일일 백분율 가격 변동을 표시합니다. 먼저 제약 주식에 대한 시장 데이터를 수집하고 해당 CSV 파일의 처음 두 열에서 주식 기호와 해당 백분율 가격 변동으로 구성된 CSV(쉼표로 구분된 값) 파일을 만듭니다.
30개의 제약 회사와 협력하고 있으므로 6행 5열로 구성된 히트맵 매트릭스를 구성합니다. 또한 히트맵이 가격 변동률을 내림차순으로 표시하기를 원합니다. 따라서 CSV 파일의 종목을 내림차순으로 정렬하고 Seaborn 히트맵의 X 및 Y 축에서 각 종목의 위치를 나타내는 두 개의 열을 더 추가합니다.
1단계: Python 패키지 가져오기.
원천
2단계: 데이터세트 로드.
데이터 세트는 pandas의 read_csv 함수를 사용하여 읽습니다. 또한 처음 10개 행을 시각화하기 위해 print 문을 사용합니다.
원천
3단계: Python Numpy 배열 만들기.
6 x 5 행렬을 염두에 두고 "Symbol" 및 "Change" 열에 대한 n차원 배열을 만듭니다.
원천
4단계: Python에서 피벗 만들기.
주어진 데이터 프레임 개체 "df"에서 피벗 함수는 새 파생 테이블을 만듭니다. 피벗 함수는 인덱스, 열 및 값의 세 가지 인수를 사용합니다. 새 테이블의 셀 값은 "변경" 열에서 가져옵니다.
원천
5단계: 히트맵에 주석을 달기 위한 배열 생성.
다음 단계는 seaborn 히트맵에 주석을 달기 위한 배열을 만드는 것입니다. 이를 위해 배열 "백분율" 및 "기호"에 대한 flatten 메서드를 호출하여 Python 목록 목록을 한 줄로 병합합니다. 또한 zip 함수는 Python에서 목록을 압축합니다. Python for 루프를 실행하고 format 함수를 사용하여 필요에 따라 주식 기호 및 백분율 가격 변경 값의 형식을 지정합니다.
원천
6단계: matplotlib 그림 생성 및 플롯 정의.
이 단계에서는 빈 matplotlib 플롯을 만들고 Figure의 크기를 정의합니다. 또한, 플롯의 제목을 추가하고, 제목의 글꼴 크기를 설정하고, set_position 메서드를 사용하여 플롯과의 거리를 고정합니다. 마지막으로 주식 기호와 해당하는 1일 백분율 가격 변동만 표시하기를 원하기 때문에 X 및 Y 축에 대한 눈금을 숨기고 플롯에서 축을 제거합니다.
원천
7단계: 히트맵 생성
마지막 단계에서는 seaborn Python 패키지의 히트맵 기능을 사용하여 히트맵을 생성합니다. seaborn Python 패키지의 히트맵 기능은 다음 인수 집합을 사용합니다.
데이터 :
배열로 강제 변환할 수 있는 2차원 데이터 세트입니다. Pandas DataFrame이 주어지면 인덱스/열 정보를 사용하여 행과 열에 레이블이 지정됩니다.
주석 :
데이터와 같은 모양의 배열이며 히트맵에 주석을 답니다.
cmap:
matplotlib 객체 또는 컬러맵 이름이며 데이터 값을 색 공간에 매핑합니다.
Fmt :
주석을 추가할 때 사용하는 문자열 형식화 코드입니다.
선폭:
각 셀을 나누는 선의 너비를 설정합니다.
원천
선택한 제약 회사에 대한 seaborn 히트맵의 최종 출력은 다음과 같습니다.
원천
앞으로 나아갈 길: upGrad의 데이터 과학 전문 인증 프로그램으로 Python 배우기
비즈니스 의사 결정을 위한 데이터 과학 의 전문 인증 프로그램은 실제 비즈니스 응용 프로그램에 특히 중점을 두고 데이터 과학 및 기계 학습 개념에 중점을 둔 엄격한 8개월 온라인 프로그램입니다. 이 프로그램은 전략적 및 데이터 기반 비즈니스 결정을 내리는 데 도움이 될 데이터 과학의 실용적인 지식과 기술을 개발하려는 관리자 및 실무 전문가를 위해 범주적으로 설계되었습니다.
코스 하이라이트는 다음과 같습니다.
- IIM Kozhikode의 권위 있는 인정
- 200시간 이상의 콘텐츠
- 3개의 산업 프로젝트와 관석
- 20개 이상의 라이브 학습 세션
- 5개 이상의 전문가 코칭 세션
- Excel, Tableau, Python, R 및 Power BI 적용
- 업계 멘토와 일대일
- 360도 경력 지원
- 일류 기업과의 취업 지원
upGrad에 가입하고 모든 데이터 시각화 요구 사항에 대한 Python 히트맵 기술을 연마하십시오!
결론
통계학자와 데이터 분석가는 수집된 데이터를 정렬하고 이해하기 쉽고 사용자 친화적인 방식으로 제시하기 위해 과다한 도구와 기술을 사용합니다. 이와 관련하여 데이터 시각화 기술로서의 히트맵은 모든 부문의 기업이 데이터를 더 잘 시각화하고 이해하는 데 도움이 되었습니다.
요약하면 히트맵은 널리 사용되어 왔으며 여전히 선택되는 통계 및 분석 도구 중 하나로 사용됩니다. 이는 시각적으로 매력적이고 접근 가능한 데이터 표시 모드를 제공하고 쉽게 이해할 수 있고 다용도로 적용할 수 있으며 단일 프레임에 모든 값을 표시함으로써 기존 데이터 분석 및 해석 프로세스의 지루한 단계를 없애기 때문입니다.
히트맵을 어떻게 플로팅합니까?
히트맵은 그룹화된 데이터를 2차원 그래픽 형식으로 표시하는 표준 방법입니다. 히트맵을 플로팅하는 기본 아이디어는 그래프가 정사각형 또는 직사각형으로 나뉘며 각각은 데이터 테이블의 하나의 셀, 하나의 데이터 세트 및 하나의 행을 나타내는 것입니다. 정사각형 또는 직사각형은 테이블의 해당 셀 값에 따라 색상으로 구분됩니다.
히트맵에 상관관계가 표시되나요?
상관 히트맵은 서로 다른 변수 간의 상관 관계를 나타내는 상관 행렬의 그래픽 표현입니다. 상관 열 지도는 상관 관계가 높은 변수를 쉽게 식별할 수 있으므로 적절하게 사용하면 매우 효과적입니다.
왜 seaborn이 Python에서 사용됩니까?
Seaborn은 matplotlib를 기반으로 하는 오픈 소스 Python 라이브러리입니다. 탐색적 데이터 분석 및 시각화에 사용되며 데이터 프레임 및 Pandas 라이브러리와 쉽게 작동합니다. 또한 seaborn을 사용하여 만든 그래프는 쉽게 사용자 지정할 수 있습니다.