2022년 감정 분석을 위해 설정된 상위 10개 데이터 세트

게시 됨: 2021-01-08

감정 분석은 기계 학습의 도움을 받아 특정 제품이나 서비스에 대한 사람들의 감정과 감정을 이해하는 데 사용되는 기술입니다. 감정 분석 모델에는 많은 양의 특정 데이터 세트가 필요합니다.

모델 생성 및 훈련의 가장 어려운 측면 중 하나는 적절한 양과 유형의 감정 분석 데이터 세트를 획득하는 것입니다. upGrad 에서 감정 분석에 대한 프로젝트를 시작하는 데 도움이 될 수 있는 10가지 액세스 가능한 데이터 세트 목록을 작성했습니다 .

원천

목차

감정 분석 데이터 세트

1. 스탠포드 센티먼트 트리뱅크

우리가 공유하고 싶은 감정 분석을 위한 첫 번째 데이터세트는 Stanford Sentiment Treebank입니다. 데이터 세트에는 훌륭한 영화 리뷰 웹사이트인 Rotten Tomatoes의 사용자 감정이 포함되어 있습니다.

여기에는 사용자 리뷰가 포함된 웹사이트의 HTML 파일에서 가져온 10,000개 이상의 데이터가 포함되어 있습니다. 감정은 1에서 25 사이의 선형 척도로 평가됩니다. 1은 가장 부정적인 감정이고 25는 가장 긍정적인 감정입니다. 데이터 세트는 무료로 다운로드할 수 있으며 Stanford 웹사이트에서 찾을 수 있습니다.

2. IMDB 영화 리뷰 데이터 세트

목록의 두 번째 데이터세트는 IMDB 영화 리뷰 데이터세트입니다. IMDB에는 25,000개의 사용자 리뷰가 있습니다. 데이터 세트는 이진으로 분류되며 훈련 및 테스트 목적으로 사용할 수 있는 레이블이 지정되지 않은 추가 데이터도 포함합니다.

데이터 세트는 'Large Movie Review Dataset'이라는 레이블이 붙은 Kaggle 또는 Stanford 웹 사이트에서 다운로드할 수 있습니다. 감정 분석 위한 IMDB 사용자 리뷰 데이터 세트를 찾고 있다면 사용할 수 있는 옵션이 많이 있습니다. 용도와 용도에 따라 선택하시면 됩니다.

읽기: 기계 학습 프로젝트를 위한 최고의 데이터 세트

3. 논문 리뷰 데이터 세트

Paper Reviews 데이터세트에는 컴퓨팅에 관한 회의에서 주로 스페인어와 영어로 된 리뷰가 포함되어 있습니다. 총 405개의 인스턴스(N)가 있으며 5점 척도로 평가됩니다. 수행된 평가는 다음과 같습니다.

  • -2: 매우 부정적
  • -1: 음수
  • 0: 중립
  • 1: 긍정적
  • 2: 매우 긍정적

감정 점수는 종이에 대한 사용자의 의견을 나타냅니다. 데이터 세트는 학술 논문 리뷰의 의견을 예측하는 데 유용할 수 있습니다. 데이터세트는 캘리포니아 대학교 웹사이트에서 다운로드할 수 있습니다.

세계 최고의 대학에서 인공 지능 과정배우십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

4. 트위터 US Airline Sentiment

Twitter US Airline Sentiment 데이터 세트에는 이름에서 알 수 있듯이 주요 미국 항공사와 관련된 사용자 경험 트윗이 포함되어 있습니다. 데이터 세트는 2015년 2월 이후의 트윗을 포함하며 긍정적, 부정적 또는 중립적으로 분류됩니다.

데이터 세트에는 Twitter 사용자 ID, 항공사 이름, 트윗 날짜 및 시간, 항공사의 부정적인 경험과 같은 정보가 포함됩니다. 데이터 세트는 Kaggle에서 다운로드할 수 있습니다.

5. 감성140

감성 분석을 위한 Sentiment140 데이터 세트 는 소셜 미디어 플랫폼 Twitter의 사용자 트윗을 통해 다양한 제품, 브랜드 또는 주제에 대한 사용자 응답을 분석하는 데 사용됩니다. 데이터 세트는 Twitter API를 사용하여 수집되었으며 약 1,60,000개의 트윗을 포함했습니다. 데이터는 6개 필드로 정렬됩니다.

  • 트윗의 극성(0 = 음수, 2 = 중립, 4 = 양수)
  • 트윗의 아이디
  • 트윗 날짜
  • 쿼리
  • 트위터 사용자
  • 트윗에 포함된 텍스트 데이터

데이터세트는 Sentiment140's 또는 Stanford's 웹사이트에서 다운로드할 수 있습니다. 데이터 세트는 브랜드 관리, 투표 및 구매 계획 목적에 유용합니다.

읽기: 상위 4가지 유형의 감정 분석 및 사용 위치

6. Opin-Rank 리뷰 데이터 세트

감정 분석을 위한 Opin-Rank 리뷰 데이터 세트 에는 자동차 및 호텔에 대한 약 3,00,000개의 사용자 리뷰가 포함되어 있습니다. 데이터 세트는 Edmunds(자동차) 및 TripAdvisor(호텔)와 같은 웹사이트에서 수집된 사용자 리뷰로 구성됩니다.

대부분의 데이터 세트에는 TripAdvisor의 전체 리뷰(약 2,59,000개)가 포함되어 있습니다. Edmunds 사용자 리뷰는 약 42,230개입니다. 두바이, 시카고, 라스베이거스, 델리 등 전 세계 10개 도시의 호텔에 대한 종합적인 리뷰가 있습니다. 데이터 필드에는 날짜, 리뷰 제목 및 전체 리뷰가 포함됩니다.

마찬가지로 2007년부터 2009년까지 Edmund의 자동차 리뷰가 있습니다. 리뷰 데이터에는 날짜, 작성자 이름, 즐겨찾기 및 전체 보고서가 포함됩니다. 데이터세트는 GitHub 웹사이트에서 다운로드할 수 있습니다.

7. 아마존 상품 데이터

Amazon 제품 데이터는 Amazon 제품의 감정 분석 을 위한 훨씬 더 큰 데이터 세트의 하위 집합입니다. 수퍼 세트에는 1억 4,280만 개의 Amazon 리뷰 데이터 세트가 포함되어 있습니다. 이 하위 집합은 Stanford 교수 Julian McAuley가 제공했습니다.

Amazon의 다양한 카테고리에 나열된 제품에 대해 1996년 5월부터 2014년 7월까지의 사용자 리뷰를 제공합니다. 다운로드할 수 있는 업데이트된 버전(2018 버전)이 있습니다. 1996년 5월부터 2018년 10월까지의 2억 3310만 사용자 리뷰가 포함되어 있습니다.

이전 데이터 세트는 University of San Diego 웹 사이트에서 다운로드할 수 있지만 새 데이터 세트는 GitHub에서 찾을 수 있습니다. 두 데이터 세트 모두 평점, 가격, 제품 설명 및 유용한 투표와 같은 데이터 요소를 포함합니다. 새 데이터 세트에는 기술 세부 정보 및 유사한 제품 표와 같은 추가 데이터가 포함됩니다.

8. WordStat 감정 사전

감정 분석을 위한 WordStat 감정 사전 데이터 세트 는 Harvard IV 사전, Regressive Imagery 사전, 언어 및 단어 수 사전의 긍정적 및 부정적 단어를 통합하여 설계되었습니다. 여기에는 약 15,000단어의 데이터가 결합되어 있습니다.

데이터 세트는 부정을 고려하여 사용자 감정을 긍정적 또는 부정적으로 분류합니다. 데이터 세트는 대중이 다운로드할 수 있습니다. 단, 허가 없이 영리 목적으로 사용할 수 없습니다. Provalisresearch의 웹사이트에서 최신 버전의 데이터 세트를 다운로드할 수 있습니다.

더 읽어보기: 최고의 ML 데이터 세트 프로젝트 아이디어

9. 81개 언어에 대한 감정 어휘

원천

이름에서 알 수 있듯이 81개 언어에 대한 Sentiment Lexicon에는 아프리칸스어에서 영어, 이디시어에 이르기까지 총 81개 단어에 대한 문맥 데이터가 포함되어 있습니다. 데이터에는 위에서 언급한 언어 수에 대한 긍정적 및 부정적 사전이 포함됩니다. 데이터 세트는 챗봇과 같은 자연어 처리 프로젝트에서 작업하는 분석가 및 데이터 과학자에게 유용합니다.

읽기: Python에서 챗봇을 만드는 방법은 무엇입니까?

10. 단어의 가방과 팝콘의 가방이 만나다

감정 분석을 위한 마지막이지만 중요한 데이터 세트 는 '단어 봉지가 팝콘 봉지를 만나다'입니다. 짐작하셨겠지만 이 데이터셋은 영화에 대한 사용자 감정과도 관련이 있습니다. 50,000개의 IMDB 리뷰로 구성되어 있습니다. 데이터 세트는 사용자 감정에 대해 이진 분류를 사용합니다. 특정 영화에 대한 IMDB 등급이 5 미만이면 감정 점수는 0입니다. 마찬가지로 등급이 7보다 크거나 같으면 감정 점수는 1입니다. Kaggle에서 데이터 세트를 다운로드할 수 있습니다.

확인: Python을 사용한 감정 분석: 실습 가이드

결론

감정 분석을 위한 10가지 다양한 데이터 세트를 다루는 이 블로그가 도움이 되었기를 바랍니다. 감정 분석 및 인공 지능 및 머신 러닝과 같은 관련 기술에 대해 더 배우고 싶다면 머신 러닝 및 AI 과정의 Executive PG 프로그램을 확인하십시오 .

감정 분석에 적합한 데이터 세트는 무엇입니까?

감정 분석은 소비자 대면 또는 제품 기반 데이터 세트 모두에서 수행할 수 있습니다. 소비자 대면 데이터 세트는 일반적인 만족과 관련하여 이벤트 또는 상황, 제품 또는 브랜드에 대한 소비자 사고 방식 또는 소비자가 최근 이벤트에 대해 느끼는 방식을 포착합니다. 예를 들어, 설문조사에 참여하고 제품 또는 서비스를 검토할 수 있는 소비자 피드백 사이트의 데이터세트가 있습니다. 감정 분석에 사용할 수 있는 데이터 세트가 많이 있습니다. 그 중 일부는 Twitter 감정 분석, Bing 감정 데이터 세트, 영화 리뷰 감정 분류, IMDb 감정 분류 등이 있습니다.

감정 분석이 다루는 일반적인 문제는 무엇입니까?

감정 분석은 언어, 통계 및 기계 학습 방법을 사용해야 하는 영역인 오피니언 마이닝을 기반으로 합니다. 사람들은 다양한 의견을 가지고 있지만 사회적 압력, 두려움, 시간 부족으로 인해 자신의 의견을 말하지 않는 경우가 많습니다. 감정 분석은 해결책이 될 수 있지만 대략적인 감정 점수만 제공합니다. 감정 분석을 사용하여 감정 마이닝을 수행하는 것은 어려운 일입니다. 왜냐하면 특정 텍스트가 하나의 숫자가 아니라 음수 또는 양수인 이유를 설명해야 하기 때문입니다. 이것이 이러한 방법이 거의 잘 작동하지 않는 이유입니다.

감정 분석의 정확도를 높이려면 어떻게 해야 합니까?

감정 분석의 정확도를 높이려면 문장의 감정을 인식하는 데 도움이 되는 감정 어휘를 정의해야 합니다. 감정 어휘를 사용하면 문장의 모든 관련 단어와 관련된 감정 점수를 포함하는 일종의 사전을 개발할 수 있습니다. 감정 어휘를 얻으려면 Twitter API를 사용하여 트윗을 가져올 수 있습니다. 그런 다음 자연어 처리를 사용하여 문장의 감정을 찾을 수 있습니다. NER를 사용하여 감정을 추출할 수도 있습니다.