초심자를 위한 감정 분석 프로젝트 및 주제 [2022]

게시 됨: 2021-01-09

감정 분석을 공부하고 있으며 지식을 테스트하고 싶습니까? 그렇다면 제대로 찾아오셨습니다. 이 기사에서는 지식을 테스트하고 이해를 보여줄 수 있는 감정 분석 프로젝트 아이디어에 대해 논의합니다.

우리는 훌륭한 프로젝트 아이디어를 찾는 것이 얼마나 까다로운 일인지 알고 있습니다. 우리는 또한 프로젝트를 완료하는 것이 얼마나 유익한지 압니다. 프로젝트를 통해 지식을 강화하고 포트폴리오를 강화하며 더 나은 역할을 수행할 수 있습니다.

세계 최고의 대학에서 온라인으로 최고의 기계 학습 과정참여하십시오 . 석사, 대학원 대학원 과정, ML 및 AI 고급 인증 프로그램에 참여하여 경력을 빠르게 추적하십시오.

더 이상 고민하지 않고 시작하겠습니다.

목차

감정 분석이란 무엇입니까?

감성 분석은 NLP(자연어 처리), 텍스트 분석, 전산 언어학 등을 활용해 사람들의 의견 성향을 측정하는 일종의 데이터 마이닝이다. 우리는 주로 공개 리뷰, 소셜 미디어 플랫폼 및 유사 사이트에서 감정 분석을 수행합니다. 다음은 감정 분석의 주요 유형입니다.

세밀한

세분화된 감정 분석은 해당 주제에 대한 여론이 무엇인지에 대한 정확한 결과를 제공합니다. 매우 부정적, 부정적, 중립적, 긍정적, 매우 긍정적과 같은 다양한 범주로 결과를 분류했습니다.

감정 감지

이러한 종류의 감정 분석은 분노, 행복, 슬픔 등과 같은 감정을 식별합니다. 감정을 인식하기 위해 어휘를 사용하는 경우가 많습니다. 그러나 사전에도 단점이 있으며 이러한 경우 ML 알고리즘을 사용해야 합니다.

Aspect 기준

측면 기반 감정 분석에서는 사람들이 이야기하는 것의 측면을 봅니다. 스마트폰에 대한 리뷰가 있다고 가정하면 사람들이 배터리 수명이나 화면 크기에 대해 이야기하는 내용을 보고 싶을 수 있습니다.

다국어

때때로 조직은 다른 언어의 텍스트를 분석해야 합니다. 이러한 형태의 감정 분석은 상당히 어렵고 많은 리소스가 필요하기 때문에 많은 노력이 필요합니다.

감정 분석은 다양한 산업 분야에서 많은 응용 분야를 가지고 있습니다. 여론을 이해하는 데 도움이 되기 때문에 기업은 시장 조사를 수행하고 고객이 특정 제품(또는 서비스)을 좋아하는지 여부를 파악하는 데 감정 분석을 사용합니다. 그런 다음 감성 분석 결과에 따라 조직은 해당 제품 또는 서비스를 수정하여 더 나은 결과를 얻을 수 있습니다.

대체로 기업이 고객을 더 잘 이해하는 데 도움이 됩니다. 기업은 고객이 뒤처지는 부분과 뛰어난 부분을 알 때 고객에게 더 나은 서비스를 제공할 수 있습니다.

다음 요점에서 몇 가지 중요한 감정 분석 프로젝트 아이디어에 대해 논의했으며 관심과 전문 지식에 따라 하나를 선택하십시오.

감정 분석 프로젝트 아이디어

다음은 감성 분석 프로젝트입니다. 우리 목록에는 모든 기술 수준에 대한 프로젝트가 있으므로 편안하게 선택할 수 있습니다.

1. 아마존 상품평 분석

아마존은 지구상에서 가장 큰 전자 상거래 상점입니다. 이것은 또한 사용 가능한 가장 큰 제품 선택 중 하나를 가지고 있음을 의미합니다. 많은 경우 회사는 제품에 대한 여론을 이해하고 그 책임이 무엇인지 파악하기를 원합니다. 이를 위해 제품 리뷰에 대한 감정 분석을 수행합니다.

제품의 주요 문제(있는 경우)를 인식하는 데 도움이 됩니다. 일부 제품에는 Amazon에 수천 개의 리뷰가 있고 일부 제품에는 수백 개의 리뷰가 있습니다.

이러한 전문 지식에 대한 수요가 매우 높기 때문에 가장 감성 분석 프로젝트 중 하나입니다. 기업은 전문가가 시장 조사를 위해 제품 리뷰를 분석하기를 원합니다.

이 프로젝트에 대한 데이터 세트는 Amazon 제품 리뷰 데이터 세트에서 얻을 수 있습니다 .

이 프로젝트에서 작업하면 감정 분석의 여러 측면에 익숙해질 것입니다. 초보자라면 작은 제품부터 시작하여 동일한 제품에 대한 리뷰를 분석할 수 있습니다. 반면에 도전을 찾고 있다면 인기있는 제품을 가지고 리뷰를 분석 할 수 있습니다.

2. 로튼 토마토와 리뷰

Rotten Tomatoes는 영화와 쇼에 대한 평론가들의 종합적인 평가를 볼 수 있는 리뷰 사이트입니다. 거의 모든 쇼, TV 시리즈 또는 드라마에 대한 리뷰를 찾을 수 있습니다. 물론 데이터를 얻을 수 있는 좋은 장소이기도 합니다.

감정 분석 프로젝트의 일부로 이 사이트에 있는 리뷰에 대한 감정 분석을 수행할 수 있습니다. 연예계는 비평가들의 평가를 매우 진지하게 받아들입니다. 비평가 리뷰를 분석함으로써 프로덕션 회사는 특정 타이틀이 성공한(또는 실패한) 이유를 이해할 수 있습니다. 비평가 리뷰는 타이틀의 상업적 성공에도 상당한 영향을 미칩니다.

감정 분석을 통해 특정 영화나 프로그램에 대한 평론가들의 일반적인 의견을 파악할 수 있습니다. 이 프로젝트는 감정 분석이 Netflix와 같은 엔터테인먼트 회사에 어떻게 도움이 되는지 알아낼 수 있는 훌륭한 방법입니다.

여기에서 이 프로젝트의 데이터세트를 얻을 수 있습니다. Rotten Tomatoes dataset .

3. 트위터 감성 분석

트위터는 감정 분석을 수행하기에 좋은 장소입니다. 이 플랫폼을 통해 모든 주제에 대한 여론을 얻을 수 있습니다. 이것은 중급 감정 분석 프로젝트 아이디어 중 하나입니다. 이 작업을 수행하기 전에 의견 마이닝(감정 분석의 다른 이름)을 수행한 경험이 있어야 합니다. 인기있는 프로젝트 아이디어이므로 조금 더 자세히 논의했습니다.

전제 조건

프로그래밍에 대한 기본 지식이 있어야 합니다. Python 또는 R에 익숙할 수 있습니다(둘 모두에 익숙하다면 좋습니다). 그러나 프로그래밍에 대한 전문가 수준의 지식이 필요하지 않습니다. 프로그래밍 외에도 여기에서 Twitter API를 사용해야 하므로 데이터 세트를 분할하고 RESTful API를 사용하는 방법도 알아야 합니다. 또한 Naive Bayes Classifier는 나중에 프로젝트에서 데이터를 분류하는 데 사용할 것이므로 익숙해야 합니다.

이 프로젝트는 쉽지 않고 약간의 시간이 걸립니다(트위터에서 데이터를 다운로드하는 데 몇 시간이 걸립니다).

프로젝트 작업

먼저 Twitter API를 사용하려면 Twitter에서 승인된 자격 증명을 받아야 합니다. Twitter 개발자 계정을 승인하는 데 시간이 걸리지만 일단 계정이 있으면 대시보드로 이동하여 '앱 만들기'를 할 수 있습니다.

필요한 자격 증명이 있으면 함수를 만들고 테스트 세트를 빌드할 수 있습니다. Twitter는 API를 통해 할 수 있는 요청 수에 제한이 있으며 보안상의 이유로 이 제한을 추가했습니다. 상한선은 15분 동안 180개 요청입니다. 100개의 트윗을 갖도록 테스트 세트를 유지할 수 있습니다.

테스트 세트를 생성한 후에는 이 프로젝트에서 가장 어려운 부분인 Twitter API를 사용하여 훈련 세트를 빌드해야 합니다. API에서 수집한 트윗을 나중에 사용할 수 있도록 CSV 파일로 저장해야 합니다.

훈련 세트를 준비한 후에는 데이터 세트에 있는 트윗만 전처리하면 됩니다. 이모티콘, 이미지 및 기타 텍스트가 아닌 구성 요소는 감정 분석의 극성에 영향을 미치지 않습니다. 감정 분석에 사진 및 기타 부분을 포함하려면 딥 러닝을 사용해야 합니다. 데이터에서 모든 중복 문자와 오타를 제거했는지 확인하십시오. 최상의 결과를 얻으려면 데이터 정리가 중요합니다.

데이터를 정리한 후 Naive Bayes 분류기를 사용하여 사용 가능한 데이터 세트를 분석할 수 있습니다. 마지막으로 모델을 테스트하고 원하는 결과를 생성하는지 여부를 확인해야 합니다.

아시다시피 이 프로젝트에는 약간의 노력이 필요합니다. 그러나 Twitter에서 감정 분석을 수행하는 것은 이 주제에 대한 지식을 테스트하는 좋은 방법입니다. 포트폴리오(또는 이력서)에도 큰 도움이 될 것입니다.

더 읽어보기: Python을 사용한 감정 분석: 실습 가이드

4. 과학 논문의 검토

연구 목적으로 기계 학습 및 데이터 과학 지식을 사용하는 데 관심이 있다면 이 프로젝트가 적합합니다. 과학 논문 리뷰에 대한 감정 분석을 수행하고 주요 전문가가 특정 주제에 대해 어떻게 생각하는지 이해할 수 있습니다. 그러한 발견은 그에 따라 그들을 조사하는 데 도움이 될 수 있습니다.

다음은 이 프로젝트를 시작할 수 있는 데이터세트입니다. Machine Learning Dataset . 여기서 공유한 데이터 세트에는 N = 405개의 인스턴스가 있습니다. 그리고 JSON 형식으로 저장됩니다. 이 프로젝트에서 작업하면 과학 연구에서 기계 학습의 응용 프로그램에 익숙해질 것입니다. 데이터 세트에는 스페인어로 된 리뷰와 영어로 된 리뷰가 있습니다.

5. IMDb 리뷰 분석

IMDb는 사람들이 다양한 영화와 프로그램에 대한 의견을 남기는 엔터테인먼트 리뷰 웹사이트입니다. 거기에 있는 리뷰에 대한 감정 분석도 수행할 수 있습니다. 이전에 논의한 Rotten Tomatoes 프로젝트와 마찬가지로 이 프로젝트는 엔터테인먼트 산업에서 데이터 과학 및 머신 러닝의 응용 프로그램에 대해 배우는 데 도움이 될 것입니다.

쇼와 영화에 대한 리뷰는 제작 회사가 타이틀이 실패한(또는 성공한) 이유를 이해하는 데 도움이 됩니다.

이 프로젝트의 데이터세트는 상당히 오래되고 작습니다. 그러나 초보자가 새로운 데이터 세트에서 자신의 기술을 테스트할 수 있는 훌륭한 방법입니다. 다음은 데이터세트에 대한 링크입니다. IMDb 리뷰 데이터세트 .

6. 회사 평판 분석(뉴스 + 소셜 미디어)

마음에 드는 회사를 선택하여 상세한 감성 분석을 할 수 있습니다. 또한 트렌드 주제를 선택하고 감정 분석에 포함하여 보다 정확한 결과를 얻을 수도 있습니다. 여기에서 Uber의 예를 논의할 수 있습니다. 그들은 세계에서 가장 유명한 신생 기업 중 하나이며 글로벌 고객 기반을 보유하고 있습니다. 이 회사에 대한 여론을 이해하기 위해 감정 분석을 수행할 수 있습니다.

Uber에 대한 여론을 찾기 위해 먼저 관련 소스(이 경우 Uber의 Facebook 페이지 및 Twitter 페이지)에서 데이터를 가져옵니다. 거기에 있는 사용자들 간의 대화를 분석하여 시장에서 전반적인 브랜드 인식을 파악할 수 있습니다. 서로 다른 데이터세트를 구분하려면 카테고리가 필요합니다. 이 예에서는 결제, 서비스, 취소, 안전 및 가격을 사용할 수 있습니다.

이제 우리가 무엇을 하고 싶은지, 어디로 가야 하는지 알았으니 시작할 수 있습니다.

Facebook의 감정 분석

먼저 그들의 Facebook 페이지부터 시작하겠습니다. 여기에는 30,000개 이상의 댓글이 있으며 이전에 언급한 범주(결제, 서비스, 취소, 안전 및 가격)에서 분석을 수행한 후 긍정적인 댓글의 대부분이 가격 섹션에 대한 것으로 나타났습니다. 한편, 부정적인 피드백 비율이 가장 높은 카테고리는 서비스였다. 그러나 이 분석을 수행하는 동안 Facebook의 댓글에는 스팸, 제안, 뉴스 및 기타 다양한 정보가 가득하다는 점도 염두에 두었습니다.

감정 분석을 위해서는 의견만 보면 됩니다.

그래서 불필요한 카테고리를 모두 제거했고 예상대로 결과가 바뀌었습니다. 이제 모든 섹션에서 부정적인 의견이 과반수를 차지했으며 각 카테고리의 비율이 변경되었습니다. 가격 관련 댓글에서 부정적인 댓글의 비율이 20% 증가했습니다.

그렇기 때문에 데이터 정리를 수행하는 것이 필수적입니다. 정확한 결과를 얻을 수 있도록 도와줍니다.

Twitter의 감정 분석

우리는 이미 이 기사에서 트윗의 감정 분석에 대해 논의했습니다. 따라서 여기에서 유사한 접근 방식을 따르고 Uber에 태그를 지정하거나 트윗에 응답하는 사람들의 트윗을 분석합니다. 여기에서 긍정적인 트윗의 비율이 가장 높은 카테고리는 지불이었고 두 번째로 높은 카테고리는 안전이었습니다. 이것은 또한 다른 소셜 미디어가 어떻게 다른 결과를 제공하는지 보여줍니다.

그러나 여기에서도 데이터 정리를 수행해야 합니다. 이를 위해 관련 없는 의도(스팸, 뉴스, 마케팅 등)가 있는 트윗을 제거합니다. 여기에서도 다양한 범주의 백분율이 얼마나 변경되는지 알 수 있습니다.

우리의 경우 Payment는 긍정적인 트윗의 점유율이 12% 감소했으며 Safety는 긍정적인 응답 비율이 가장 높은 카테고리가 되었습니다. 그 외에도 Safety는 긍정적인 트윗의 점유율에서 약 2-4%를 잃었습니다. 이 데이터를 통해 사람들이 이러한 플랫폼에서 Uber에 대해 이야기할 때 가장 인기 있는 주제가 무엇인지도 알 수 있습니다.

따라서 Twitter에서 가장 인기 있는 카테고리는 결제, 취소 및 서비스라는 것을 알았습니다.

브랜드는 이 데이터를 매우 중요하게 생각합니다. 어떤 문제를 해결해야 하고 어떻게 해결할 수 있는지 파악하는 데 도움이 됩니다. 이 트윗은 결국 고객의 피드백입니다. 이 경우 Uber는 이러한 트윗의 결과를 사용하여 서비스의 어떤 부분에 결함이 있고 어떻게 수정할 수 있는지 이해할 수 있습니다.

뉴스의 감정 분석

어떤 조직에 대한 여론을 이해하려면 해당 조직에 대한 뉴스도 분석해야 합니다. 이 예에서는 Uber에 대한 뉴스 기사를 확인합니다. 해당 뉴스 기사에 있는 콘텐츠를 분석한 후 위에서 언급한 범주(지불, 서비스, 취소, 안전 및 가격)로 조사 결과를 분리합니다.

그 외에도 인기도에 따라 다양한 기사를 분류합니다. 인기 있는 기사일수록 여론에 영향을 미칩니다. 공유 수에 따라 모든 기사의 인기도를 측정할 수 있습니다. 점유율이 높은 칼럼은 점유율이 적은 칼럼보다 의심할 여지 없이 더 인기가 있습니다.

결과

이 예에서는 Uber와 이 회사에 대한 여론을 살펴보았습니다. Facebook, Twitter 및 뉴스를 분석한 후 Uber에 대한 일반적인 감정이 긍정적인지, 부정적인지, 중립적인지 알 수 있습니다.

이 접근 방식을 따라 감정 프로젝트 분석 아이디어를 만들 수 있습니다. 온라인 인지도가 높지 않고 여러 채널에서 감정 분석을 수행하여 긍정적인지 부정적인지 파악하는 소규모 회사에서 시작할 수 있습니다. 도전 과제를 늘리고 싶다면 더 복잡하게 만들고 주요 회사에 대한 분석을 수행할 수 있습니다(이 예에서와 같이).

또한 읽기: 상위 4개 데이터 분석 프로젝트 아이디어: 초급에서 전문가 수준

마지막 생각들

감정 분석은 머신 러닝에서 필수적인 주제입니다. 그것은 여러 분야에서 수많은 응용 프로그램을 가지고 있습니다. 이 주제에 대해 자세히 알아보려면 블로그로 이동하여 많은 새로운 리소스를 찾을 수 있습니다.

한편, 포괄적이고 구조화된 학습 경험을 원하거나 기계 학습에 대해 더 자세히 알고 싶다면 작업을 위해 설계된 IIIT-B & upGrad의 기계 학습 및 AI 경영자 PG 프로그램을 확인하십시오. 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT-B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원을 제공합니다.

감정 분석은 어떤 문제를 해결합니까?

감정 분석은 고객이 그 어느 때보다 공개적으로 의견과 감정을 공유함에 따라 고객의 감정을 모니터링하고 이해하는 데 중요한 도구가 되고 있습니다. 브랜드는 설문조사 응답 및 소셜 미디어 대화의 댓글과 같은 고객 피드백을 자동으로 평가하여 고객이 만족하거나 좌절하는 요소를 알 수 있습니다. 이를 통해 고객의 요구 사항에 맞게 제품과 서비스를 맞춤화할 수 있습니다. 예를 들어 감정 분석을 사용하여 비즈니스에 대한 4,000개 이상의 설문 ​​조사를 조사하면 고객이 가격 및 고객 서비스를 좋아하는지 파악하는 데 도움이 될 수 있습니다.

감정 분석의 어려움은 무엇입니까?

인간조차도 감정을 효과적으로 해석하는 데 어려움을 겪기 때문에 감정 분석은 nlp에서 가장 어려운 작업 중 하나입니다. 모든 발화는 어떤 순간에, 어떤 장소에서, 어떤 사람에 의해, 어떤 사람에게 하는 식으로 이루어집니다. 모든 진술은 맥락에서 이루어집니다. 사람들은 자신의 부정적인 태도를 아이러니와 풍자로 긍정적인 표현으로 전달하는데, 이는 감정이 표현된 상황에 대한 자세한 지식 없이는 로봇이 인식하기 어려울 수 있습니다. 감정 분석에서 다룰 가치가 있는 또 다른 어려움은 비교를 처리하는 방법입니다. 효과적인 감정 분석을 수행하기 위해 극복해야 할 또 다른 문제는 중립의 의미를 정의하는 것입니다.

감정 분석의 정확도를 높이려면 어떻게 해야 합니까?

분류 문제에 대해 작업할 때 테스트를 선택하고 말뭉치를 현명하게 훈련하는 것이 중요합니다. 분류 프로세스에서 기능 집합이 작동하려면 도메인 지식이 필요합니다. 대부분의 데이터 과학 상황에서는 잡음이 있는 말뭉치보다 정리된 말뭉치에 대한 분류 방법을 사용하는 것이 좋습니다. 코퍼스에서 드물게 나타나는 키워드는 일반적으로 텍스트 분류에서 역할을 하지 않습니다. 이러한 드문 특성을 제거하여 모델 성능을 향상시킬 수 있습니다. 일반적으로 용어를 가장 간단한 버전으로 줄이는 것이 좋습니다. 표제어는 이 메서드의 이름입니다.