Os 10 principais conjuntos de dados estabelecidos para análise de sentimentos em 2022

Publicados: 2021-01-08

A análise de sentimentos é a técnica utilizada para entender as emoções e sentimentos das pessoas, com a ajuda do aprendizado de máquina, em relação a um determinado produto ou serviço. Os modelos de análise de sentimento exigem um grande volume de um conjunto de dados específico.

Um dos aspectos mais desafiadores da criação e treinamento de um modelo é adquirir o volume e o tipo corretos de conjunto de dados de análise de sentimentos. No upGrad , compilamos uma lista de dez conjuntos de dados acessíveis que podem ajudá-lo a iniciar seu projeto de análise de sentimentos.

Fonte

Índice

Conjuntos de dados de análise de sentimento

1. Banco de Árvores do Sentimento de Stanford

O primeiro conjunto de dados para análise de sentimentos que gostaríamos de compartilhar é o Stanford Sentiment Treebank. O conjunto de dados contém o sentimento do usuário do Rotten Tomatoes, um ótimo site de resenhas de filmes.

Ele contém mais de 10.000 dados de arquivos HTML do site contendo avaliações de usuários. Os sentimentos são classificados em uma escala linear entre 1 e 25. Um é o mais negativo, enquanto 25 é o sentimento mais positivo. O conjunto de dados é gratuito para download e você pode encontrá-lo no site de Stanford.

2. Conjunto de dados de resenhas de filmes do IMDB

O segundo conjunto de dados em nossa lista é o conjunto de dados IMDB Movie Reviews. Tem 25.000 avaliações de usuários do IMDB. O conjunto de dados é classificado como binário e também contém dados não rotulados adicionais que podem ser usados ​​para fins de treinamento e teste.

O conjunto de dados está disponível para download no site Kaggle ou Stanford, rotulado 'Large Movie Review Dataset'. Se você estiver procurando por um conjunto de dados de avaliações de usuários do IMDB para análise de sentimentos , há muitas opções disponíveis. Você pode escolher um de acordo com sua finalidade e uso.

Leia: Melhores conjuntos de dados para projetos de aprendizado de máquina

3. Conjunto de dados de revisões de papel

O conjunto de dados Paper Reviews contém revisões principalmente em espanhol e inglês de uma conferência sobre computação. Tem um total de 405 instâncias (N), que é avaliada com uma escala de 5 pontos. A avaliação feita é a seguinte:

  • -2: muito negativo
  • -1: negativo
  • 0: neutro
  • 1: positivo
  • 2: muito positivo

A pontuação de sentimento expressa a opinião do usuário sobre o papel. O conjunto de dados pode ser útil para prever a opinião de revisões de artigos acadêmicos. O conjunto de dados está disponível para download no site da Universidade da Califórnia.

Aprenda o Curso de Inteligência Artificial das melhores universidades do mundo. Ganhe Masters, Executive PGP ou Advanced Certificate Programs para acelerar sua carreira.

4. Sentimento da companhia aérea dos EUA no Twitter

O conjunto de dados do Twitter US Airline Sentiment, como o nome sugere, contém tweets de experiência do usuário relacionados a importantes companhias aéreas dos EUA. O conjunto de dados inclui tweets desde fevereiro de 2015 e é classificado como positivo, negativo ou neutro.

O conjunto de dados contém informações como o ID do usuário do Twitter, nome da companhia aérea, data e hora do tweet e as experiências negativas das companhias aéreas. O conjunto de dados está disponível para download no Kaggle.

5. Sentimento 140

O conjunto de dados Sentiment140 para análise de sentimentos é usado para analisar as respostas dos usuários a diferentes produtos, marcas ou tópicos por meio de tweets de usuários na plataforma de mídia social Twitter. O conjunto de dados foi coletado usando a API do Twitter e continha cerca de 1.60.000 tweets. Os dados são classificados em seis campos;

  • A polaridade do tweet (0 = negativo, 2 = neutro, 4 = positivo)
  • O ID do tweet
  • A data do tweet
  • A pergunta
  • O usuário do Twitter
  • Os dados textuais contidos no tweet

O conjunto de dados pode ser baixado do site Sentiment140 ou Stanford. O conjunto de dados é útil para fins de gerenciamento de marca, pesquisa e planejamento de compras.

Leia: Os 4 principais tipos de análise de sentimentos e onde usar

6. Conjunto de dados de revisão de classificação de opinião

O conjunto de dados de revisão Opin-Rank para análise de sentimentos contém comentários de usuários, cerca de 3.00.000, sobre carros e hotéis. O conjunto de dados inclui comentários de usuários coletados de sites como Edmunds (carros) e TripAdvisor (hotéis).

A maioria do conjunto de dados contém comentários completos do TripAdvisor, aproximadamente 2.59.000. As avaliações de usuários do Edmunds estão em aproximadamente 42.230. Existem análises abrangentes de hotéis em 10 cidades diferentes de todo o mundo, como Dubai, Chicago, Las Vegas e Delhi, para citar alguns. Os campos de dados incluem a data, o título da revisão e a revisão completa.

Da mesma forma, há revisões de carros de Edmund de modelos de carros do ano de 2007 a 2009. Os dados da revisão incluem a data, nomes dos autores, favoritos e o relatório completo. O conjunto de dados está disponível para download no site do GitHub.

7. Dados do produto Amazon

Os dados de produtos da Amazon são um subconjunto de um conjunto de dados muito maior para análise de sentimentos dos produtos da Amazon. O superconjunto contém um conjunto de dados de 142,8 milhões de avaliações da Amazon. Este subconjunto foi disponibilizado pelo professor de Stanford Julian McAuley.

Ele fornece avaliações de usuários de maio de 1996 a julho de 2014 para produtos listados em várias categorias na Amazon. Existe uma versão atualizada (edição 2018) disponível para download. Ele contém 233,1 milhões de comentários de usuários de maio de 1996 a outubro de 2018.

O conjunto de dados antigo pode ser baixado do site da Universidade de San Diego, enquanto o novo conjunto de dados pode ser encontrado no GitHub. Ambos os conjuntos de dados contêm pontos de dados como classificações, preço, descrição do produto e votos úteis, para citar alguns. O novo conjunto de dados contém dados adicionais, como detalhes técnicos e tabelas de produtos semelhantes.

8. Dicionário de Sentimentos WordStat

O conjunto de dados WordStat Sentiment Dictionary para análise de sentimentos foi projetado integrando palavras positivas e negativas do dicionário Harvard IV, do Dicionário de imagens regressivas e do dicionário de contagem de palavras e linguística. Ele contém cerca de 15.000 palavras de dados combinados.

O conjunto de dados leva em consideração as negações para classificar o sentimento do usuário como positivo ou negativo. O conjunto de dados está disponível ao público para download. No entanto, você não pode usá-lo para fins comerciais sem autorização. Você pode baixar a versão mais recente do conjunto de dados no site da Provalisresearch.

Leia também: Principais ideias de projetos de conjuntos de dados de ML

9. Léxicos de sentimento para 81 idiomas

Fonte

Como o nome sugere, o Sentiment Lexicon para 81 idiomas contém dados contextuais de africâner para inglês e iídiche, para um total de 81 palavras. Os dados incluem léxicos positivos e negativos para o número mencionado acima de idiomas. O conjunto de dados é útil para analistas e cientistas de dados que trabalham em projetos de processamento de linguagem natural, como chatbots.

Leia: Como fazer chatbot em Python?

10. Saco de Palavras Encontra Saco de Pipocas

O último, mas não menos importante , conjunto de dados para análise de sentimentos é 'saco de palavras encontra o saco de pipocas'. Como você deve ter adivinhado, esse conjunto de dados também está relacionado ao sentimento do usuário em relação aos filmes. Consiste em 50.000 revisões do IMDB. O conjunto de dados usa a classificação binária para o sentimento do usuário. Se a classificação do IMDB for menor que 5 para um filme específico, a pontuação do sentimento será 0. Da mesma forma, se a classificação for maior ou igual a 7, a pontuação do sentimento será 1. Você pode baixar o conjunto de dados do Kaggle.

Confira: Análise de sentimentos usando Python: um guia prático

Conclusão

Esperamos que este blog que cobre dez conjuntos de dados diversos para análise de sentimentos tenha ajudado você. Se você estiver ainda mais interessado em aprender sobre análise de sentimentos e as tecnologias associadas, como inteligência artificial e aprendizado de máquina, confira nosso curso Executive PG Program in Machine Learning & AI .

Qual conjunto de dados é adequado para análise de sentimentos?

A análise de sentimentos pode ser feita em conjuntos de dados voltados para o consumidor ou baseados em produtos. Um conjunto de dados voltado para o consumidor capturaria uma mentalidade do consumidor sobre eventos ou situações, produtos ou marcas em relação à satisfação geral ou até mesmo como um consumidor se sente em relação a um evento recente. Por exemplo, um conjunto de dados de um site de feedback do consumidor que permite que você faça uma pesquisa e analise um produto ou serviço. Existem muitos conjuntos de dados disponíveis para análise de sentimentos. Alguns deles incluem Análise de Sentimentos do Twitter, Conjunto de Dados de Sentimentos do Bing, Classificação de Sentimentos de Revisão de Filmes, Classificação de Sentimentos do IMDb, etc.

Quais são os desafios comuns com os quais a análise de sentimentos lida?

A análise de sentimentos é baseada na mineração de opinião, um domínio que requer o uso de métodos linguísticos, estatísticos e de aprendizado de máquina. As pessoas têm opiniões diferentes, mas muitas vezes não expressam suas opiniões devido a pressões sociais, medo e falta de tempo. A análise de sentimento pode ser uma solução, mas fornece apenas uma pontuação de sentimento aproximada. Usar a análise de sentimentos para fazer a mineração de sentimentos é um desafio, porque precisamos explicar por que um determinado texto é negativo ou positivo, e não apenas um número. É por isso que esses métodos raramente funcionam muito bem.

Como você pode aumentar a precisão de uma análise de sentimento?

Para aumentar a precisão de uma análise de sentimento, você deve definir um léxico de sentimento que o ajudará a reconhecer o sentimento da frase. Léxicos de sentimento permitem que você desenvolva algum tipo de dicionário que contém todas as palavras relevantes na frase e também a pontuação de sentimento associada a ela. Para adquirir um léxico de sentimentos, você pode usar a API do Twitter para obter os tweets. Em seguida, você pode usar o Processamento de linguagem natural para encontrar o sentimento da frase. Você também pode usar NER para extrair o sentimento.