Los 10 principales conjuntos de datos establecidos para el análisis de sentimiento en 2022

Publicado: 2021-01-08

El análisis de sentimientos es la técnica utilizada para comprender las emociones y sentimientos de las personas, con la ayuda del aprendizaje automático, con respecto a un producto o servicio en particular. Los modelos de análisis de opinión requieren un gran volumen de un conjunto de datos específico.

Uno de los aspectos más desafiantes de crear y entrenar un modelo es adquirir el volumen y el tipo correctos de conjuntos de datos de análisis de sentimiento. En upGrad , hemos compilado una lista de diez conjuntos de datos accesibles que pueden ayudarlo a comenzar con su proyecto de análisis de sentimientos.

Fuente

Tabla de contenido

Conjuntos de datos de análisis de opinión

1. Banco de árboles de sentimientos de Stanford

El primer conjunto de datos para el análisis de sentimientos que nos gustaría compartir es el Stanford Sentiment Treebank. El conjunto de datos contiene la opinión de los usuarios de Rotten Tomatoes, un excelente sitio web de reseñas de películas.

Contiene más de 10.000 piezas de datos de archivos HTML del sitio web que contienen reseñas de usuarios. Los sentimientos se clasifican en una escala lineal del 1 al 25. Uno es el sentimiento más negativo, mientras que 25 es el sentimiento más positivo. El conjunto de datos se puede descargar gratis y puede encontrarlo en el sitio web de Stanford.

2. Conjunto de datos de reseñas de películas de IMDB

El segundo conjunto de datos de nuestra lista es el conjunto de datos de IMDB Movie Reviews. Tiene 25.000 opiniones de usuarios de IMDB. El conjunto de datos se clasifica como binario y también contiene datos adicionales sin etiquetar que se pueden usar con fines de capacitación y prueba.

El conjunto de datos está disponible para descargar desde el sitio web de Kaggle o Stanford, con la etiqueta "Conjunto de datos de revisión de películas grandes". Si está buscando un conjunto de datos de reseñas de usuarios de IMDB para el análisis de sentimientos , hay muchas opciones disponibles. Puede elegir uno de acuerdo con su propósito y uso.

Leer: Los mejores conjuntos de datos para proyectos de aprendizaje automático

3. Conjunto de datos de revisiones en papel

El conjunto de datos de Paper Reviews contiene reseñas principalmente en español e inglés de una conferencia sobre computación. Tiene un total de 405 instancias (N), las cuales se evalúan con una escala de 5 puntos. La evaluación realizada es la siguiente:

  • -2: muy negativo
  • -1: negativo
  • 0: neutro
  • 1: positivo
  • 2: muy positivo

La puntuación de opinión expresa la opinión del usuario sobre el artículo. El conjunto de datos puede ser útil para predecir la opinión de las revisiones de artículos académicos. El conjunto de datos está disponible para su descarga desde el sitio web de la Universidad de California.

Aprenda el curso de inteligencia artificial de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

4. Sentimiento de las aerolíneas de EE. UU. en Twitter

El conjunto de datos de Twitter US Airline Sentiment, como su nombre indica, contiene tweets de experiencia de usuario relacionados con importantes aerolíneas estadounidenses. El conjunto de datos incluye tweets desde febrero de 2015 y se clasifica como positivo, negativo o neutral.

El conjunto de datos contiene información como el ID de usuario de Twitter, el nombre de la aerolínea, la fecha y hora del tweet y las experiencias negativas de las aerolíneas. El conjunto de datos está disponible para descargar desde Kaggle.

5. Sentimiento140

El conjunto de datos Sentiment140 para el análisis de sentimientos se utiliza para analizar las respuestas de los usuarios a diferentes productos, marcas o temas a través de los tweets de los usuarios en la plataforma de redes sociales Twitter. El conjunto de datos se recopiló utilizando la API de Twitter y contenía alrededor de 160 000 tweets. Los datos se ordenan en seis campos;

  • La polaridad del tweet (0 = negativo, 2 = neutral, 4 = positivo)
  • El ID del tuit
  • La fecha del tuit
  • La consulta
  • El usuario de Twitter
  • Los datos textuales contenidos en el tuit

El conjunto de datos se puede descargar del sitio web de Sentiment140 o de Stanford. El conjunto de datos es útil para fines de gestión de marca, encuestas y planificación de compras.

Leer: Los 4 tipos principales de análisis de sentimiento y dónde usarlo

6. Conjunto de datos de revisión de rango de opinión

El conjunto de datos de reseñas de Opin-Rank para el análisis de sentimientos contiene reseñas de usuarios, alrededor de 3,00,000, sobre autos y hoteles. El conjunto de datos comprende reseñas de usuarios recopiladas de sitios web como Edmunds (automóviles) y TripAdvisor (hoteles).

La mayoría del conjunto de datos contiene reseñas completas de TripAdvisor, aproximadamente 259 000. Las opiniones de los usuarios de Edmunds ascienden a aproximadamente 42.230. Hay reseñas completas de hoteles en 10 ciudades diferentes de todo el mundo, como Dubai, Chicago, Las Vegas y Delhi, por nombrar algunas. Los campos de datos incluyen la fecha, el título de la revisión y la revisión completa.

Del mismo modo, hay revisiones de automóviles de Edmund de modelos de automóviles del año 2007 a 2009. Los datos de revisión incluyen la fecha, los nombres de los autores, los favoritos y el informe completo. El conjunto de datos está disponible para descargar desde el sitio web de GitHub.

7. Datos de productos de Amazon

Los datos de productos de Amazon son un subconjunto de un conjunto de datos mucho más grande para el análisis de opiniones de los productos de Amazon. El superconjunto contiene un conjunto de datos de revisión de Amazon de 142,8 millones. Este subconjunto estuvo disponible por el profesor de Stanford Julian McAuley.

Proporciona reseñas de usuarios desde mayo de 1996 hasta julio de 2014 para productos enumerados en varias categorías en Amazon. Hay una versión actualizada (edición 2018) disponible para descargar. Contiene 233,1 millones de reseñas de usuarios desde mayo de 1996 hasta octubre de 2018.

El antiguo conjunto de datos se puede descargar del sitio web de la Universidad de San Diego, mientras que el nuevo conjunto de datos se puede encontrar en GitHub. Ambos conjuntos de datos contienen puntos de datos como calificaciones, precio, descripción del producto y votos útiles, por nombrar algunos. El nuevo conjunto de datos contiene datos adicionales, como detalles técnicos y tablas de productos similares.

8. Diccionario de sentimiento de WordStat

El conjunto de datos del diccionario de sentimientos WordStat para el análisis de sentimientos se diseñó integrando palabras positivas y negativas del diccionario Harvard IV, el diccionario de imágenes regresivas y el diccionario lingüístico y de conteo de palabras. Contiene unas 15.000 palabras de datos combinados.

El conjunto de datos tiene en cuenta las negaciones para clasificar la opinión del usuario como positiva o negativa. El conjunto de datos está disponible para que el público lo descargue. Sin embargo, no puede utilizarlo con fines comerciales sin autorización. Puede descargar la última versión del conjunto de datos del sitio web de Provalisresearch.

Lea también: Principales ideas de proyectos de conjuntos de datos de ML

9. Léxicos de sentimientos para 81 idiomas

Fuente

Como sugiere el nombre, el Sentiment Lexicon para 81 idiomas contiene datos contextuales desde el afrikáans hasta el inglés y el yiddish, para un total de 81 palabras. Los datos incluyen léxicos positivos y negativos para el número de idiomas mencionado anteriormente. El conjunto de datos es útil para analistas y científicos de datos que trabajan en proyectos de procesamiento de lenguaje natural, como chatbots.

Leer: ¿Cómo hacer un chatbot en Python?

10. La bolsa de palabras se encuentra con la bolsa de palomitas de maíz

El último pero no menos importante conjunto de datos para el análisis de sentimientos es "la bolsa de palabras se encuentra con la bolsa de palomitas de maíz". Como habrás adivinado, este conjunto de datos también está relacionado con la opinión de los usuarios sobre las películas. Consta de 50.000 reseñas de IMDB. El conjunto de datos utiliza la clasificación binaria para la opinión del usuario. Si la calificación de IMDB es inferior a 5 para una película en particular, la puntuación de opinión es 0. De manera similar, si la calificación es mayor o igual a 7, la puntuación de opinión es 1. Puede descargar el conjunto de datos de Kaggle.

Consulte: Análisis de sentimiento con Python: una guía práctica

Conclusión

Esperamos que este blog que cubre diez conjuntos de datos diversos para el análisis de sentimientos lo haya ayudado. Si está más interesado en aprender sobre el análisis de sentimientos y las tecnologías asociadas, como la inteligencia artificial y el aprendizaje automático, puede consultar nuestro programa Executive PG en el curso Machine Learning & AI.

¿Qué conjunto de datos es adecuado para el análisis de sentimiento?

El análisis de sentimientos se puede realizar tanto en conjuntos de datos orientados al consumidor como basados ​​en productos. Un conjunto de datos orientado al consumidor capturaría la mentalidad del consumidor sobre eventos o situaciones, productos o marcas con respecto a la satisfacción general, o incluso cómo se siente un consumidor acerca de un evento reciente. Por ejemplo, un conjunto de datos de un sitio de comentarios de consumidores que le permite realizar una encuesta y evaluar un producto o servicio. Hay muchos conjuntos de datos disponibles para el análisis de sentimientos. Algunos de ellos incluyen el análisis de sentimiento de Twitter, el conjunto de datos de sentimiento de Bing, la clasificación de sentimiento de reseñas de películas, la clasificación de sentimiento de IMDb, etc.

¿Cuáles son los desafíos comunes con los que se enfrenta el análisis de sentimientos?

El análisis de sentimiento se basa en la minería de opiniones, un dominio que requiere el uso de métodos lingüísticos, estadísticos y de aprendizaje automático. Las personas tienen opiniones diferentes, pero a menudo no expresan sus puntos de vista debido a las presiones sociales, el miedo y la falta de tiempo. El análisis de opinión puede ser una solución, pero solo proporciona una puntuación de opinión aproximada. Usar el análisis de sentimientos para hacer minería de sentimientos es un desafío, porque necesitamos explicar por qué un determinado texto es negativo o positivo, y no solo un número. Es por eso que estos métodos rara vez funcionan muy bien.

¿Cómo puede aumentar la precisión de un análisis de sentimiento?

Para aumentar la precisión de un análisis de sentimientos, debe definir un léxico de sentimientos que lo ayudará a reconocer el sentimiento de la oración. Los léxicos de sentimientos le permiten desarrollar algún tipo de diccionario que contenga todas las palabras relevantes en la oración y también la puntuación de sentimiento asociada con ella. Para adquirir un léxico de sentimientos, puede usar la API de Twitter para obtener los tweets. Luego puede usar el Procesamiento del lenguaje natural para encontrar el sentimiento de la oración. También puede usar NER para extraer el sentimiento.