Top 10 des ensembles de données établis pour l'analyse des sentiments en 2022

Publié: 2021-01-08

L'analyse des sentiments est la technique utilisée pour comprendre les émotions et les sentiments des gens, à l'aide de l'apprentissage automatique, concernant un produit ou un service particulier. Les modèles d' analyse des sentiments nécessitent un volume élevé d'un ensemble de données spécifique.

L'un des aspects les plus difficiles de la création et de la formation d'un modèle consiste à acquérir le bon volume et le bon type d'ensemble de données d'analyse des sentiments. Chez upGrad , nous avons compilé une liste de dix ensembles de données accessibles qui peuvent vous aider à démarrer votre projet sur l'analyse des sentiments.

La source

Table des matières

Ensembles de données d'analyse des sentiments

1. Banc d'arbres de Stanford Sentiment

Le premier ensemble de données pour l'analyse des sentiments que nous aimerions partager est le Stanford Sentiment Treebank. L'ensemble de données contient le sentiment des utilisateurs de Rotten Tomatoes, un excellent site Web de critiques de films.

Il contient plus de 10 000 éléments de données provenant de fichiers HTML du site Web contenant des avis d'utilisateurs. Les sentiments sont notés sur une échelle linéaire allant de 1 à 25. Un est le sentiment le plus négatif, tandis que 25 est le sentiment le plus positif. L'ensemble de données est téléchargeable gratuitement et vous pouvez le trouver sur le site Web de Stanford.

2. Ensemble de données sur les critiques de films IMDB

Le deuxième ensemble de données de notre liste est l'ensemble de données IMDB Movie Reviews. Il a 25 000 avis d'utilisateurs d'IMDB. L'ensemble de données est classé binaire et contient également des données supplémentaires non étiquetées qui peuvent être utilisées à des fins de formation et de test.

L'ensemble de données peut être téléchargé à partir du site Web de Kaggle ou de Stanford, intitulé "Large Movie Review Dataset". Si vous recherchez un ensemble de données d'avis d'utilisateurs IMDB pour l'analyse des sentiments , de nombreuses options sont disponibles. Vous pouvez en choisir un en fonction de votre objectif et de votre utilisation.

Lire : Meilleurs ensembles de données pour les projets d'apprentissage automatique

3. Ensemble de données sur les avis papier

L'ensemble de données Paper Reviews contient des critiques principalement en espagnol et en anglais d'une conférence sur l'informatique. Il a un total de 405 instances (N), qui est évalué avec une échelle de 5 points. L'évaluation faite est la suivante :

  • -2 : très négatif
  • -1 : négatif
  • 0 : neutre
  • 1 : positif
  • 2 : très positif

Le score de sentiment exprime l'opinion de l'utilisateur sur le papier. L'ensemble de données peut être utile pour prédire l'opinion des critiques d'articles universitaires. L'ensemble de données est disponible en téléchargement sur le site Web de l'Université de Californie.

Apprenez le cours d'intelligence artificielle des meilleures universités du monde. Gagnez des programmes de maîtrise, Executive PGP ou Advanced Certificate pour accélérer votre carrière.

4. Sentiment des compagnies aériennes américaines sur Twitter

L'ensemble de données Twitter US Airline Sentiment, comme son nom l'indique, contient des tweets d'expérience utilisateur liés à d'importantes compagnies aériennes américaines. L'ensemble de données comprend des tweets depuis février 2015 et est classé comme positif, négatif ou neutre.

L'ensemble de données contient des informations telles que l'ID utilisateur Twitter, le nom de la compagnie aérienne, la date et l'heure du tweet et les expériences négatives des compagnies aériennes. L'ensemble de données est disponible en téléchargement sur Kaggle.

5. Sentiment140

L' ensemble de données Sentiment140 pour l'analyse des sentiments est utilisé pour analyser les réponses des utilisateurs à différents produits, marques ou sujets via des tweets d'utilisateurs sur la plate-forme de médias sociaux Twitter. L'ensemble de données a été collecté à l'aide de l'API Twitter et contenait environ 1 60 000 tweets. Les données sont triées en six champs ;

  • La polarité du tweet (0 = négatif, 2 = neutre, 4 = positif)
  • L'identifiant du tweet
  • La date du tweet
  • La requête
  • L'utilisateur Twitter
  • Les données textuelles contenues dans le tweet

L'ensemble de données peut être téléchargé à partir du site Web de Sentiment140 ou de Stanford. L'ensemble de données est utile pour la gestion de la marque, les sondages et la planification des achats.

Lire : Les 4 principaux types d'analyse des sentiments et où les utiliser

6. Ensemble de données d'examen d'Opin-Rank

L'ensemble de données d'avis Opin-Rank pour l'analyse des sentiments contient des avis d'utilisateurs, environ 3 00 000, sur les voitures et les hôtels. L'ensemble de données comprend des avis d'utilisateurs recueillis sur des sites Web tels que Edmunds (voitures) et TripAdvisor (hôtels).

La majorité de l'ensemble de données contient des avis complets de TripAdvisor, environ 2 59 000. Les avis des utilisateurs d'Edmunds s'élèvent à environ 42 230. Il existe des critiques complètes d'hôtels dans 10 villes différentes du monde entier, telles que Dubaï, Chicago, Las Vegas et Delhi, pour n'en nommer que quelques-unes. Les champs de données incluent la date, le titre de l'avis et l'avis complet.

De même, il existe des revues de voitures d'Edmund de modèles de voitures de l'année 2007 à 2009. Les données de revue incluent la date, les noms des auteurs, les favoris et le rapport complet. L'ensemble de données est disponible en téléchargement sur le site Web GitHub.

7. Données produit Amazon

Les données sur les produits Amazon sont un sous-ensemble d'un ensemble de données beaucoup plus vaste pour l'analyse des sentiments des produits Amazon. Le sur-ensemble contient un ensemble de données de révision Amazon de 142,8 millions. Ce sous-ensemble a été mis à disposition par le professeur de Stanford Julian McAuley.

Il fournit des avis d'utilisateurs de mai 1996 à juillet 2014 pour les produits répertoriés dans différentes catégories sur Amazon. Une version mise à jour (édition 2018) est disponible en téléchargement. Il contient 233,1 millions d'avis d'utilisateurs de mai 1996 à octobre 2018.

L'ancien jeu de données peut être téléchargé à partir du site Web de l'Université de San Diego, tandis que le nouveau jeu de données peut être trouvé sur GitHub. Les deux ensembles de données contiennent des points de données tels que les notes, le prix, la description du produit et les votes utiles, pour n'en nommer que quelques-uns. Le nouvel ensemble de données contient des données supplémentaires telles que des détails techniques et des tableaux de produits similaires.

8. Dictionnaire des sentiments WordStat

L'ensemble de données WordStat Sentiment Dictionary pour l'analyse des sentiments a été conçu en intégrant des mots positifs et négatifs du dictionnaire Harvard IV, du Regressive Imagery Dictionary et du dictionnaire Linguistic and Word Count. Il contient environ 15 000 mots de données combinés.

L'ensemble de données prend en compte les négations pour classer le sentiment des utilisateurs comme positif ou négatif. L'ensemble de données est disponible au public pour téléchargement. Cependant, vous ne pouvez pas l'utiliser à des fins commerciales sans autorisation. Vous pouvez télécharger la dernière version de l'ensemble de données sur le site Web de Provalisresearch.

Lisez également : Meilleures idées de projets d'ensembles de données ML

9. Lexiques des sentiments pour 81 langues

La source

Comme son nom l'indique, le Sentiment Lexicon pour 81 langues contient des données contextuelles de l'afrikaans à l'anglais en passant par le yiddish, pour un total de 81 mots. Les données comprennent des lexiques positifs et négatifs pour le nombre de langues mentionné ci-dessus. L'ensemble de données est utile pour les analystes et les scientifiques des données travaillant sur des projets de traitement du langage naturel tels que les chatbots.

Lire : Comment créer un chatbot en Python ?

10. Le sac de mots rencontre le sac de popcorns

Le dernier ensemble de données, mais non le moindre , pour l'analyse des sentiments est « le sac de mots rencontre le sac de pop-corn ». Comme vous l'avez peut-être deviné, cet ensemble de données est également lié au sentiment des utilisateurs à l'égard des films. Il se compose de 50 000 avis IMDB. L'ensemble de données utilise la classification binaire pour le sentiment des utilisateurs. Si la note IMDB est inférieure à 5 pour un film particulier, le score de sentiment est de 0. De même, si la note est supérieure ou égale à 7, le score de sentiment est de 1. Vous pouvez télécharger l'ensemble de données depuis Kaggle.

Consultez : Analyse des sentiments à l'aide de Python : un guide pratique

Conclusion

Nous espérons que ce blog couvrant dix ensembles de données divers pour l'analyse des sentiments vous a aidé. Si vous souhaitez en savoir plus sur l'analyse des sentiments et les technologies associées, telles que l'intelligence artificielle et l'apprentissage automatique, vous pouvez consulter notre cours Executive PG Program in Machine Learning & AI .

Quel ensemble de données convient à l'analyse des sentiments ?

L'analyse des sentiments peut être effectuée à la fois sur des ensembles de données destinés aux consommateurs ou sur des ensembles de données basés sur des produits. Un ensemble de données orienté consommateur capturerait un état d'esprit du consommateur à propos d'événements ou de situations, de produits ou de marques en ce qui concerne la satisfaction générale, ou même ce qu'un consommateur ressent à propos d'un événement récent. Par exemple, un ensemble de données provenant d'un site de commentaires de consommateurs qui vous permet de répondre à une enquête et d'évaluer un produit ou un service. Il existe de nombreux ensembles de données disponibles pour l'analyse des sentiments. Certains d'entre eux incluent l'analyse des sentiments de Twitter, l'ensemble de données de sentiments Bing, la classification des sentiments des critiques de films, la classification des sentiments IMDb, etc.

Quels sont les défis communs dont traite l'analyse des sentiments ?

L'analyse des sentiments est basée sur la fouille d'opinions, un domaine qui nécessite l'utilisation de méthodes linguistiques, statistiques et d'apprentissage automatique. Les gens ont des opinions différentes, mais souvent ils ne s'expriment pas en raison des pressions sociales, de la peur et du manque de temps. L'analyse des sentiments peut être une solution, mais elle ne fournit qu'un score de sentiment approximatif. Utiliser l'analyse des sentiments pour extraire les sentiments est un défi, car nous devons expliquer pourquoi un certain texte est négatif ou positif, et pas seulement un chiffre. C'est pourquoi ces méthodes fonctionnent rarement très bien.

Comment augmenter la précision d'une analyse des sentiments ?

Pour augmenter la précision d'une analyse de sentiment, vous devez définir un lexique de sentiment qui va vous aider à reconnaître le sentiment de la phrase. Les lexiques de sentiment vous permettent de développer une sorte de dictionnaire qui contient tous les mots pertinents de la phrase ainsi que le score de sentiment qui lui est associé. Pour acquérir un lexique des sentiments, vous pouvez utiliser l'API Twitter pour obtenir les tweets. Ensuite, vous pouvez utiliser le traitement du langage naturel pour trouver le sentiment de la phrase. Vous pouvez également utiliser NER pour extraire le sentiment.