Top 10 der etablierten Datensätze für Stimmungsanalysen im Jahr 2022

Veröffentlicht: 2021-01-08

Stimmungsanalyse ist die Technik, die verwendet wird, um die Emotionen und Gefühle von Menschen mit Hilfe von maschinellem Lernen in Bezug auf ein bestimmtes Produkt oder eine bestimmte Dienstleistung zu verstehen. Stimmungsanalysemodelle erfordern ein hohes Volumen eines bestimmten Datensatzes.

Einer der schwierigsten Aspekte beim Erstellen und Trainieren eines Modells ist das Erfassen des richtigen Volumens und Typs des Sentimentanalyse-Datensatzes. Bei upGrad haben wir eine Liste mit zehn zugänglichen Datensätzen zusammengestellt, die Ihnen beim Einstieg in Ihr Projekt zur Stimmungsanalyse helfen können.

Quelle

Inhaltsverzeichnis

Sentiment-Analyse-Datensätze

1. Stanford Sentiment Baumbank

Der erste Datensatz zur Stimmungsanalyse, den wir teilen möchten, ist die Stanford Sentiment Treebank. Der Datensatz enthält die Benutzerstimmung von Rotten Tomatoes, einer großartigen Website für Filmkritiken.

Es enthält über 10.000 Datenelemente aus HTML-Dateien der Website mit Benutzerbewertungen. Die Stimmungen werden auf einer linearen Skala zwischen 1 und 25 bewertet. Eins ist die negativste, während 25 die positivste Stimmung ist. Der Datensatz kann kostenlos heruntergeladen werden und ist auf der Stanford-Website zu finden.

2. IMDB Filmbewertungs-Datensatz

Der zweite Datensatz auf unserer Liste ist der IMDB Movie Reviews-Datensatz. Es hat 25.000 Benutzerbewertungen von IMDB. Der Datensatz ist binär klassifiziert und enthält auch zusätzliche unbeschriftete Daten, die für Trainings- und Testzwecke verwendet werden können.

Der Datensatz kann von der Kaggle- oder Stanford-Website mit der Bezeichnung „Large Movie Review Dataset“ heruntergeladen werden. Wenn Sie nach einem Datensatz mit IMDB-Benutzerbewertungen für die Stimmungsanalyse suchen , stehen Ihnen zahlreiche Optionen zur Verfügung. Sie können je nach Zweck und Verwendung eine auswählen.

Lesen Sie: Beste Datensätze für Machine-Learning-Projekte

3. Datensatz der Papierbewertungen

Das Dataset Paper Reviews enthält Rezensionen, hauptsächlich in Spanisch und Englisch, von einer Computerkonferenz. Es hat insgesamt 405 Instanzen (N), die mit einer 5-Punkte-Skala bewertet werden. Die Auswertung erfolgt wie folgt:

  • -2: sehr negativ
  • -1: negativ
  • 0: neutral
  • 1: positiv
  • 2: sehr positiv

Der Sentiment-Score drückt die Meinung des Benutzers über die Zeitung aus. Der Datensatz kann nützlich sein, um die Meinung von Rezensionen wissenschaftlicher Arbeiten vorherzusagen. Der Datensatz kann von der Website der University of California heruntergeladen werden.

Lernen Sie künstliche Intelligenz von den besten Universitäten der Welt. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.

4. Twitter Stimmung der US-Fluggesellschaft

Der Twitter-Datensatz US Airline Sentiment enthält, wie der Name schon sagt, Tweets über Benutzererfahrungen im Zusammenhang mit bedeutenden US-Fluggesellschaften. Der Datensatz umfasst Tweets seit Februar 2015 und wird als positiv, negativ oder neutral klassifiziert.

Der Datensatz enthält Informationen wie die Twitter-Benutzer-ID, den Namen der Fluggesellschaft, Datum und Uhrzeit des Tweets sowie die negativen Erfahrungen der Fluggesellschaften. Der Datensatz kann von Kaggle heruntergeladen werden.

5. Stimmung140

Der Sentiment140 -Datensatz zur Stimmungsanalyse wird verwendet, um Benutzerreaktionen zu verschiedenen Produkten, Marken oder Themen durch Benutzer-Tweets auf der Social-Media-Plattform Twitter zu analysieren. Der Datensatz wurde mithilfe der Twitter-API gesammelt und enthielt rund 1.60.000 Tweets. Die Daten sind in sechs Felder sortiert;

  • Die Polarität des Tweets (0 = negativ, 2 = neutral, 4 = positiv)
  • Die ID des Tweets
  • Das Datum des Tweets
  • Die Abfrage
  • Der Twitter-Nutzer
  • Die im Tweet enthaltenen Textdaten

Der Datensatz kann von der Website von Sentiment140 oder Stanford heruntergeladen werden. Der Datensatz ist nützlich für Markenmanagement, Umfragen und Kaufplanungszwecke.

Lesen Sie: Die 4 wichtigsten Arten der Stimmungsanalyse und wo sie verwendet werden

6. Opin-Rank-Review-Datensatz

Der Opin-Rank-Bewertungsdatensatz für die Stimmungsanalyse enthält etwa 3.00.000 Benutzerbewertungen zu Autos und Hotels. Der Datensatz umfasst Benutzerbewertungen, die von Websites wie Edmunds (Autos) und TripAdvisor (Hotels) gesammelt wurden.

Der Großteil des Datensatzes enthält vollständige Bewertungen von TripAdvisor, etwa 2.59.000. Edmunds Benutzerbewertungen liegen bei ca. 42.230. Es gibt umfassende Bewertungen von Hotels in 10 verschiedenen Städten auf der ganzen Welt, wie Dubai, Chicago, Las Vegas und Delhi, um nur einige zu nennen. Die Datenfelder umfassen das Datum, den Bewertungstitel und die vollständige Bewertung.

Ebenso gibt es Autobewertungen von Edmund von Automodellen aus dem Jahr 2007 – 2009. Die Bewertungsdaten umfassen das Datum, Autorennamen, Favoriten und den vollständigen Bericht. Der Datensatz kann von der GitHub-Website heruntergeladen werden.

7. Amazon-Produktdaten

Die Amazon-Produktdaten sind eine Teilmenge eines viel größeren Datensatzes zur Stimmungsanalyse von Amazon-Produkten. Das Superset enthält einen Datensatz mit 142,8 Millionen Amazon-Rezensionen. Diese Teilmenge wurde von Stanford-Professor Julian McAuley zur Verfügung gestellt.

Es bietet Benutzerbewertungen von Mai 1996 bis Juli 2014 für Produkte, die in verschiedenen Kategorien bei Amazon gelistet sind. Es steht eine aktualisierte Version (Ausgabe 2018) zum Download bereit. Es enthält 233,1 Millionen Nutzerbewertungen von Mai 1996 bis Oktober 2018.

Der alte Datensatz kann von der Website der University of San Diego heruntergeladen werden, während der neue Datensatz auf GitHub zu finden ist. Beide Datensätze enthalten Datenpunkte wie Bewertungen, Preis, Produktbeschreibung und hilfreiche Stimmen, um nur einige zu nennen. Der neue Datensatz enthält zusätzliche Daten wie technische Details und ähnliche Produkttabellen.

8. WordStat Sentiment-Wörterbuch

Der Datensatz des WordStat Sentiment Dictionary für die Stimmungsanalyse wurde durch die Integration positiver und negativer Wörter aus dem Harvard IV Dictionary, dem Regressive Imagery Dictionary und dem Linguistic and Word Count Dictionary entwickelt. Es enthält ungefähr 15.000 Datenworte kombiniert.

Der Datensatz berücksichtigt Negationen, um die Benutzerstimmung entweder als positiv oder negativ zu klassifizieren. Der Datensatz steht der Öffentlichkeit zum Download zur Verfügung. Sie können es jedoch nicht ohne Genehmigung für kommerzielle Zwecke verwenden. Sie können die neueste Version des Datensatzes von der Website von Provalisresearch herunterladen.

Lesen Sie auch: Top-Projektideen für ML-Datensätze

9. Stimmungslexika für 81 Sprachen

Quelle

Wie der Name schon sagt, enthält das Sentiment Lexicon für 81 Sprachen Kontextdaten von Afrikaans über Englisch bis Jiddisch, also insgesamt 81 Wörter. Die Daten enthalten sowohl positive als auch negative Lexika für die oben genannte Anzahl von Sprachen. Der Datensatz ist nützlich für Analysten und Datenwissenschaftler, die an Projekten zur Verarbeitung natürlicher Sprache wie Chatbots arbeiten.

Lesen Sie: Wie erstelle ich einen Chatbot in Python?

10. Tüte mit Worten trifft auf Tüte mit Popcorn

Der letzte Datensatz für die Stimmungsanalyse ist „Beutel mit Worten trifft auf Tüte mit Popcorn“. Wie Sie vielleicht erraten haben, hängt dieser Datensatz auch mit der Benutzerstimmung von Filmen zusammen. Es besteht aus 50.000 IMDB-Bewertungen. Das Dataset verwendet die binäre Klassifizierung für die Benutzerstimmung. Wenn die IMDB-Bewertung für einen bestimmten Film weniger als 5 beträgt, ist die Stimmungsbewertung 0. Wenn die Bewertung größer oder gleich 7 ist, ist die Stimmungsbewertung 1. Sie können den Datensatz von Kaggle herunterladen.

Schauen Sie sich an: Sentiment Analysis Using Python: A Hands-on Guide

Fazit

Wir hoffen, dass dieser Blog, der zehn verschiedene Datensätze für die Stimmungsanalyse abdeckt, Ihnen geholfen hat. Wenn Sie weiter an Sentimentanalysen und den damit verbundenen Technologien wie künstlicher Intelligenz und maschinellem Lernen interessiert sind, können Sie sich unser Executive PG Program in Machine Learning & AI ansehen.

Welcher Datensatz eignet sich für die Stimmungsanalyse?

Die Stimmungsanalyse kann sowohl auf verbraucherorientierten als auch auf produktbasierten Datensätzen durchgeführt werden. Ein verbraucherorientierter Datensatz würde die Denkweise des Verbrauchers über Ereignisse oder Situationen, Produkte oder Marken im Hinblick auf die allgemeine Zufriedenheit oder sogar die Meinung eines Verbrauchers zu einem kürzlichen Ereignis erfassen. Zum Beispiel ein Datensatz von einer Verbraucher-Feedback-Website, mit dem Sie an einer Umfrage teilnehmen und ein Produkt oder eine Dienstleistung bewerten können. Für die Stimmungsanalyse stehen viele Datensätze zur Verfügung. Einige davon sind Twitter Sentiment Analysis, Bing Sentiment Dataset, Movie Review Sentiment Classification, IMDb Sentiment Classification, etc.

Was sind die gemeinsamen Herausforderungen, mit denen sich die Stimmungsanalyse auseinandersetzt?

Die Stimmungsanalyse basiert auf Opinion Mining, einem Bereich, der den Einsatz von linguistischen, statistischen und maschinellen Lernmethoden erfordert. Menschen haben unterschiedliche Meinungen, aber sie äußern sich oft aus sozialem Druck, Angst und Zeitmangel nicht. Die Stimmungsanalyse kann eine Lösung sein, liefert aber nur einen ungefähren Stimmungswert. Die Sentimentanalyse für das Sentiment Mining zu verwenden, ist eine Herausforderung, da wir erklären müssen, warum ein bestimmter Text negativ oder positiv ist, und nicht nur eine Zahl. Aus diesem Grund funktionieren diese Methoden selten sehr gut.

Wie können Sie die Genauigkeit einer Stimmungsanalyse erhöhen?

Um die Genauigkeit einer Stimmungsanalyse zu erhöhen, müssen Sie ein Stimmungslexikon definieren, das Ihnen hilft, die Stimmung des Satzes zu erkennen. Stimmungslexika ermöglichen es Ihnen, eine Art Wörterbuch zu entwickeln, das alle relevanten Wörter im Satz und auch den damit verbundenen Stimmungswert enthält. Um ein Stimmungslexikon zu erhalten, können Sie die Twitter-API verwenden, um die Tweets abzurufen. Dann können Sie die Verarbeitung natürlicher Sprache verwenden, um die Stimmung des Satzes zu finden. Sie können auch NER verwenden, um die Stimmung zu extrahieren.