I 10 migliori set di dati consolidati per l'analisi del sentimento nel 2022

Pubblicato: 2021-01-08

L'analisi del sentimento è la tecnica utilizzata per comprendere le emozioni e i sentimenti delle persone, con l'aiuto dell'apprendimento automatico, riguardo a un particolare prodotto o servizio. I modelli di analisi del sentimento richiedono un volume elevato di un set di dati specifico.

Uno degli aspetti più impegnativi della creazione e del training di un modello è l'acquisizione del volume e del tipo giusti di set di dati di analisi del sentimento. In upGrad , abbiamo compilato un elenco di dieci set di dati accessibili che possono aiutarti a iniziare il tuo progetto sull'analisi del sentimento.

Fonte

Sommario

Set di dati di analisi del sentimento

1. Stanford Sentiment Treebank

Il primo set di dati per l'analisi del sentimento che vorremmo condividere è la Stanford Sentiment Treebank. Il set di dati contiene il sentimento degli utenti da Rotten Tomatoes, un ottimo sito Web di recensioni di film.

Contiene oltre 10.000 dati da file HTML del sito Web contenenti recensioni degli utenti. I sentimenti sono valutati su una scala lineare compresa tra 1 e 25. Uno è il più negativo, mentre 25 è il sentimento più positivo. Il set di dati può essere scaricato gratuitamente e puoi trovarlo sul sito Web di Stanford.

2. Set di dati per recensioni di film IMDB

Il secondo set di dati nel nostro elenco è il set di dati IMDB Movie Reviews. Ha 25.000 recensioni degli utenti da IMDB. Il set di dati è classificato binario e contiene anche dati aggiuntivi senza etichetta che possono essere utilizzati per scopi di addestramento e test.

Il set di dati è disponibile per il download dal sito Web di Kaggle o Stanford, con l'etichetta "Set di dati di recensioni di film di grandi dimensioni. Se stai cercando un set di dati per le recensioni degli utenti IMDB per l'analisi del sentiment , ci sono molte opzioni disponibili. Puoi sceglierne uno in base al tuo scopo e utilizzo.

Leggi: I migliori set di dati per i progetti di machine learning

3. Set di dati delle recensioni cartacee

Il set di dati Paper Reviews contiene recensioni principalmente in spagnolo e inglese da una conferenza sull'informatica. Ha un totale di 405 istanze (N), che viene valutata con una scala a 5 punti. La valutazione effettuata è la seguente:

  • -2: molto negativo
  • -1: negativo
  • 0: neutro
  • 1: positivo
  • 2: molto positivo

Il punteggio del sentiment esprime l'opinione dell'utente sulla carta. Il set di dati può essere utile per prevedere l'opinione delle revisioni dei documenti accademici. Il set di dati è disponibile per il download dal sito Web dell'Università della California.

Impara il corso di intelligenza artificiale dalle migliori università del mondo. Guadagna master, Executive PGP o programmi di certificazione avanzati per accelerare la tua carriera.

4. Sentimento della compagnia aerea statunitense di Twitter

Il set di dati Twitter US Airline Sentiment, come suggerisce il nome, contiene tweet di esperienza utente relativi a importanti compagnie aeree statunitensi. Il set di dati include tweet da febbraio 2015 ed è classificato come positivo, negativo o neutro.

Il set di dati contiene informazioni come l'ID utente di Twitter, il nome della compagnia aerea, la data e l'ora del tweet e le esperienze negative delle compagnie aeree. Il set di dati è disponibile per il download da Kaggle.

5. Sentimento140

Il set di dati Sentiment140 per l'analisi del sentiment viene utilizzato per analizzare le risposte degli utenti a diversi prodotti, marchi o argomenti tramite i tweet degli utenti sulla piattaforma di social media Twitter. Il set di dati è stato raccolto utilizzando l'API di Twitter e conteneva circa 1.60.000 tweet. I dati sono ordinati in sei campi;

  • La polarità del tweet (0 = negativo, 2 = neutro, 4 = positivo)
  • L'ID del tweet
  • La data del tweet
  • La domanda
  • L'utente Twitter
  • I dati testuali contenuti nel tweet

Il set di dati può essere scaricato dal sito Web di Sentiment140 o Stanford. Il set di dati è utile per la gestione del marchio, il polling e la pianificazione degli acquisti.

Leggi: I 4 principali tipi di analisi del sentimento e dove utilizzarli

6. Set di dati di revisione del ranking Opin

Il set di dati delle recensioni Opin-Rank per l'analisi del sentiment contiene recensioni degli utenti, circa 3.00.000, su auto e hotel. Il set di dati comprende le recensioni degli utenti raccolte da siti Web come Edmunds (automobili) e TripAdvisor (hotel).

La maggior parte del set di dati contiene recensioni complete di TripAdvisor, circa 2.59.000. Le recensioni degli utenti di Edmunds si attestano a circa 42.230. Ci sono recensioni complete di hotel in 10 diverse città di tutto il mondo, come Dubai, Chicago, Las Vegas e Delhi, solo per citarne alcuni. I campi dati includono la data, il titolo della recensione e la recensione completa.

Allo stesso modo, ci sono recensioni di auto di Edmund di modelli di auto dell'anno 2007-2009. I dati di revisione includono la data, i nomi degli autori, i preferiti e il rapporto completo. Il set di dati è disponibile per il download dal sito Web GitHub.

7. Dati sui prodotti Amazon

I dati sui prodotti Amazon sono un sottoinsieme di un set di dati molto più ampio per l'analisi del sentiment dei prodotti Amazon. Il superset contiene un set di dati di recensioni Amazon da 142,8 milioni. Questo sottoinsieme è stato reso disponibile dal professore di Stanford Julian McAuley.

Fornisce recensioni degli utenti da maggio 1996 a luglio 2014 per i prodotti elencati in varie categorie su Amazon. È disponibile una versione aggiornata (edizione 2018) disponibile per il download. Contiene 233,1 milioni di recensioni degli utenti da maggio 1996 a ottobre 2018.

Il vecchio set di dati può essere scaricato dal sito Web dell'Università di San Diego, mentre il nuovo set di dati può essere trovato su GitHub. Entrambi i set di dati contengono dati come valutazioni, prezzo, descrizione del prodotto e voti utili, solo per citarne alcuni. Il nuovo set di dati contiene dati aggiuntivi come dettagli tecnici e tabelle di prodotti simili.

8. Dizionario dei sentimenti di WordStat

Il set di dati del dizionario del sentimento di WordStat per l'analisi del sentimento è stato progettato integrando parole positive e negative del dizionario di Harvard IV, del dizionario delle immagini regressive e del dizionario linguistico e del conteggio delle parole. Contiene circa 15.000 parole di dati combinate.

Il set di dati tiene conto delle negazioni per classificare il sentimento degli utenti come positivo o negativo. Il set di dati è disponibile al pubblico per il download. Tuttavia, non è possibile utilizzarlo per scopi commerciali senza autorizzazione. È possibile scaricare l'ultima versione del set di dati dal sito Web di Provalisresearch.

Leggi anche: Le migliori idee per progetti di set di dati ML

9. Lessici sentimentali per 81 lingue

Fonte

Come suggerisce il nome, il Sentiment Lexicon per 81 lingue contiene dati contestuali dall'afrikaans all'inglese allo yiddish, per un totale di 81 parole. I dati includono lessici positivi e negativi per il numero di lingue sopra menzionato. Il set di dati è utile per analisti e data scientist che lavorano su progetti di elaborazione del linguaggio naturale come i chatbot.

Leggi: Come creare chatbot in Python?

10. La borsa delle parole incontra la borsa dei popcorn

L'ultimo ma non meno importante set di dati per l'analisi del sentimento è "il sacco di parole incontra il sacco di popcorn". Come avrai intuito, questo set di dati è anche correlato al sentimento degli utenti nei confronti dei film. Consiste di 50.000 recensioni IMDB. Il set di dati utilizza la classificazione binaria per le opinioni degli utenti. Se la valutazione IMDB è inferiore a 5 per un particolare film, il punteggio del sentimento è 0. Allo stesso modo, se il punteggio è maggiore o uguale a 7, il punteggio del sentimento è 1. Puoi scaricare il set di dati da Kaggle.

Dai un'occhiata a: Analisi del sentimento usando Python: una guida pratica

Conclusione

Ci auguriamo che questo blog che copre dieci diversi set di dati per l'analisi del sentimento ti abbia aiutato. Se sei ulteriormente interessato a conoscere l'analisi del sentimento e le tecnologie associate, come l'intelligenza artificiale e l'apprendimento automatico, puoi consultare il nostro programma Executive PG nel corso Machine Learning e AI.

Quale set di dati è adatto per l'analisi del sentimento?

L'analisi del sentiment può essere eseguita sia su set di dati rivolti al consumatore che su set di dati basati sul prodotto. Un set di dati rivolto al consumatore catturerebbe una mentalità del consumatore su eventi o situazioni, prodotti o marchi per quanto riguarda la soddisfazione generale o anche come si sente un consumatore in merito a un evento recente. Ad esempio, un set di dati da un sito di feedback dei consumatori che consente di partecipare a un sondaggio e recensire un prodotto o servizio. Ci sono molti set di dati disponibili per l'analisi del sentimento. Alcuni di questi includono Twitter Sentiment Analysis, Bing Sentiment Dataset, Movie Review Sentiment Classification, IMDb Sentiment Classification, ecc.

Quali sono le sfide comuni con cui si occupa l'analisi del sentimento?

L'analisi del sentimento si basa sull'opinion mining, un dominio che richiede l'uso di metodi linguistici, statistici e di machine learning. Le persone hanno opinioni diverse, ma spesso non esprimono le loro opinioni a causa di pressioni sociali, paura e mancanza di tempo. L'analisi del sentimento può essere una soluzione, ma fornisce solo un punteggio del sentimento approssimativo. L'uso dell'analisi del sentimento per eseguire il mining del sentimento è impegnativo, perché dobbiamo spiegare perché un determinato testo è negativo o positivo e non solo un numero. Questo è il motivo per cui questi metodi raramente funzionano molto bene.

Come puoi aumentare la precisione di un'analisi del sentiment?

Per aumentare l'accuratezza di un'analisi del sentimento, devi definire un lessico del sentimento che ti aiuterà a riconoscere il sentimento della frase. I lessici dei sentimenti ti consentono di sviluppare una sorta di dizionario che contiene tutte le parole rilevanti nella frase e anche il punteggio del sentimento ad essa associato. Per acquisire un lessico dei sentimenti, puoi utilizzare l'API di Twitter per ottenere i tweet. Quindi puoi utilizzare l'elaborazione del linguaggio naturale per trovare il sentimento della frase. Puoi anche usare NER per estrarre il sentimento.