Top 10 seturi de date stabilite pentru analiza sentimentelor în 2022

Publicat: 2021-01-08

Analiza sentimentelor este tehnica folosită pentru înțelegerea emoțiilor și sentimentelor oamenilor, cu ajutorul învățării automate, cu privire la un anumit produs sau serviciu. Modelele de analiză a sentimentelor necesită un volum mare de un set de date specific.

Unul dintre cele mai provocatoare aspecte ale creării și antrenării unui model este obținerea volumului și tipului potrivit de seturi de date de analiză a sentimentelor. La upGrad , am compilat o listă cu zece seturi de date accesibile care vă pot ajuta să începeți proiectul dvs. de analiză a sentimentelor.

Sursă

Cuprins

Seturi de date pentru analiza sentimentelor

1. Stanford Sentiment Treebank

Primul set de date pentru analiza sentimentelor pe care am dori să-l împărtășim este Stanford Sentiment Treebank. Setul de date conține părerea utilizatorilor de la Rotten Tomatoes, un site grozav de recenzii a filmelor.

Conține peste 10.000 de date din fișierele HTML ale site-ului web care conțin recenzii ale utilizatorilor. Sentimentele sunt evaluate pe o scară liniară între 1 și 25. Unul este cel mai negativ, în timp ce 25 este cel mai pozitiv sentiment. Setul de date poate fi descărcat gratuit și îl puteți găsi pe site-ul Stanford.

2. Setul de date pentru recenzii de filme IMDB

Al doilea set de date din lista noastră este setul de date IMDB Movie Reviews. Are 25.000 de recenzii ale utilizatorilor de la IMDB. Setul de date este clasificat binar și conține, de asemenea, date suplimentare neetichetate care pot fi utilizate în scopuri de instruire și testare.

Setul de date este disponibil pentru descărcare de pe site-ul web Kaggle sau Stanford, etichetat „Setul de date pentru recenzii de filme mari”. Dacă sunteți în căutarea unui set de date de recenzii ale utilizatorilor IMDB pentru analiza sentimentelor , există o mulțime de opțiuni disponibile. Puteți alege unul în funcție de scopul și utilizarea dvs.

Citiți: Cele mai bune seturi de date pentru proiecte de învățare automată

3. Setul de date pentru recenzii de hârtie

Setul de date Paper Reviews conține recenzii în mare parte în spaniolă și engleză de la o conferință despre computere. Are un total de 405 de instanțe (N), care sunt evaluate cu o scală de 5 puncte. Evaluarea efectuată este următoarea:

  • -2: foarte negativ
  • -1: negativ
  • 0: neutru
  • 1: pozitiv
  • 2: foarte pozitiv

Scorul de sentiment exprimă opinia utilizatorului despre hârtie. Setul de date poate fi util în prezicerea opiniilor recenziilor lucrărilor academice. Setul de date este disponibil pentru descărcare de pe site-ul web al Universității din California.

Învață curs de inteligență artificială de la cele mai bune universități din lume. Câștigă programe de master, Executive PGP sau Advanced Certificate pentru a-ți accelera cariera.

4. Twitter US Airline Sentiment

Setul de date Twitter US Airline Sentiment, după cum sugerează și numele, conține tweet-uri despre experiența utilizatorului legate de companii aeriene importante din SUA. Setul de date include tweet-uri din februarie 2015 și este clasificat drept pozitiv, negativ sau neutru.

Setul de date conține informații precum ID-ul utilizatorului Twitter, numele companiei aeriene, data și ora tweet-ului și experiențele negative ale companiilor aeriene. Setul de date este disponibil pentru descărcare de la Kaggle.

5. Sentiment140

Setul de date Sentiment140 pentru analiza sentimentelor este folosit pentru a analiza răspunsurile utilizatorilor la diferite produse, mărci sau subiecte prin intermediul tweet-urilor utilizatorilor pe platforma de socializare Twitter. Setul de date a fost colectat folosind API-ul Twitter și conținea aproximativ 1.60.000 de tweet-uri. Datele sunt sortate în șase câmpuri;

  • Polaritatea tweet-ului (0 = negativ, 2 = neutru, 4 = pozitiv)
  • ID-ul tweet-ului
  • Data tweet-ului
  • Interogarea
  • Utilizatorul Twitter
  • Datele textuale conținute în tweet

Setul de date poate fi descărcat de pe site-ul web al lui Sentiment140 sau al lui Stanford. Setul de date este util pentru managementul mărcii, sondaje și planificarea achizițiilor.

Citește: Top 4 tipuri de analiză a sentimentelor și unde să folosești

6. Setul de date Opin-Rank Review

Setul de date de evaluare Opin-Rank pentru analiza sentimentelor conține recenzii ale utilizatorilor, aproximativ 3.00.000, despre mașini și hoteluri. Setul de date cuprinde recenzii ale utilizatorilor colectate de pe site-uri web precum Edmunds (mașini) și TripAdvisor (hoteluri).

Majoritatea setului de date conține recenzii complete de la TripAdvisor, aproximativ 2.59.000. Recenziile utilizatorilor Edmunds sunt de aproximativ 42.230. Există recenzii complete despre hoteluri din 10 orașe diferite de pe tot globul, cum ar fi Dubai, Chicago, Las Vegas și Delhi, pentru a numi câteva. Câmpurile de date includ data, titlul recenziei și recenzia completă.

În mod similar, există recenzii de mașini de la Edmund ale modelelor de mașini din anul 2007 – 2009. Datele de recenzie includ data, numele autorilor, favoritele și raportul complet. Setul de date este disponibil pentru descărcare de pe site-ul GitHub.

7. Date despre produse Amazon

Datele despre produse Amazon sunt un subset al unui set de date mult mai mare pentru analiza sentimentelor produselor Amazon. Supersetul conține un set de date de recenzii Amazon de 142,8 milioane. Acest subset a fost pus la dispoziție de profesorul de la Stanford, Julian McAuley.

Oferă recenzii utilizatorilor din mai 1996 până în iulie 2014 pentru produsele listate în diferite categorii pe Amazon. Există o versiune actualizată (ediția 2018) disponibilă pentru descărcare. Conține 233,1 milioane de recenzii ale utilizatorilor din mai 1996 până în octombrie 2018.

Vechiul set de date poate fi descărcat de pe site-ul web al Universității din San Diego, în timp ce noul set de date poate fi găsit pe GitHub. Ambele seturi de date conțin puncte de date, cum ar fi evaluări, preț, descrierea produsului și voturi utile, pentru a numi câteva. Noul set de date conține date suplimentare, cum ar fi detalii tehnice și tabele de produse similare.

8. Dicţionar de sentimente WordStat

Setul de date WordStat Sentiment Dictionary pentru analiza sentimentelor a fost conceput prin integrarea cuvintelor pozitive și negative din dicționarul Harvard IV, dicționarul de imagini regresive și dicționarul lingvistic și de numărare a cuvintelor. Conține aproximativ 15.000 de cuvinte de date combinate.

Setul de date ia în considerare negațiile pentru a clasifica sentimentul utilizatorilor fie ca pozitiv sau negativ. Setul de date este disponibil publicului pentru descărcare. Cu toate acestea, nu îl puteți utiliza în scopuri comerciale fără autorizație. Puteți descărca cea mai recentă versiune a setului de date de pe site-ul web al Provalisresearch.

Citiți și: Top idei de proiecte ML Dataset

9. Lexiconele sentimentelor pentru 81 de limbi

Sursă

După cum sugerează și numele, Lexiconul sentimentelor pentru 81 de limbi conține date contextuale de la afrikaans la engleză la idiș, pentru un total de 81 de cuvinte. Datele includ lexiconuri pozitive și negative pentru numărul de limbi menționat mai sus. Setul de date este util pentru analiștii și oamenii de știință care lucrează la proiecte de procesare a limbajului natural, cum ar fi chatbots.

Citește: Cum să faci chatbot în Python?

10. Bag of Words Întâlnește Bag of Popcorns

Ultimul, dar nu în ultimul rând , set de date pentru analiza sentimentelor este „sacul de cuvinte se întâlnește cu punga de floricele”. După cum probabil ați ghicit, acest set de date este, de asemenea, legat de sentimentul utilizatorilor față de filme. Constă din 50.000 de recenzii IMDB. Setul de date utilizează clasificarea binară pentru sentimentul utilizatorilor. Dacă evaluarea IMDB este mai mică de 5 pentru un anumit film, scorul de sentiment este 0. În mod similar, dacă evaluarea este mai mare sau egală cu 7, scorul de sentiment este 1. Puteți descărca setul de date de la Kaggle.

Consultați: Analiza sentimentelor folosind Python: un ghid practic

Concluzie

Sperăm că acest blog care acoperă zece seturi de date diverse pentru analiza sentimentelor v-a ajutat. Dacă mai sunteți interesat să aflați despre analiza sentimentelor și tehnologiile asociate, cum ar fi inteligența artificială și învățarea automată, puteți consulta programul nostru Executive PG în cursul Machine Learning și AI.

Ce set de date este potrivit pentru analiza sentimentelor?

Analiza sentimentelor se poate face atât pe seturi de date orientate spre consumator, cât și pe baza de produse. Un set de date care se confruntă cu consumatorul ar capta mentalitatea consumatorului despre evenimente sau situații, produse sau mărci în ceea ce privește satisfacția generală sau chiar modul în care se simte consumatorul în legătură cu un eveniment recent. De exemplu, un set de date de la un site de feedback al consumatorilor care vă permite să participați la un sondaj și să revizuiți un produs sau serviciu. Există multe seturi de date disponibile pentru analiza sentimentelor. Unele dintre acestea includ Analiza sentimentelor Twitter, Setul de date Bing Sentiment, Clasificarea sentimentelor de recenzie a filmelor, Clasificarea sentimentelor IMDb etc.

Care sunt provocările comune cu care se confruntă analiza sentimentelor?

Analiza sentimentelor se bazează pe minarea opiniei, un domeniu care necesită utilizarea metodelor lingvistice, statistice și de învățare automată. Oamenii au opinii diferite, dar adesea nu își exprimă opiniile din cauza presiunilor sociale, fricii și lipsei de timp. Analiza sentimentelor poate fi o soluție, dar oferă doar un scor aproximativ de sentiment. Utilizarea analizei sentimentelor pentru a analiza sentimentele este o provocare, deoarece trebuie să explicăm de ce un anumit text este negativ sau pozitiv, și nu doar un număr. Acesta este motivul pentru care aceste metode rareori funcționează foarte bine.

Cum puteți crește acuratețea unei analize a sentimentelor?

Pentru a crește acuratețea unei analize de sentiment, trebuie să definiți un lexicon de sentiment care vă va ajuta să recunoașteți sentimentul propoziției. Lexiconele de sentimente vă permit să dezvoltați un fel de dicționar care conține toate cuvintele relevante din propoziție și, de asemenea, scorul de sentiment asociat cu acesta. Pentru a obține un lexicon de sentiment, puteți utiliza Twitter API pentru a obține tweet-urile. Apoi puteți utiliza Procesarea limbajului natural pentru a găsi sentimentul propoziției. De asemenea, puteți utiliza NER pentru a extrage sentimentul.