Top 10 ustalonych zbiorów danych do analizy nastrojów w 2022 r.

Opublikowany: 2021-01-08

Analiza nastrojów to technika wykorzystywana do rozumienia emocji i uczuć ludzi za pomocą uczenia maszynowego w odniesieniu do konkretnego produktu lub usługi. Modele analizy nastrojów wymagają dużej ilości określonego zestawu danych.

Jednym z najtrudniejszych aspektów tworzenia i trenowania modelu jest pozyskiwanie odpowiedniego zestawu danych do analizy nastrojów i ilości danych. W upGrad sporządziliśmy listę dziesięciu dostępnych zestawów danych, które mogą pomóc w rozpoczęciu projektu z analizą sentymentu.

Źródło

Spis treści

Zbiory danych analizy nastrojów

1. Bank drzew nastrojów w Stanford

Pierwszym zbiorem danych do analizy nastrojów, którym chcielibyśmy się podzielić, jest Stanford Sentiment Treebank. Zestaw danych zawiera opinie użytkowników z Rotten Tomatoes, świetnej witryny z recenzjami filmów.

Zawiera ponad 10 000 danych z plików HTML serwisu zawierających recenzje użytkowników. Nastroje są oceniane w skali liniowej od 1 do 25. Jeden jest najbardziej negatywny, podczas gdy 25 to najbardziej pozytywny sentyment. Zestaw danych można pobrać bezpłatnie i można go znaleźć na stronie internetowej Stanford.

2. Zbiór danych recenzji filmów IMDB

Drugi zbiór danych na naszej liście to zbiór danych IMDB Movie Reviews. Ma 25 000 recenzji użytkowników z IMDB. Zestaw danych jest sklasyfikowany jako binarny i zawiera również dodatkowe nieoznakowane dane, które można wykorzystać do celów szkoleniowych i testowych.

Zbiór danych jest dostępny do pobrania ze strony Kaggle lub Stanford, oznaczony jako „Zbiór danych przeglądu dużego filmu. Jeśli szukasz zestawu danych opinii użytkowników IMDB do analizy nastrojów , dostępnych jest wiele opcji. Możesz wybrać jeden zgodnie z przeznaczeniem i zastosowaniem.

Przeczytaj: Najlepsze zestawy danych dla projektów uczenia maszynowego

3. Zbiór danych recenzji papieru

Zbiór danych Paper Reviews zawiera recenzje z konferencji poświęconej informatyce, głównie w języku hiszpańskim i angielskim. Ma łącznie 405 wystąpień (N), co ocenia się w 5-stopniowej skali. Przeprowadzona ocena wygląda następująco:

  • -2: bardzo negatywny
  • -1: negatywny
  • 0: neutralny
  • 1: pozytywny
  • 2: bardzo pozytywne

Ocena nastrojów wyraża opinię użytkownika na temat artykułu. Zbiór danych może być przydatny w przewidywaniu opinii recenzji artykułów naukowych. Zestaw danych jest dostępny do pobrania ze strony internetowej Uniwersytetu Kalifornijskiego.

Ucz się kursu Sztucznej Inteligencji z najlepszych światowych uniwersytetów. Zdobywaj programy Masters, Executive PGP lub Advanced Certificate Programy, aby przyspieszyć swoją karierę.

4. Sentyment linii lotniczych w USA na Twitterze

Zbiór danych Twitter US Airline Sentiment, jak sama nazwa wskazuje, zawiera tweety dotyczące doświadczeń użytkowników związanych z ważnymi amerykańskimi liniami lotniczymi. Zestaw danych zawiera tweety od lutego 2015 r. i jest klasyfikowany jako pozytywny, negatywny lub neutralny.

Zestaw danych zawiera informacje, takie jak identyfikator użytkownika Twittera, nazwa linii lotniczej, data i godzina tweeta oraz negatywne doświadczenia linii lotniczych. Zestaw danych jest dostępny do pobrania z Kaggle.

5. Sentyment140

Zestaw danych Sentiment140 do analizy nastrojów służy do analizowania odpowiedzi użytkowników na różne produkty, marki lub tematy za pośrednictwem tweetów użytkowników na platformie mediów społecznościowych Twitter. Zbiór danych został zebrany przy użyciu interfejsu Twitter API i zawierał około 1 60 000 tweetów. Dane są podzielone na sześć pól;

  • Polaryzacja tweeta (0 = ujemna, 2 = neutralna, 4 = dodatnia)
  • Identyfikator tweeta
  • Data tweeta
  • Zapytanie
  • Użytkownik Twittera
  • Dane tekstowe zawarte w tweecie

Zestaw danych można pobrać ze strony internetowej Sentiment140 lub Stanforda. Zestaw danych jest przydatny do zarządzania marką, ankietowania i planowania zakupów.

Przeczytaj: 4 najlepsze rodzaje analizy nastrojów i gdzie używać

6. Zbiór danych recenzji w rankingu opinii

Zestaw danych opinii Opin-Rank do analizy nastrojów zawiera recenzje użytkowników, około 300 000, dotyczące samochodów i hoteli. Zestaw danych zawiera recenzje użytkowników zebrane z witryn takich jak Edmunds (samochody) i TripAdvisor (hotele).

Większość zbioru danych zawiera pełne recenzje z serwisu TripAdvisor, około 2,59000. Liczba recenzji użytkowników Edmunds wynosi około 42 230. Istnieją obszerne recenzje hoteli w 10 różnych miastach na całym świecie, między innymi w Dubaju, Chicago, Las Vegas i Delhi. Pola danych obejmują datę, tytuł recenzji i pełną recenzję.

Podobnie są opinie Edmunda o modelach samochodów z lat 2007 – 2009. Dane z recenzji obejmują datę, nazwiska autorów, ulubione i pełny raport. Zestaw danych można pobrać z witryny GitHub.

7. Dane produktu Amazon

Dane produktów Amazon są podzbiorem znacznie większego zbioru danych do analizy sentymentu produktów Amazon. Superzbiór zawiera 142,8 miliona danych recenzji Amazon. Ten podzbiór został udostępniony przez profesora Stanforda, Juliana McAuley.

Udostępnia recenzje użytkowników od maja 1996 r. do lipca 2014 r. dla produktów wymienionych w różnych kategoriach na Amazon. Dostępna jest zaktualizowana wersja (edycja 2018) do pobrania. Zawiera 233,1 miliona recenzji użytkowników od maja 1996 do października 2018.

Stary zestaw danych można pobrać ze strony internetowej Uniwersytetu San Diego, natomiast nowy zestaw danych można znaleźć na GitHub. Oba zestawy danych zawierają punkty danych, takie jak oceny, cena, opis produktu i pomocne głosy, żeby wymienić tylko kilka. Nowy zbiór danych zawiera dodatkowe dane, takie jak szczegóły techniczne i podobne tabele produktów.

8. Słownik nastrojów WordStat

Zestaw danych WordStat Sentiment Dictionary do analizy nastrojów został zaprojektowany przez zintegrowanie pozytywnych i negatywnych słów ze słownika Harvard IV, Regressive Imagery Dictionary oraz Linguistic and Word Count. Zawiera łącznie około 15 000 słów danych.

Zestaw danych uwzględnia negacje, aby sklasyfikować nastroje użytkowników jako pozytywne lub negatywne. Zbiór danych jest publicznie dostępny do pobrania. Nie możesz jednak używać go do celów komercyjnych bez zezwolenia. Najnowszą wersję zestawu danych można pobrać ze strony internetowej Provalisresearch.

Przeczytaj także: Najlepsze pomysły na projekty zestawów danych ML

9. Leksykony sentymentów dla 81 języków

Źródło

Jak sama nazwa wskazuje, Leksykon sentymentu dla 81 języków zawiera dane kontekstowe od afrikaans poprzez angielski do jidysz, łącznie 81 słów. Dane zawierają leksykony pozytywne i negatywne dla wymienionej liczby języków. Zestaw danych jest przydatny dla analityków i analityków danych pracujących nad projektami przetwarzania języka naturalnego, takimi jak chatboty.

Przeczytaj: Jak zrobić chatbota w Pythonie?

10. Worek słów spotyka worek popcornów

Ostatnim, ale nie mniej ważnym zbiorem danych do analizy nastrojów jest „torba słów spotyka worek popcornów”. Jak można się domyślić, ten zestaw danych jest również powiązany z sentymentem użytkowników do filmów. Składa się z 50 000 recenzji IMDB. Zestaw danych używa klasyfikacji binarnej dla opinii użytkowników. Jeśli ocena IMDB jest mniejsza niż 5 dla konkretnego filmu, wynik nastroju wynosi 0. Podobnie, jeśli ocena jest większa lub równa 7, wynik nastroju wynosi 1. Zestaw danych można pobrać z Kaggle.

Sprawdź: Analiza nastrojów za pomocą Pythona: praktyczny przewodnik

Wniosek

Mamy nadzieję, że ten blog obejmujący dziesięć różnych zestawów danych do analizy nastrojów pomógł ci. Jeśli chcesz dowiedzieć się więcej o analizie sentymentu i powiązanych technologiach, takich jak sztuczna inteligencja i uczenie maszynowe, możesz zapoznać się z naszym kursem Executive PG Program in Machine Learning & AI .

Jaki zbiór danych nadaje się do analizy sentymentu?

Analizę nastrojów można przeprowadzić zarówno na zestawach danych skierowanych do konsumenta, jak i opartych na produktach. Zbiór danych skierowany do konsumenta uchwyciłby nastawienie konsumenta na wydarzenia lub sytuacje, produkty lub marki w odniesieniu do ogólnej satysfakcji, a nawet tego, jak konsument czuje się w związku z niedawnym wydarzeniem. Na przykład zestaw danych z witryny z opiniami konsumentów, która umożliwia wypełnienie ankiety i przejrzenie produktu lub usługi. Dostępnych jest wiele zbiorów danych do analizy nastrojów. Niektóre z nich obejmują analizę nastrojów na Twitterze, zbiór danych na temat nastrojów Bing, klasyfikację nastrojów recenzji filmów, klasyfikację nastrojów IMDb itp.

Z jakimi typowymi wyzwaniami wiąże się analiza sentymentu?

Analiza sentymentu opiera się na eksploracji opinii, dziedzinie wymagającej zastosowania metod językowych, statystycznych i uczenia maszynowego. Ludzie mają różne opinie, ale często nie wyrażają swoich poglądów z powodu presji społecznej, strachu i braku czasu. Analiza nastrojów może być rozwiązaniem, ale dostarcza jedynie przybliżony wynik nastrojów. Używanie analizy sentymentu do wyszukiwania sentymentu jest trudne, ponieważ musimy wyjaśnić, dlaczego określony tekst jest negatywny lub pozytywny, a nie tylko jedna liczba. Dlatego te metody rzadko działają bardzo dobrze.

Jak możesz zwiększyć dokładność analizy sentymentu?

Aby zwiększyć dokładność analizy sentymentu, musisz zdefiniować leksykon sentymentu, który pomoże Ci rozpoznać sentyment zdania. Leksykony nastrojów pozwalają na opracowanie pewnego rodzaju słownika, który zawiera wszystkie odpowiednie słowa w zdaniu, a także powiązany z nim wynik nastrojów. Aby zdobyć leksykon sentymentów, możesz użyć Twitter API, aby uzyskać tweety. Następnie możesz użyć przetwarzania języka naturalnego, aby znaleźć sentyment zdania. Możesz również użyć NER do wyodrębnienia sentymentu.