10 Kumpulan Data Teratas untuk Analisis Sentimen pada tahun 2022

Diterbitkan: 2021-01-08

Analisis sentimen adalah teknik yang digunakan untuk memahami emosi dan perasaan orang, dengan bantuan pembelajaran mesin, mengenai produk atau layanan tertentu. Model analisis sentimen membutuhkan volume tinggi dari kumpulan data tertentu.

Salah satu aspek yang paling menantang dalam membuat dan melatih model adalah memperoleh volume dan jenis kumpulan data analisis sentimen yang tepat. Di upGrad , kami telah menyusun daftar sepuluh kumpulan data yang dapat diakses yang dapat membantu Anda memulai proyek Anda tentang analisis sentimen.

Sumber

Daftar isi

Kumpulan Data Analisis Sentimen

1. Bank Pohon Sentimen Stanford

Kumpulan data pertama untuk analisis sentimen yang ingin kami bagikan adalah Stanford Sentiment Treebank. Kumpulan data berisi sentimen pengguna dari Rotten Tomatoes, situs web ulasan film yang bagus.

Ini berisi lebih dari 10.000 keping data dari file HTML situs web yang berisi ulasan pengguna. Sentimen dinilai pada skala linier antara 1 hingga 25. Salah satunya adalah yang paling negatif, sedangkan 25 adalah sentimen yang paling positif. Kumpulan data ini gratis untuk diunduh, dan Anda dapat menemukannya di situs web Stanford.

2. Dataset Ulasan Film IMDB

Kumpulan data kedua dalam daftar kami adalah kumpulan data Ulasan Film IMDB. Ini memiliki 25.000 ulasan pengguna dari IMDB. Dataset diklasifikasikan biner dan juga berisi data tidak berlabel tambahan yang dapat digunakan untuk tujuan pelatihan dan pengujian.

Kumpulan data tersedia untuk diunduh dari situs web Kaggle atau Stanford, berlabel 'Dataset Tinjauan Film Besar. Jika Anda mencari kumpulan data ulasan pengguna IMDB untuk analisis sentimen , ada banyak opsi yang tersedia. Anda dapat memilih salah satu sesuai dengan tujuan dan penggunaan Anda.

Baca: Kumpulan Data Terbaik untuk Proyek Pembelajaran Mesin

3. Kumpulan Data Ulasan Makalah

Kumpulan data Paper Review berisi ulasan sebagian besar dalam bahasa Spanyol dan Inggris dari konferensi tentang komputasi. Ini memiliki total 405 instance (N), yang dievaluasi dengan skala 5 poin. Evaluasi yang dilakukan adalah sebagai berikut:

  • -2: sangat negatif
  • -1: negatif
  • 0: netral
  • 1: positif
  • 2: sangat positif

Skor sentimen mengungkapkan pendapat pengguna tentang kertas. Dataset dapat berguna dalam memprediksi opini review makalah akademis. Dataset tersedia untuk diunduh dari situs web University of California.

Pelajari Kursus Kecerdasan Buatan dari Universitas top Dunia. Dapatkan Master, PGP Eksekutif, atau Program Sertifikat Tingkat Lanjut untuk mempercepat karier Anda.

4. Sentimen Maskapai Penerbangan AS Twitter

Dataset Sentimen Maskapai Penerbangan AS Twitter, seperti namanya, berisi tweet tentang pengalaman pengguna yang terkait dengan maskapai penerbangan AS yang signifikan. Dataset mencakup tweet sejak Februari 2015 dan diklasifikasikan sebagai positif, negatif, atau netral.

Dataset berisi informasi seperti ID pengguna Twitter, nama maskapai, tanggal dan waktu tweet, dan pengalaman negatif maskapai. Kumpulan data tersedia untuk diunduh dari Kaggle.

5. Sentimen140

Dataset Sentiment140 untuk analisis sentimen digunakan untuk menganalisis tanggapan pengguna terhadap produk, merek, atau topik yang berbeda melalui tweet pengguna di platform media sosial Twitter. Dataset dikumpulkan menggunakan Twitter API dan berisi sekitar 1.60.000 tweet. Data diurutkan ke dalam enam bidang;

  • Polaritas tweet (0 = negatif, 2 = netral, 4 = positif)
  • ID tweetnya
  • Tanggal tweetnya
  • Pertanyaan
  • Pengguna Twitter
  • Data tekstual yang terkandung dalam tweet

Dataset dapat diunduh dari situs web Sentiment140 atau Stanford. Dataset berguna untuk tujuan manajemen merek, polling, dan perencanaan pembelian.

Baca: Top 4 Jenis Analisis Sentimen & Di Mana Digunakan

6. Dataset Ulasan Opin-Rank

Dataset ulasan Opin-Rank untuk analisis sentimen berisi ulasan pengguna, sekitar 3,00,000, tentang mobil dan hotel. Dataset terdiri dari ulasan pengguna yang dikumpulkan dari situs web seperti Edmunds (mobil), dan TripAdvisor (hotel).

Mayoritas dataset berisi ulasan lengkap dari TripAdvisor, sekitar 2.59.000. Ulasan pengguna Edmunds mencapai sekitar 42.230. Ada ulasan lengkap tentang hotel di 10 kota berbeda dari seluruh dunia, seperti Dubai, Chicago, Las Vegas, dan Delhi, untuk beberapa nama. Bidang data mencakup tanggal, judul ulasan, dan ulasan lengkap.

Demikian pula review mobil dari Edmund model mobil dari tahun 2007 – 2009. Data review meliputi tanggal, nama penulis, favorit, dan laporan lengkap. Dataset tersedia untuk diunduh dari situs web GitHub.

7. Data Produk Amazon

Data produk Amazon adalah bagian dari kumpulan data yang jauh lebih besar untuk analisis sentimen produk amazon. Superset berisi 142,8 juta kumpulan data ulasan Amazon. Subset ini disediakan oleh profesor Stanford Julian McAuley.

Ini memberikan ulasan pengguna dari Mei 1996 hingga Juli 2014 untuk produk yang terdaftar di berbagai kategori di Amazon. Ada versi terbaru (edisi 2018) yang tersedia untuk diunduh. Ini berisi 233,1 juta ulasan pengguna dari Mei 1996 hingga Oktober 2018.

Kumpulan data lama dapat diunduh dari situs web Universitas San Diego, sedangkan kumpulan data baru dapat ditemukan di GitHub. Kedua kumpulan data berisi poin data seperti peringkat, harga, deskripsi produk, dan penilaian bermanfaat, untuk beberapa nama. Kumpulan data baru berisi data tambahan seperti detail teknis dan tabel produk serupa.

8. Kamus Sentimen WordStat

Kumpulan data WordStat Sentiment Dictionary untuk analisis sentimen dirancang dengan mengintegrasikan kata-kata positif dan negatif dari kamus Harvard IV, Kamus Citra Regresif, dan kamus Linguistik dan Hitungan Kata. Ini berisi sekitar 15.000 kata dari data yang digabungkan.

Dataset memperhitungkan negasi untuk mengklasifikasikan sentimen pengguna sebagai positif atau negatif. Dataset tersedia untuk umum untuk diunduh. Namun, Anda tidak dapat menggunakannya untuk tujuan komersial tanpa izin. Anda dapat mengunduh kumpulan data versi terbaru dari situs web Provalisresearch.

Baca Juga: Ide Proyek Dataset ML Teratas

9. Leksikon Sentimen Untuk 81 Bahasa

Sumber

Seperti namanya, Sentimen Lexicon untuk 81 bahasa berisi data kontekstual dari Afrikaans ke Inggris ke Yiddish, dengan total 81 kata. Data tersebut mencakup leksikon positif dan negatif untuk jumlah bahasa yang disebutkan di atas. Kumpulan data berguna untuk analis dan ilmuwan data yang bekerja pada proyek Pemrosesan Bahasa Alami seperti chatbots.

Baca: Bagaimana cara membuat chatbot dengan Python?

10. Bag of Words Meets Bag of Popcorns

Dataset terakhir namun tidak kalah pentingnya untuk analisis sentimen adalah 'sekantong kata memenuhi sekantong popcorn.' Seperti yang mungkin sudah Anda duga, kumpulan data ini juga terkait dengan sentimen pengguna terhadap film. Ini terdiri dari 50.000 ulasan IMDB. Dataset menggunakan klasifikasi biner untuk sentimen pengguna. Jika peringkat IMDB kurang dari 5 untuk film tertentu, skor sentimennya adalah 0. Demikian pula, jika peringkatnya lebih besar dari atau sama dengan 7, skor sentimennya adalah 1. Anda dapat mengunduh kumpulan data dari Kaggle.

Lihat: Analisis Sentimen Menggunakan Python: Panduan Praktis

Kesimpulan

Kami harap blog yang mencakup sepuluh kumpulan data yang beragam untuk analisis sentimen ini membantu Anda. Jika Anda lebih tertarik untuk mempelajari analisis sentimen dan teknologi yang terkait, seperti kecerdasan buatan dan pembelajaran mesin, Anda dapat memeriksa Program PG Eksekutif kami dalam kursus Pembelajaran Mesin & AI.

Dataset apa yang cocok untuk analisis sentimen?

Analisis sentimen dapat dilakukan pada dataset yang dihadapi konsumen atau berbasis produk. Kumpulan data yang dihadapi konsumen akan menangkap pola pikir konsumen tentang peristiwa atau situasi, produk atau merek sehubungan dengan kepuasan umum, atau bahkan bagaimana perasaan konsumen tentang peristiwa baru-baru ini. Misalnya, kumpulan data dari situs umpan balik konsumen yang memungkinkan Anda melakukan survei dan meninjau produk atau layanan. Ada banyak kumpulan data yang tersedia untuk analisis sentimen. Beberapa di antaranya adalah Analisis Sentimen Twitter, Dataset Sentimen Bing, Klasifikasi Sentimen Ulasan Film, Klasifikasi Sentimen IMDb, dll.

Apa tantangan umum yang dihadapi analisis sentimen?

Analisis sentimen didasarkan pada penggalian opini, domain yang memerlukan penggunaan metode linguistik, statistik, dan pembelajaran mesin. Orang-orang memiliki pendapat yang berbeda, tetapi mereka sering tidak menyuarakan pandangan mereka karena tekanan sosial, ketakutan, dan kurangnya waktu. Analisis sentimen bisa menjadi solusi, tetapi hanya memberikan perkiraan skor sentimen. Menggunakan analisis sentimen untuk melakukan penambangan sentimen itu menantang, karena kita perlu menjelaskan mengapa teks tertentu negatif atau positif, dan bukan hanya satu angka. Inilah sebabnya mengapa metode ini jarang berhasil dengan baik.

Bagaimana Anda dapat meningkatkan akurasi analisis sentimen?

Untuk meningkatkan akurasi analisis sentimen, Anda harus menentukan leksikon sentimen yang akan membantu Anda mengenali sentimen kalimat. Kamus sentimen memungkinkan Anda untuk mengembangkan semacam kamus yang berisi semua kata yang relevan dalam kalimat dan juga skor sentimen yang terkait dengannya. Untuk memperoleh leksikon sentimen, Anda dapat menggunakan Twitter API untuk mendapatkan tweet. Kemudian Anda dapat menggunakan Natural Language Processing untuk menemukan sentimen dari kalimat tersebut. Anda juga dapat menggunakan NER untuk mengekstrak sentimen.