2022'de Duyarlılık Analizi için İlk 10 Yerleşik Veri Kümesi

Yayınlanan: 2021-01-08

Duygu analizi, belirli bir ürün veya hizmetle ilgili makine öğrenimi yardımıyla insanların duygularını ve hislerini anlamak için kullanılan tekniktir. Duygu analizi modelleri, belirli bir veri kümesinin yüksek hacmini gerektirir.

Bir model oluşturmanın ve eğitmenin en zorlu yönlerinden biri, doğru hacim ve türde duygu analizi veri kümesini elde etmektir. upGrad'da , duyarlılık analizi projenize başlamanıza yardımcı olabilecek on erişilebilir veri kümesinden oluşan bir liste hazırladık .

Kaynak

İçindekiler

Duygu Analizi Veri Kümeleri

1. Stanford Duygu Ağacı Bankası

Duygu analizi için paylaşmak istediğimiz ilk veri seti Stanford Sentiment Treebank'tır. Veri seti, harika bir film inceleme web sitesi olan Rotten Tomatoes'dan gelen kullanıcı duyarlılığını içerir.

Kullanıcı incelemelerini içeren web sitesinin HTML dosyalarından 10.000'den fazla veri içerir. Duygular, 1 ile 25 arasında doğrusal bir ölçekte derecelendirilir. Biri en olumsuz, 25 ise en olumlu duygudur. Veri kümesini indirmek ücretsizdir ve Stanford web sitesinde bulabilirsiniz.

2. IMDB Film İncelemeleri Veri Kümesi

Listemizdeki ikinci veri seti IMDB Film İncelemeleri veri setidir. IMDB'den 25.000 kullanıcı yorumu var. Veri kümesi ikili olarak sınıflandırılır ve ayrıca eğitim ve test amacıyla kullanılabilecek etiketlenmemiş ek veriler içerir.

Veri kümesi, 'Büyük Film İnceleme Veri Kümesi' etiketli Kaggle veya Stanford web sitesinden indirilebilir. Bir IMDB kullanıcısının duyarlılık analizi için veri kümesi incelemesi arıyorsanız , birçok seçenek mevcuttur. Amacınıza ve kullanım amacınıza göre birini seçebilirsiniz.

Okuyun: Makine Öğrenimi Projeleri için En İyi Veri Kümeleri

3. Kağıt İncelemeleri Veri Kümesi

Kağıt İncelemeleri veri kümesi, bilgisayarla ilgili bir konferanstan çoğunlukla İspanyolca ve İngilizce olarak yapılan incelemeleri içerir. 5 puanlık bir ölçekle değerlendirilen toplam 405 örneği (N) vardır. Yapılan değerlendirme şu şekildedir:

  • -2: çok olumsuz
  • -1: negatif
  • 0: nötr
  • 1: pozitif
  • 2: çok olumlu

Duyarlılık puanı, kullanıcının kağıt hakkındaki görüşünü ifade eder. Veri seti, akademik makale incelemelerinin görüşlerini tahmin etmede faydalı olabilir. Veri seti California Üniversitesi web sitesinden indirilebilir.

Dünyanın En İyi Üniversitelerinden Yapay Zeka Kursunu Öğrenin . Kariyerinizi hızlandırmak için Master, Executive PGP veya Advanced Certificate Programları kazanın.

4. Twitter ABD Havayolu Duyarlılığı

Twitter ABD Havayolu Duyarlılığı veri seti, adından da anlaşılacağı gibi, önemli ABD havayollarıyla ilgili kullanıcı deneyimi tweet'lerini içerir. Veri seti, Şubat 2015'ten bu yana tweet'leri içerir ve olumlu, olumsuz veya tarafsız olarak sınıflandırılır.

Veri seti, Twitter kullanıcı kimliği, havayolu adı, tweet'in tarihi ve saati ve havayollarının olumsuz deneyimleri gibi bilgileri içerir. Veri seti Kaggle'dan indirilebilir.

5. Duygu140

Duygu analizi için Sentiment140 veri seti , sosyal medya platformu Twitter'da kullanıcı tweet'leri aracılığıyla farklı ürünlere, markalara veya konulara verilen kullanıcı yanıtlarını analiz etmek için kullanılır. Veri seti, Twitter API'si kullanılarak toplandı ve yaklaşık 1.60.000 tweet içeriyordu. Veriler altı alana ayrılmıştır;

  • Tweet'in polaritesi (0 = negatif, 2 = nötr, 4 = pozitif)
  • tweetin kimliği
  • tweetin tarihi
  • Sorgu
  • Twitter kullanıcısı
  • Tweette yer alan metinsel veriler

Veri seti Sentiment140'tan veya Stanford'un web sitesinden indirilebilir. Veri seti marka yönetimi, yoklama ve satın alma planlama amaçları için kullanışlıdır.

Okuyun: En İyi 4 Duygu Analizi Türü ve Nerede Kullanılır

6. Görüş Sıralaması İnceleme Veri Kümesi

Duyarlılık analizi için Opin-Rank inceleme veri seti , arabalar ve oteller hakkında yaklaşık 300.000 kullanıcı incelemesi içerir. Veri seti, Edmunds (arabalar) ve TripAdvisor (oteller) gibi web sitelerinden toplanan kullanıcı yorumlarını içerir.

Veri kümesinin çoğunluğu, TripAdvisor'dan yaklaşık 2,59,000 tam inceleme içerir. Edmunds kullanıcı incelemeleri yaklaşık 42.230'dur. Dubai, Chicago, Las Vegas ve Delhi gibi dünyanın dört bir yanından 10 farklı şehirdeki otellerin kapsamlı incelemeleri, birkaç isim. Veri alanları tarih, inceleme başlığı ve tam incelemeyi içerir.

Benzer şekilde, Edmund'dan 2007 – 2009 yıllarına ait araba modelleri hakkında araba incelemeleri var. İnceleme verileri tarih, yazar adları, favoriler ve tam raporu içerir. Veri seti GitHub web sitesinden indirilebilir.

7. Amazon Ürün Verileri

Amazon ürün verileri, amazon ürünlerinin duyarlılık analizine yönelik çok daha büyük bir veri kümesinin alt kümesidir . Süper set, 142.8 milyon Amazon inceleme veri seti içeriyor. Bu alt küme, Stanford profesörü Julian McAuley tarafından kullanıma sunuldu.

Amazon'da çeşitli kategorilerde listelenen ürünler için Mayıs 1996'dan Temmuz 2014'e kadar kullanıcı incelemeleri sağlar. İndirilebilecek güncellenmiş bir sürüm (2018 baskısı) bulunmaktadır. Mayıs 1996'dan Ekim 2018'e kadar 233.1 milyon kullanıcı incelemesi içerir.

Eski veri seti San Diego Üniversitesi web sitesinden indirilebilirken, yeni veri seti GitHub'da bulunabilir. Her iki veri kümesi de derecelendirmeler, fiyat, ürün açıklaması ve faydalı oylar gibi veri noktalarını içerir. Yeni veri kümesi, teknik ayrıntılar ve benzer ürün tabloları gibi ek verileri içerir.

8. WordStat Duygu Sözlüğü

Duygu analizi için WordStat Duygu Sözlüğü veri seti , Harvard IV sözlüğünden, Regresif Görüntü Sözlüğü'nden ve Dilbilim ve Kelime Sayım sözlüğünden alınan olumlu ve olumsuz sözcüklerin entegre edilmesiyle tasarlanmıştır. Birleştirilmiş yaklaşık 15.000 kelimelik veri içerir.

Veri kümesi, kullanıcı duyarlılığını olumlu veya olumsuz olarak sınıflandırmak için olumsuzları hesaba katar. Veri seti indirmek için halka açıktır. Ancak izinsiz ticari amaçla kullanamazsınız. Veri kümesinin en son sürümünü Provalisresearch'ün web sitesinden indirebilirsiniz.

Ayrıca Okuyun: En İyi ML Veri Kümesi Proje Fikirleri

9. 81 Dil İçin Duygu Sözlükleri

Kaynak

Adından da anlaşılacağı gibi, 81 dil için Duygu Sözlüğü, toplam 81 kelime için Afrikanca'dan İngilizce'ye ve Yidiş'e kadar bağlamsal veriler içerir. Veriler, yukarıda belirtilen dil sayısı için olumlu ve olumsuz sözlükleri içerir. Veri kümesi, sohbet robotları gibi Doğal Dil İşleme projelerinde çalışan analistler ve veri bilimcileri için yararlıdır.

Okuyun: Python'da chatbot nasıl yapılır?

10. Kelime Torbası Patlamış Mısır Torbasıyla Buluştu

Duygu analizi için son fakat en az önemli olmayan veri seti 'kelime torbası patlamış mısır torbasıyla buluşuyor'. Tahmin edebileceğiniz gibi, bu veri seti aynı zamanda filmlerin kullanıcı duyarlılığı ile de ilgilidir. 50.000 IMDB incelemesinden oluşmaktadır. Veri kümesi, kullanıcı duyarlılığı için ikili sınıflandırmayı kullanır. Belirli bir film için IMDB puanı 5'ten küçükse, duyarlılık puanı 0'dır. Benzer şekilde, puan 7'ye eşit veya daha büyükse, duyarlılık puanı 1'dir. Veri kümesini Kaggle'dan indirebilirsiniz.

Kontrol edin: Python Kullanarak Duygu Analizi: Uygulamalı Bir Kılavuz

Çözüm

Duyarlılık analizi için on farklı veri kümesini kapsayan bu blogun size yardımcı olacağını umuyoruz. Duygu analizi ve yapay zeka ve makine öğrenimi gibi ilişkili teknolojiler hakkında daha fazla bilgi edinmek istiyorsanız, Makine Öğrenimi ve Yapay Zeka kursunda Yönetici PG Programımıza göz atabilirsiniz.

Duygu analizi için hangi veri seti uygundur?

Duyarlılık analizi, hem tüketiciye yönelik hem de ürüne dayalı veri kümeleri üzerinde yapılabilir. Tüketiciye yönelik bir veri seti, genel memnuniyet açısından olaylar veya durumlar, ürünler veya markalar hakkında ve hatta bir tüketicinin yakın tarihli bir olay hakkında nasıl hissettiği hakkında bir tüketici zihniyetini yakalayacaktır. Örneğin, bir ankete katılmanıza ve bir ürün veya hizmeti incelemenize olanak tanıyan bir tüketici geri bildirim sitesinden alınan bir veri kümesi. Duygu analizi için birçok veri seti mevcuttur. Bunlardan bazıları Twitter Duyarlılık Analizi, Bing Duyarlılık Veri Kümesi, Film İnceleme Duyarlılık Sınıflandırması, IMDb Duyarlılık Sınıflandırması vb.

Duygu analizinin ilgilendiği ortak zorluklar nelerdir?

Duygu analizi, dilbilimsel, istatistiksel ve makine öğrenimi yöntemlerinin kullanılmasını gerektiren bir alan olan fikir madenciliğine dayanır. İnsanlar farklı görüşlere sahip olmakla birlikte, toplumsal baskılar, korku ve zamansızlık nedeniyle çoğu zaman görüşlerini dile getirmiyorlar. Duyarlılık analizi bir çözüm olabilir, ancak yalnızca yaklaşık bir duyarlılık puanı sağlar. Duygu madenciliği yapmak için duygu analizini kullanmak zordur, çünkü belirli bir metnin neden sadece bir sayı değil de negatif veya pozitif olduğunu açıklamamız gerekir. Bu nedenle, bu yöntemler nadiren çok iyi çalışır.

Bir duygu analizinin doğruluğunu nasıl artırabilirsiniz?

Bir duygu analizinin doğruluğunu artırmak için, cümlenin duygusunu tanımanıza yardımcı olacak bir duygu sözlüğü tanımlamanız gerekir. Duygu sözlükleri, cümledeki tüm ilgili kelimeleri ve ayrıca onunla ilişkili duygu puanını içeren bir tür sözlük geliştirmenize izin verir. Bir duygu sözlüğü edinmek için, tweetleri almak için Twitter API'sini kullanabilirsiniz. Ardından, cümlenin duygusunu bulmak için Doğal Dil İşleme'yi kullanabilirsiniz. Duyguyu çıkarmak için NER'i de kullanabilirsiniz.