أهم 10 مجموعات بيانات تم إنشاؤها لتحليل المشاعر في عام 2022

نشرت: 2021-01-08

تحليل المشاعر هو الأسلوب المستخدم لفهم عواطف الناس ومشاعرهم ، بمساعدة التعلم الآلي ، فيما يتعلق بمنتج أو خدمة معينة. تتطلب نماذج تحليل المشاعر حجمًا كبيرًا من مجموعة بيانات معينة.

يعد الحصول على الحجم المناسب ونوع مجموعة بيانات تحليل المشاعر من أكثر الجوانب صعوبة في إنشاء النموذج والتدريب عليه. في upGrad ، قمنا بتجميع قائمة من عشر مجموعات بيانات يمكن الوصول إليها والتي يمكن أن تساعدك على البدء في مشروعك في تحليل المشاعر.

مصدر

جدول المحتويات

مجموعات بيانات تحليل المشاعر

1. شعور ستانفورد تريبانك

مجموعة البيانات الأولى لتحليل المعنويات التي نرغب في مشاركتها هي Stanford Sentiment Treebank. تحتوي مجموعة البيانات على رأي المستخدم من Rotten Tomatoes ، وهو موقع رائع لمراجعة الأفلام.

يحتوي على أكثر من 10000 جزء من البيانات من ملفات HTML لموقع الويب الذي يحتوي على تعليقات المستخدمين. يتم تصنيف المشاعر على مقياس خطي من 1 إلى 25. إحداها هي الأكثر سلبية ، بينما 25 هي المشاعر الأكثر إيجابية. يمكن تنزيل مجموعة البيانات مجانًا ، ويمكنك العثور عليها على موقع ويب ستانفورد.

2. مجموعة بيانات IMDB Movie Reviews

مجموعة البيانات الثانية في قائمتنا هي مجموعة بيانات IMDB Movie Reviews. لديها 25000 مراجعة من IMDB. مجموعة البيانات مصنفة ثنائية وتحتوي أيضًا على بيانات إضافية غير موسومة يمكن استخدامها لأغراض التدريب والاختبار.

مجموعة البيانات متاحة للتنزيل من موقع ويب Kaggle أو Stanford ، بعنوان "Large Movie Review Dataset. إذا كنت تبحث عن مجموعة بيانات مراجعات مستخدم IMDB لتحليل المشاعر ، فهناك الكثير من الخيارات المتاحة. يمكنك اختيار واحد وفقًا لغرضك واستخدامك.

قراءة: أفضل مجموعات البيانات لمشاريع التعلم الآلي

3. مجموعة بيانات مراجعات الورق

تحتوي مجموعة بيانات "مراجعات الورق" على مراجعات في الغالب باللغتين الإسبانية والإنجليزية من مؤتمر حول الحوسبة. يحتوي على إجمالي 405 مثيلات (N) ، والتي يتم تقييمها باستخدام مقياس مكون من 5 نقاط. التقييم الذي تم إجراؤه على النحو التالي:

  • -2: سلبي جدا
  • -1: سلبي
  • 0: محايد
  • 1: إيجابي
  • 2: إيجابي جدا

تعبر درجة المشاعر عن رأي المستخدم في الورقة. يمكن أن تكون مجموعة البيانات مفيدة في التنبؤ برأي مراجعات الأوراق الأكاديمية. مجموعة البيانات متاحة للتنزيل من موقع جامعة كاليفورنيا.

تعلم دورة الذكاء الاصطناعي من أفضل الجامعات في العالم. احصل على درجة الماجستير أو برنامج PGP التنفيذي أو برامج الشهادات المتقدمة لتسريع مسار حياتك المهنية.

4. موقع تويتر لشركات الطيران الأمريكية

تحتوي مجموعة بيانات Twitter US Airline Sentiment ، كما يوحي الاسم ، على تغريدات لتجربة المستخدم المتعلقة بشركات الطيران الأمريكية المهمة. تتضمن مجموعة البيانات التغريدات منذ فبراير 2015 وهي مصنفة على أنها إيجابية أو سلبية أو محايدة.

تحتوي مجموعة البيانات على معلومات مثل معرف مستخدم Twitter واسم شركة الطيران وتاريخ ووقت التغريدة والتجارب السلبية لشركات الطيران. مجموعة البيانات متاحة للتنزيل من Kaggle.

5. المشاعر 140

تُستخدم مجموعة بيانات Sentiment140 لتحليل المشاعر لتحليل ردود المستخدمين على المنتجات أو العلامات التجارية أو الموضوعات المختلفة من خلال تغريدات المستخدم على منصة التواصل الاجتماعي Twitter. تم جمع مجموعة البيانات باستخدام Twitter API واحتوت على حوالي 1،60،000 تغريدة. يتم فرز البيانات في ستة حقول ؛

  • قطبية التغريدة (0 = سلبي ، 2 = محايد ، 4 = إيجابي)
  • معرف التغريدة
  • تاريخ التغريد
  • الاستعلام
  • مستخدم تويتر
  • البيانات النصية الواردة في التغريدة

يمكن تنزيل مجموعة البيانات من موقع Sentiment140 أو موقع ستانفورد. تعد مجموعة البيانات مفيدة لإدارة العلامة التجارية والاقتراع وأغراض تخطيط الشراء.

قراءة: أفضل 4 أنواع من تحليل المشاعر وأين تستخدم

6. مجموعة بيانات مراجعة رتبة الفتى

تحتوي مجموعة بيانات مراجعة Opin-Rank لتحليل المشاعر على آراء المستخدمين ، حول 3،00،000 ، حول السيارات والفنادق. تتكون مجموعة البيانات من تعليقات المستخدمين التي تم جمعها من مواقع الويب مثل Edmunds (السيارات) و TripAdvisor (الفنادق).

تحتوي غالبية مجموعة البيانات على تقييمات كاملة من موقع TripAdvisor ، حوالي 2،59،000. تبلغ تقييمات مستخدم Edmunds حوالي 42230. هناك تقييمات شاملة للفنادق في 10 مدن مختلفة من جميع أنحاء العالم ، مثل دبي وشيكاغو ولاس فيغاس ودلهي ، على سبيل المثال لا الحصر. تتضمن حقول البيانات التاريخ وعنوان المراجعة والمراجعة الكاملة.

وبالمثل ، هناك تقييمات للسيارات من Edmund لطرازات السيارات من العام 2007 - 2009. تتضمن بيانات المراجعة التاريخ وأسماء المؤلفين والمفضلات والتقرير الكامل. مجموعة البيانات متاحة للتنزيل من موقع GitHub.

7. بيانات منتج أمازون

بيانات منتج أمازون هي مجموعة فرعية من مجموعة بيانات أكبر بكثير لتحليل المشاعر لمنتجات الأمازون. تحتوي المجموعة الفائقة على 142.8 مليون مجموعة بيانات مراجعة أمازون. تم توفير هذه المجموعة الفرعية بواسطة الأستاذ في جامعة ستانفورد جوليان ماكولي.

يوفر مراجعات المستخدمين من مايو 1996 إلى يوليو 2014 للمنتجات المدرجة عبر فئات مختلفة على Amazon. هناك إصدار محدث (إصدار 2018) متاح للتنزيل. يحتوي على 233.1 مليون تقييم مستخدم من مايو 1996 إلى أكتوبر 2018.

يمكن تنزيل مجموعة البيانات القديمة من موقع الويب الخاص بجامعة سان دييغو ، بينما يمكن العثور على مجموعة البيانات الجديدة على GitHub. تحتوي كلتا مجموعتي البيانات على نقاط بيانات مثل التصنيفات والسعر ووصف المنتج والأصوات المفيدة ، على سبيل المثال لا الحصر. تحتوي مجموعة البيانات الجديدة على بيانات إضافية مثل التفاصيل الفنية وجداول المنتجات المماثلة.

8. قاموس المشاعر WordStat

تم تصميم مجموعة بيانات قاموس WordStat المعنوي لتحليل المشاعر من خلال دمج الكلمات الإيجابية والسلبية من قاموس Harvard IV وقاموس الصور الانحدارية والقاموس اللغوي وعدد الكلمات. يحتوي على حوالي 15000 كلمة من البيانات مجتمعة.

تأخذ مجموعة البيانات في الاعتبار حالات الرفض لتصنيف مشاعر المستخدم على أنها إيجابية أو سلبية. مجموعة البيانات متاحة للتنزيل للجمهور. ومع ذلك ، لا يمكنك استخدامه لأغراض تجارية دون إذن. يمكنك تنزيل أحدث إصدار من مجموعة البيانات من موقع ويب Provalisresearch.

اقرأ أيضًا: أفضل أفكار مشاريع مجموعة بيانات ML

9. معاجم المشاعر لـ 81 لغة

مصدر

كما يوحي الاسم ، يحتوي معجم المشاعر لـ 81 لغة على بيانات سياقية من الأفريكانية إلى الإنجليزية إلى اليديشية ، بإجمالي 81 كلمة. تتضمن البيانات معاجم موجبة وكذلك سلبية لعدد اللغات المذكور أعلاه. تعد مجموعة البيانات مفيدة للمحللين وعلماء البيانات الذين يعملون في مشاريع معالجة اللغة الطبيعية مثل روبوتات المحادثة.

قراءة: كيف تصنع chatbot في Python؟

10. حقيبة الكلمات تلتقي بكيس الفشار

مجموعة البيانات الأخيرة وليس آخراً لتحليل المشاعر هي "كيس الكلمات يلبي كيس الفشار". كما قد تكون خمنت ، فإن مجموعة البيانات هذه مرتبطة أيضًا بمشاعر المستخدم تجاه الأفلام. وهو يتألف من 50000 مراجعة IMDB. تستخدم مجموعة البيانات التصنيف الثنائي لمشاعر المستخدم. إذا كان تصنيف IMDB أقل من 5 لفيلم معين ، تكون درجة المشاعر 0. وبالمثل ، إذا كان التقييم أكبر من أو يساوي 7 ، فإن درجة المشاعر هي 1. يمكنك تنزيل مجموعة البيانات من Kaggle.

تحقق من: تحليل المشاعر باستخدام Python: دليل عملي

خاتمة

نأمل أن تساعدك هذه المدونة التي تغطي عشر مجموعات بيانات متنوعة لتحليل المشاعر. إذا كنت مهتمًا أيضًا بالتعرف على تحليل المشاعر والتقنيات المرتبطة به ، مثل الذكاء الاصطناعي والتعلم الآلي ، فيمكنك التحقق من برنامج Executive PG في دورة التعلم الآلي والذكاء الاصطناعي.

ما هي مجموعة البيانات المناسبة لتحليل المشاعر؟

يمكن إجراء تحليل المشاعر على كل من مجموعات البيانات التي تواجه المستهلك أو على أساس المنتج. قد يكتسب المستهلك الذي يواجه مجموعة البيانات عقلية المستهلك حول الأحداث أو المواقف أو المنتجات أو العلامات التجارية فيما يتعلق بالرضا العام ، أو حتى كيف يشعر المستهلك تجاه حدث حديث. على سبيل المثال ، مجموعة بيانات من موقع ملاحظات المستهلك تتيح لك إجراء استطلاع ومراجعة منتج أو خدمة. هناك العديد من مجموعات البيانات المتاحة لتحليل المشاعر. تتضمن بعض هذه العناصر تحليل مشاعر Twitter ، ومجموعة بيانات Bing ، وتصنيف مراجعة الأفلام ، وتصنيف المشاعر IMDb ، وما إلى ذلك.

ما هي التحديات المشتركة التي يتعامل معها تحليل المشاعر؟

يعتمد تحليل المشاعر على التنقيب عن الرأي ، وهو مجال يتطلب استخدام أساليب التعلم اللغوي والإحصائي والآلي. لدى الناس آراء مختلفة ، لكنهم غالبًا لا يعبرون عن آرائهم بسبب الضغوط الاجتماعية والخوف وضيق الوقت. يمكن أن يكون تحليل المشاعر حلاً ، لكنه يوفر فقط درجة تقريبية للمشاعر. يعد استخدام تحليل المشاعر من أجل التنقيب عن المشاعر أمرًا صعبًا ، لأننا بحاجة إلى توضيح سبب كون نص معين سلبيًا أو إيجابيًا ، وليس مجرد رقم واحد. هذا هو السبب في أن هذه الأساليب نادرًا ما تعمل بشكل جيد.

كيف يمكنك زيادة دقة تحليل المشاعر؟

لزيادة دقة تحليل المشاعر ، عليك تحديد معجم المشاعر الذي سيساعدك في التعرف على المشاعر في الجملة. تسمح لك معاجم المشاعر بتطوير نوع من القاموس يحتوي على جميع الكلمات ذات الصلة في الجملة وكذلك درجة المشاعر المرتبطة بها. للحصول على معجم المشاعر ، يمكنك استخدام Twitter API للحصول على التغريدات. ثم يمكنك استخدام Natural Language Processing للعثور على شعور الجملة. يمكنك أيضًا استخدام NER لاستخراج المشاعر.