2022 年 10 大已建立的情绪分析数据集

已发表: 2021-01-08

情绪分析是在机器学习的帮助下,用于了解人们对特定产品或服务的情绪和感受的技术。 情感分析模型需要大量的特定数据集。

创建和训练模型最具挑战性的方面之一是获取正确数量和类型的情感分析数据集。 upGrad ,我们编制了一份包含十个可访问数据集的列表,这些数据集可以帮助您开始进行情绪分析项目。

资源

目录

情绪分析数据集

1. 斯坦福情绪树库

我们想分享的第一个情绪分析数据集是斯坦福情绪树库。 该数据集包含来自 Rotten Tomatoes 的用户情绪,这是一个很棒的电影评论网站。

它包含来自包含用户评论的网站的 HTML 文件的 10,000 多条数据。 情绪在 1 到 25 之间的线性标度上进行评级。1 是最负面的,而 25 是最积极的情绪。 该数据集可免费下载,您可以在斯坦福网站上找到它。

2. IMDB 电影评论数据集

我们列表中的第二个数据集是 IMDB 电影评论数据集。 它有 25,000 条来自 IMDB 的用户评论。 该数据集被分类为二进制,还包含可用于训练和测试目的的其他未标记数据。

该数据集可从 Kaggle 或斯坦福网站下载,标记为“大型电影评论数据集”。 如果您正在寻找用于情绪分析的 IMDB 用户评论数据集有很多可用选项。 您可以根据自己的目的和用途选择一种。

阅读:机器学习项目的最佳数据集

3.论文评论数据集

Paper Review 数据集包含来自计算会议的主要西班牙语和英语评论。 它共有 405 个实例 (N),采用 5 分制进行评估。 进行的评估如下:

  • -2:非常消极
  • -1:负
  • 0:中性
  • 1:正面
  • 2:非常积极

情绪分数表达了用户对论文的看法。 该数据集可用于预测学术论文评论的意见。 该数据集可从加州大学网站下载。

向世界顶尖大学学习人工智能课程获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。

4. Twitter 美国航空公司情绪

顾名思义,Twitter 美国航空公司情绪数据集包含与美国重要航空公司相关的用户体验推文。 该数据集包括自 2015 年 2 月以来的推文,分为正面、负面或中性。

该数据集包含 Twitter 用户 ID、航空公司名称、推文的日期和时间以及航空公司的负面体验等信息。 该数据集可从 Kaggle 下载。

5. 情绪140

用于情感分析的 Sentiment140数据集用于分析用户通过社交媒体平台 Twitter 上的用户推文对不同产品、品牌或主题的反应。 该数据集是使用 Twitter API 收集的,包含大约 1,60,000 条推文。 数据分为六个字段;

  • 推文的极性(0 = 负,2 = 中性,4 = 正)
  • 推文ID
  • 推文的日期
  • 查询
  • 推特用户
  • 推文中包含的文本数据

该数据集可以从 Sentiment140 或斯坦福的网站下载。 该数据集可用于品牌管理、投票和购买计划。

阅读:情绪分析的前 4 种类型以及在哪里使用

6. Opin-Rank 审查数据集

用于情感分析的 Opin-Rank 评论数据集包含大约 3,00,000 条关于汽车和酒店的用户评论。 该数据集包括从 Edmunds(汽车)和 TripAdvisor(酒店)等网站收集的用户评论。

大部分数据集包含来自 TripAdvisor 的完整评论,大约 2,59,000 条。 Edmunds 的用户评论约为 42,230。 对全球 10 个不同城市的酒店进行了综合评价,例如迪拜、芝加哥、拉斯维加斯和德里等。 数据字段包括日期、评论标题和完整评论。

同样,Edmund 对 2007 年至 2009 年的车型进行了汽车评论。评论数据包括日期、作者姓名、收藏夹和完整报告。 该数据集可从 GitHub 网站下载。

7.亚马逊产品数据

亚马逊产品数据是用于亚马逊产品情绪分析更大数据集的子集 该超集包含一个 1.428 亿个亚马逊评论数据集。 该子集由斯坦福大学教授 Julian McAuley 提供。

它提供从 1996 年 5 月到 2014 年 7 月期间在亚马逊上列出的各种类别的产品的用户评论。 有一个更新版本(2018 版)可供下载。 从 1996 年 5 月到 2018 年 10 月,它包含 2.331 亿条用户评论。

旧数据集可以从圣地亚哥大学网站下载,而新数据集可以在 GitHub 上找到。 这两个数据集都包含诸如评级、价格、产品描述和有用的投票等数据点,仅举几例。 新数据集包含附加数据,例如技术细节和类似产品表。

8. WordStat 情感词典

用于情感分析的 WordStat Sentiment Dictionary数据集是通过整合哈佛 IV 词典、回归图像词典以及语言和字数词典中的正面和负面词而设计的。 它包含大约 15,000 个单词的数据组合。

该数据集考虑了否定来将用户情绪分类为正面或负面。 该数据集可供公众下载。 但是,未经授权,您不得将其用于商业目的。 您可以从 Provalisresearch 的网站下载最新版本的数据集。

另请阅读:顶级 ML 数据集项目创意

9. 81 种语言的情感词典

资源

顾名思义,81 种语言的情感词典包含从南非荷兰语到英语到意第绪语的上下文数据,总共 81 个单词。 数据包括上述语言数量的正面和负面词典。 该数据集对于从事自然语言处理项目(如聊天机器人)的分析师和数据科学家非常有用。

阅读:如何用 Python 制作聊天机器人?

10. 词袋遇上爆米花袋

最后但并非最不重要的情感分析数据集是“词袋与爆米花袋”。 你可能已经猜到了,这个数据集也与用户对电影的情绪有关。 它由 50,000 条 IMDB 评论组成。 该数据集对用户情绪使用二元分类。 如果特定电影的 IMDB 评分小于 5,则情绪评分为 0。同样,如果评分大于或等于 7,则情绪评分为 1。您可以从 Kaggle 下载数据集。

查看:使用 Python 进行情绪分析:动手指南

结论

我们希望这篇涵盖十个不同的情感分析数据集的博客对您有所帮助。 如果您对学习情感分析和相关技术(例如人工智能和机器学习)进一步感兴趣,您可以查看我们的机器学习和人工智能执行 PG课程。

什么数据集适合情感分析?

情感分析可以在面向消费者或基于产品的数据集上进行。 面向消费者的数据集将捕获消费者对事件或情况、产品或品牌的总体满意度,甚至消费者对最近事件的感受的心态。 例如,来自消费者反馈网站的数据集,允许您进行调查并查看产品或服务。 有许多数据集可用于情绪分析。 其中一些包括 Twitter 情感分析、Bing 情感数据集、电影评论情感分类、IMDb 情感分类等。

情绪分析处理的常见挑战是什么?

情感分析基于意见挖掘,这是一个需要使用语言、统计和机器学习方法的领域。 人们有不同的意见,但由于社会压力、恐惧和缺乏时间,他们往往不发表意见。 情感分析可以是一个解决方案,但它只提供一个近似的情感分数。 使用情感分析进行情感挖掘具有挑战性,因为我们需要解释为什么某个文本是负面或正面的,而不仅仅是一个数字。 这就是为什么这些方法很少能很好地工作的原因。

如何提高情绪分析的准确性?

为了提高情感分析的准确性,您必须定义一个情感词典,以帮助您识别句子的情感。 情感词典允许您开发某种字典,其中包含句子中的所有相关单词以及与之相关的情感分数。 要获取情感词典,您可以使用 Twitter API 获取推文。 然后您可以使用自然语言处理来查找句子的情绪。 您还可以使用 NER 来提取情绪。