初学者的情绪分析项目和主题 [2022]

已发表: 2021-01-09

您是否正在学习情绪分析并想测试您的知识? 如果你是,那么你来对地方了。 在本文中,我们将讨论情绪分析项目的想法,您可以使用这些想法测试您的知识并展示您的理解。

我们知道找到伟大的项目想法是多么棘手。 我们也知道完成项目是多么有益。 通过项目,您可以增强您的知识、增强您的投资组合并获得更好的角色。

加入来自世界顶级大学的最佳机器学习在线课程——硕士、高管研究生课程和 ML 和 AI 高级证书课程,以加快您的职业生涯。

所以事不宜迟,让我们开始吧。

目录

什么是情绪分析?

情感分析是一种数据挖掘,通过使用 NLP(自然语言处理)、文本分析和计算语言学来衡量人们的观点倾向。 我们主要在公共评论、社交媒体平台和类似网站上进行情绪分析。 以下是情绪分析的主要类型:

细粒度

细粒度的情感分析可以准确地得出公众舆论对该主题的看法。 它将结果分为不同的类别,例如:非常负面、负面、中性、正面、非常正面。

检测情绪

这种情绪分析可以识别愤怒、快乐、悲伤等情绪。 很多时候,你会使用词汇来识别情绪。 但是,词典也有缺点,在这些情况下,您需要使用 ML 算法。

基于方面

在基于方面的情感分析中,您会查看人们正在谈论的事物的方面。 假设您对智能手机进行了评论,您可能想了解人们在谈论它的电池寿命或屏幕尺寸。

多种语言

有时组织需要分析不同语言的文本。 这种形式的情绪分析非常具有挑战性,并且需要付出很多努力,因为您需要很多资源。

情绪分析在各个行业都有很多应用。 由于它有助于理解公众舆论,公司使用情绪分析来进行市场研究并确定他们的客户是否喜欢特定的产品(或服务)。 然后,根据情绪分析的结果,组织可以修改相应的产品或服务并取得更好的结果。

总而言之,它有助于公司更好地了解他们的客户。 当公司知道自己落后和擅长的地方时,他们可以更好地为客户服务。

在以下几点中,我们讨论了一些突出的情感分析项目想法,根据您的兴趣和专长选择一个:

情绪分析项目的想法

以下是我们的情绪分析项目。 我们的列表包含所有技能水平的项目,以便您可以轻松选择:

1.分析亚马逊产品评论

亚马逊是地球上最大的电子商务商店。 这意味着它还拥有最大的产品选择之一。 很多时候,公司希望了解公众对其产品的看法,并找出原因。 为此,他们对其产品评论进行情感分析。

它可以帮助他们识别产品的主要问题(如果有的话)。 有些产品在亚马逊上有数千条评论,而另一些则只有几百条。

它是最多的情感分析项目之一,因为对此类专业知识的需求非常高。 公司希望专家分析他们的产品评论以进行市场研究。

您可以在此处获取此项目的数据集:亚马逊产品评论数据集

从事这个项目将使您熟悉情绪分析的许多方面。 如果您是初学者,您可以从一个小产品开始并分析其评论。 另一方面,如果您正在寻找挑战,您可以选择热门产品并分析其评论。

2.烂番茄及其评论

烂番茄是一个评论网站,您可以在其中找到评论家对电影和节目的意见汇总。 您可以在那里找到几乎所有节目、电视剧或戏剧的评论。 不可否认,它也是从中获取数据的好地方。

作为情绪分析项目的一部分,您可以对本网站上的评论执行情绪分析。 娱乐界非常重视评论家的评论。 通过分析评论评论,制作公司可以了解其特定标题成功(或失败)的原因。 评论家的评论也极大地影响了标题的商业成功。

通过情绪分析,您可以了解评论家对特定电影或节目的一般看法。 这个项目是您了解情绪分析如何帮助 Netflix 等娱乐公司的绝佳方式。

您可以在此处获取此项目的数据集:烂番茄数据集

3. Twitter 情绪分析

Twitter 是进行情绪分析的好地方。 您可以通过这个平台获得关于任何话题的舆论。 这是中级情感分析项目的思路之一。 在执行此任务之前,您应该有一些执行意见挖掘(情感分析的另一个名称)的经验。 由于这是一个流行的项目理念,我们已经更详细地讨论了:

先决条件

您应该具备基本的编程知识。 您可以熟悉 Python 或 R(如果您都熟悉这两者会很棒)。 但是,不必具备专家级的编程知识。 除了编程之外,您还应该知道如何拆分数据集和使用 RESTful API,因为您必须在这里使用 Twitter API。 您还应该熟悉朴素贝叶斯分类器,因为我们稍后将在项目中使用它来分类我们的数据。

这个项目并不容易,而且需要一点时间(从 twitter 下载数据需要几个小时)。

在项目上工作

首先,您需要从 Twitter 获取授权凭证才能使用 Twitter API。 授权 Twitter 开发者帐户需要一些时间,但是一旦你拥有它,你就可以去你的仪表板并“创建一个应用程序”。

获得必要的凭据后,您可以创建函数并构建测试集。 Twitter 对可以通过其 API 发出的请求数量有限制,出于安全原因,他们添加了此限制。 上限是 15 分钟内 180 个请求。 您可以将测试集保持为 100 条推文。

创建测试集后,您必须使用 Twitter API 构建训练集,这是该项目中最难的部分。 确保将从 API 收集的推文保存在 CSV 文件中以供将来使用。

准备好训练集后,您只需对数据集中存在的推文进行预处理。 请记住,表情符号、图像和其他非文本组件不会影响情绪分析的极性。 要在情绪分析中包含图片和其他部分,您必须使用深度学习。 确保从数据中删除所有重复字符和拼写错误。 数据清理对于获得最佳结果至关重要。

清理数据后,您可以使用朴素贝叶斯分类器来分析可用的数据集。 最后,您必须测试您的模型,看看它是否产生了预期的结果。

您可能已经意识到,这个项目需要付出一些努力。 但是在 Twitter 上进行情绪分析是测试您对该主题的了解的好方法。 这也将是您的投资组合(或简历)的一个很好的补充。

阅读更多:使用 Python 进行情绪分析:动手指南

4. 科学论文评论

如果您有兴趣将机器学习和数据科学的知识用于研究目的,那么这个项目非常适合您。 您可以对科学论文的评论进行情感分析,并了解领先专家对特定主题的看法。 这样的发现可以帮助您相应地研究它们。

这是数据集,因此您可以开始这个项目:机器学习数据集 我们在这里共享的数据集有 N = 405 个实例。 它以 JSON 格式存储。 从事该项目将使您熟悉机器学习在科学研究中的应用。 该数据集有一些西班牙语评论和一些英语评论。

5. 分析 IMDb 评论

IMDb 是一个娱乐评论网站,人们可以在其中对不同的电影和节目发表意见。 您也可以对那里的评论进行情绪分析。 就像我们之前讨论的烂番茄项目一样,这个项目将帮助您了解数据科学和机器学习在娱乐行业的应用。

对节目和电影的评论有助于制作公司了解其标题失败(或成功)的原因。

这个项目的数据集非常古老和小。 但对于初学者来说,这是一种在新数据集上测试他/她技能的绝佳方式。 这是数据集的链接: IMDb 评论数据集

6.分析公司的声誉(新闻+社交媒体)

您可以选择您喜欢的公司并对其进行详细的情绪分析。 您还可以选择一个趋势主题并将其包含在您的情绪分析中以获得更精确的结果。 我们可以在这里讨论 Uber 的例子。 他们是世界上最著名的初创公司之一,拥有全球客户群。 您可以执行情绪分析以了解公众对该公司的看法。

要找到关于 Uber 的公众意见,我们首先从相关来源获取数据,在本例中是 Uber 的 Facebook 页面和 Twitter 页面。 通过分析那里的用户之间的对话,我们可以了解市场的整体品牌认知度。 您需要类别来分隔不同的数据集。 在此示例中,您可以使用 Payment、Service、Cancel、Safety 和 Price。

现在我们知道我们想要做什么以及我们必须去哪里,我们可以开始了。

Facebook 上的情绪分析

我们首先从他们的 Facebook 页面开始。 它有超过 30,000 条评论,在我们对前面提到的类别(付款、服务、取消、安全和价格)进行分析后,我们发现大部分正面评论都是关于价格部分的。 另一方面,负面反馈比例最高的类别是服务。 但是,在执行此分析时,我们还牢记 Facebook 的评论充满了垃圾邮件、建议、新闻和各种其他信息。

对于情绪分析,我们只需要查看意见。

因此,我们删除了所有不必要的类别,正如预期的那样,我们的结果发生了变化。 现在,负面评论在所有版块中占多数,并且在各个类别中的比例发生了变化。 在价格相关的评论中,负面评论的百分比上升了 20%。

这就是为什么必须执行数据清理的原因。 它可以帮助您获得准确的结果。

Twitter 上的情绪分析

我们已经在本文中讨论了推文的情绪分析。 因此,我们将在这里采用类似的方法,分析人们在哪些推文中标记 Uber 或回复推文。 在这里,正面推文百分比最高的类别是支付,第二高的是安全。 这也显示了不同的社交媒体如何给出不同的结果。

但是,我们也必须在这里执行数据清理。 为此,我们将删除意图无关的推文(垃圾邮件、新闻、营销等)。 您会注意到这里不同类别的百分比也发生了多大变化。

在我们的案例中,Payment 的正面推文份额下降了 12%,而安全成为正面回应百分比最高的类别。 除此之外,Safety 的正面推文份额下降了约 2-4%。 通过这些数据,您还可以了解人们在这些平台上谈论 Uber 时最热门的话题是什么。

因此,在 Twitter 上,我们发现最受欢迎的类别是支付、取消和服务。

您应该知道品牌非常重视这些数据。 它可以帮助他们弄清楚他们需要解决哪些问题以及如何解决这些问题。 毕竟,这些推文是客户的反馈。 在这种情况下,优步可以使用这些推文的发现来了解其服务的哪些部分存在故障以及如何修复它们。

新闻情绪分析

要了解任何组织的公众舆论,您还必须分析有关它的新闻。 在我们的示例中,我们将查看有关 Uber 的新闻文章。 在我们分析了这些新闻文章中的内容后,我们会将我们的发现分为上述类别(付款、服务、取消、安全和价格)。

除此之外,我们还将根据它们的受欢迎程度对不同的文章进行分类。 一篇文章越受欢迎,它对公众舆论的影响就越大。 您可以根据每篇文章的分享数量来衡量每篇文章的受欢迎程度。 具有较高份额的列无疑会比具有较少份额的列更受欢迎。

结果

在我们的示例中,我们研究了 Uber 和公众对该公司的看法。 在我们分析了 Facebook、Twitter 和新闻之后,我们就会知道人们对 Uber 的普遍看法是积极的、消极的还是中性的。

您可以按照这种方法来创建情绪项目分析想法。 您可以从一家在线业务不高的小公司开始,并在多个渠道上进行情绪分析,以了解它的看法是正面还是负面。 如果你想增加挑战,你可以让它变得更复杂,并为一家大公司进行分析(就像我们在示例中所做的那样)。

另请阅读:前 4 大数据分析项目理念:从初学者到专家级别

最后的想法

情感分析是机器学习中的一个重要课题。 它在多个领域都有大量应用。 如果您想了解有关此主题的更多信息,则可以前往我们的博客并找到许多新资源。

另一方面,如果您想获得全面而结构化的学习体验,或者您有兴趣了解更多关于机器学习的信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能执行 PG 计划,该计划专为工作而设计专业人士,并提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT-B 校友身份、5 多个实用的实践顶点项目和顶级公司的工作协助。

情感分析解决了哪些问题?

情绪分析正成为监控和理解客户情绪的重要工具,因为他们比以往任何时候都更公开地分享自己的观点和情绪。 品牌可以通过自动评估客户反馈(例如调查回复和社交媒体对话中的评论)来了解是什么让客户满意或沮丧。 这使他们能够定制产品和服务以满足客户的需求。 例如,使用情绪分析来检查关于您的业务的 4,000 多项调查可以帮助您确定客户是否喜欢您的定价和客户服务。

情感分析的挑战是什么?

即使是人类也很难有效地解释情绪,这使得情绪分析成为 nlp 中最困难的任务之一。 每一个话语都是在某个时刻、某个地点、由某些人发出的,等等。 所有陈述都是在上下文中做出的。 人们使用讽刺和讽刺的积极短语来表达他们的消极态度,如果没有详细了解表达情绪的情况,机器人可能很难识别。 情感分析中另一个值得解决的难题是如何处理比较。 为了进行有效的情绪分析,另一个需要克服的问题是定义我们所说的中立。

如何提高情绪分析的准确性?

在处理分类问题时,明智地选择测试和训练语料库至关重要。 一组特征在分类过程中起作用需要领域知识。 在大多数数据科学情况下,建议在清洁的语料库而不是嘈杂的语料库上使用分类方法。 在语料库中不常出现的关键词通常在文本分类中没有作用。 可以删除这些不常见的特征,从而提高模型性能。 将术语简化为最简单的版本通常是个好主意。 词形还原是此方法的名称。