2022年に感情分析のために確立されたデータセットトップ10

公開: 2021-01-08

感情分析は、特定の製品やサービスに関して、機械学習の助けを借りて、人々の感情や感情を理解するために使用される手法です。感情分析モデルには、大量の特定のデータセットが必要です。

モデルの作成とトレーニングで最も難しい側面の1つは、適切な量と種類の感情分析データセットを取得することです。 upGradでは、感情分析のプロジェクトを開始するのに役立つ10個のアクセス可能なデータセットのリストをまとめました。

ソース

感情分析データセット
- 1.スタンフォードセンチメントツリーバンク
- 2.IMDBムービーレビューデータセット
- 3.紙のレビューデータセット
- 4. Twitter US Airline Sentiment
- 5. Sentiment140
- 6.意見ランクレビューデータセット
- 7.Amazon製品データ
- 8.WordStatセンチメント辞書
- 9.81言語のセンチメントレキシコン
- 10. BagofWordsとBagofPopcornsの出会い
結論
感情分析に適したデータセットはどれですか？
感情分析が扱う一般的な課題は何ですか？
感情分析の精度をどのように高めることができますか？

感情分析データセット

1.スタンフォードセンチメントツリーバンク

共有したい感情分析の最初のデータセットは、StanfordSentimentTreebankです。データセットには、優れた映画レビューWebサイトであるRottenTomatoesのユーザーの感情が含まれています。

これには、ユーザーレビューを含むWebサイトのHTMLファイルからの10,000を超えるデータが含まれています。感情は1から25までの線形スケールで評価されます。1つが最も否定的であるのに対し、25は最も肯定的な感情です。データセットは無料でダウンロードでき、スタンフォード大学のWebサイトで見つけることができます。

2.IMDBムービーレビューデータセット

リストの2番目のデータセットは、IMDBMovieReviewsデータセットです。 IMDBからの25,000件のユーザーレビューがあります。データセットはバイナリに分類され、トレーニングとテストの目的で使用できる追加のラベルなしデータも含まれています。

データセットは、「LargeMovieReviewDataset」というラベルの付いたKaggleまたはStanfordのWebサイトからダウンロードできます。感情分析用のIMDBユーザーレビューデータセットを探している場合は、利用できるオプションがたくさんあります。目的や用途に合わせてお選びいただけます。

読む：機械学習プロジェクトに最適なデータセット

3.紙のレビューデータセット

Paper Reviewsデータセットには、コンピューティングに関する会議からの主にスペイン語と英語のレビューが含まれています。合計405個のインスタンス（N）があり、5段階で評価されます。行われた評価は次のとおりです。

-2：非常にネガティブ
-1：ネガティブ
0：ニュートラル
1：ポジティブ
2：非常にポジティブ

感情スコアは、紙に対するユーザーの意見を表します。データセットは、学術論文レビューの意見を予測するのに役立ちます。データセットは、カリフォルニア大学のWebサイトからダウンロードできます。

世界のトップ大学から人工知能コースを学びましょう。 マスター、エグゼクティブPGP、または高度な証明書プログラムを取得して、キャリアを迅速に追跡します。

4. Twitter US Airline Sentiment

Twitter US Airline Sentimentデータセットには、その名前が示すように、重要な米国の航空会社に関連するユーザーエクスペリエンスのツイートが含まれています。データセットには2015年2月以降のツイートが含まれており、ポジティブ、ネガティブ、またはニュートラルに分類されます。

データセットには、TwitterユーザーID、航空会社名、ツイートの日時、航空会社のネガティブな体験などの情報が含まれています。データセットはKaggleからダウンロードできます。

5. Sentiment140

感情分析用のSentiment140データセットは、ソーシャルメディアプラットフォームTwitterでのユーザーツイートを通じて、さまざまな製品、ブランド、またはトピックに対するユーザーの応答を分析するために使用されます。データセットはTwitterAPIを使用して収集され、約160,000件のツイートが含まれていました。データは6つのフィールドに分類されます。

ツイートの極性（0 =負、2 =ニュートラル、4 =正）
ツイートのID
ツイートの日付
クエリ
Twitterユーザー
ツイートに含まれるテキストデータ

データセットは、Sentiment140またはStanfordのWebサイトからダウンロードできます。データセットは、ブランド管理、ポーリング、および購入計画の目的に役立ちます。

読む：感情分析のトップ4タイプと使用場所

6.意見ランクレビューデータセット

感情分析用のOpin-Rankレビューデータセットには、車とホテルに関する約300,000件のユーザーレビューが含まれています。データセットは、エドモンズ（車）やトリップアドバイザー（ホテル）などのウェブサイトから収集されたユーザーレビューで構成されています。

データセットの大部分には、トリップアドバイザーからの完全なレビュー、約2,59,000が含まれています。エドモンズのユーザーレビューは約42,230です。いくつか例を挙げると、ドバイ、シカゴ、ラスベガス、デリーなど、世界中の10の異なる都市にあるホテルの包括的なレビューがあります。データフィールドには、日付、レビュータイトル、および完全なレビューが含まれます。

同様に、2007年から2009年までの車のモデルのエドマンドからの車のレビューがあります。レビューデータには、日付、著者名、お気に入り、および完全なレポートが含まれます。データセットは、GitHubWebサイトからダウンロードできます。

7.Amazon製品データ

アマゾン製品データは、アマゾン製品の感情分析のためのはるかに大きなデータセットのサブセットです。スーパーセットには、1億4280万のAmazonレビューデータセットが含まれています。このサブセットは、スタンフォード大学のジュリアン・マコーリー教授によって利用可能になりました。

1996年5月から2014年7月まで、Amazonのさまざまなカテゴリにリストされている製品のユーザーレビューを提供します。ダウンロード可能な更新バージョン（2018年版）があります。 1996年5月から2018年10月までの2億3,310万件のユーザーレビューが含まれています。

古いデータセットはサンディエゴ大学のウェブサイトからダウンロードできますが、新しいデータセットはGitHubにあります。両方のデータセットには、いくつか例を挙げると、評価、価格、製品の説明、有用な投票などのデータポイントが含まれています。新しいデータセットには、技術的な詳細や同様の製品表などの追加データが含まれています。

8.WordStatセンチメント辞書

感情分析用のWordStat感情辞書データセットは、ハーバードIV辞書、回帰画像辞書、言語および単語数辞書からの肯定的な単語と否定的な単語を統合することによって設計されました。合わせて約15,000語のデータが含まれています。

データセットは否定を考慮して、ユーザーの感情をポジティブまたはネガティブに分類します。データセットは一般にダウンロードできます。ただし、許可なく商業目的で使用することはできません。データセットの最新バージョンは、ProvalisresearchのWebサイトからダウンロードできます。

また読む：トップMLデータセットプロジェクトのアイデア

9.81言語のセンチメントレキシコン

ソース

名前が示すように、81言語のSentiment Lexiconには、アフリカーンス語から英語、イディッシュ語までの合計81語のコンテキストデータが含まれています。データには、上記の言語の数に対する正および負のレキシコンが含まれています。このデータセットは、チャットボットなどの自然言語処理プロジェクトに取り組んでいるアナリストやデータサイエンティストに役立ちます。

読む： Pythonでチャットボットを作成する方法は？

10. BagofWordsとBagofPopcornsの出会い

感情分析の最後の、しかし重要なデータセットは、「言葉の袋がポップコーンの袋と出会う」です。ご想像のとおり、このデータセットは映画のユーザーの感情にも関連しています。 50,000件のIMDBレビューで構成されています。データセットは、ユーザーの感情に二項分類を使用します。特定の映画のIMDB評価が5未満の場合、感情スコアは0です。同様に、評価が7以上の場合、感情スコアは1です。Kaggleからデータセットをダウンロードできます。

チェックアウト： Pythonを使用した感情分析：ハンズオンガイド

結論

感情分析のための10の多様なデータセットをカバーするこのブログがお役に立てば幸いです。感情分析や、人工知能や機械学習などの関連テクノロジーについてさらに詳しく知りたい場合は、機械学習とAIコースのエグゼクティブPGプログラムを確認してください。

感情分析に適したデータセットはどれですか？

感情分析は、消費者向けまたは製品ベースのデータセットの両方で実行できます。消費者向けのデータセットは、一般的な満足度に関するイベントや状況、製品やブランド、さらには消費者が最近のイベントについてどのように感じているかについての消費者の考え方をキャプチャします。たとえば、消費者フィードバックサイトのデータセットを使用すると、調査を行って製品やサービスを確認できます。感情分析に利用できるデータセットはたくさんあります。それらのいくつかには、Twitter感情分析、Bing感情データセット、映画レビュー感情分類、IMDb感情分類などが含まれます。

感情分析が扱う一般的な課題は何ですか？

感情分析は、言語、統計、機械学習の手法を使用する必要があるドメインである意見マイニングに基づいています。意見は人によって異なりますが、社会的圧力、恐れ、時間の不足などにより、意見を表明しないことがよくあります。感情分析は解決策になる可能性がありますが、おおよその感情スコアしか提供しません。感情分析を使用して感情マイニングを行うことは困難です。これは、特定のテキストが1つの数字だけでなく、否定的または肯定的である理由を説明する必要があるためです。これが、これらの方法がうまく機能することはめったにない理由です。

感情分析の精度をどのように高めることができますか？

感情分析の精度を高めるには、文の感情を認識するのに役立つ感情レキシコンを定義する必要があります。感情レキシコンを使用すると、文に関連するすべての単語とそれに関連する感情スコアを含む、ある種の辞書を作成できます。感情レキシコンを取得するには、TwitterAPIを使用してツイートを取得できます。次に、自然言語処理を使用して、文の感情を見つけることができます。 NERを使用して感情を抽出することもできます。