2022 年 10 大已建立的情緒分析數據集

已發表: 2021-01-08

情緒分析是在機器學習的幫助下，用於了解人們對特定產品或服務的情緒和感受的技術。情感分析模型需要大量的特定數據集。

創建和訓練模型最具挑戰性的方面之一是獲取正確數量和類型的情感分析數據集。在upGrad ，我們編制了一份包含十個可訪問數據集的列表，這些數據集可以幫助您開始進行情緒分析項目。

資源

情緒分析數據集

1. 斯坦福情緒樹庫

我們想分享的第一個情緒分析數據集是斯坦福情緒樹庫。該數據集包含來自 Rotten Tomatoes 的用戶情緒，這是一個很棒的電影評論網站。

它包含來自包含用戶評論的網站的 HTML 文件的 10,000 多條數據。情緒在 1 到 25 之間的線性標度上進行評級。1 是最負面的，而 25 是最積極的情緒。該數據集可免費下載，您可以在斯坦福網站上找到它。

2. IMDB 電影評論數據集

我們列表中的第二個數據集是 IMDB 電影評論數據集。它有 25,000 條來自 IMDB 的用戶評論。該數據集被分類為二進制，還包含可用於訓練和測試目的的其他未標記數據。

該數據集可從 Kaggle 或斯坦福網站下載，標記為“大型電影評論數據集”。如果您正在尋找用於情緒分析的 IMDB 用戶評論數據集，有很多可用選項。您可以根據自己的目的和用途選擇一種。

閱讀：機器學習項目的最佳數據集

3.論文評論數據集

Paper Review 數據集包含來自計算會議的主要西班牙語和英語評論。它共有 405 個實例 (N)，採用 5 分制進行評估。進行的評估如下：

-2：非常消極
-1：負
0：中性
1：正面
2：非常積極

情緒分數表達了用戶對論文的看法。該數據集可用於預測學術論文評論的意見。該數據集可從加州大學網站下載。

向世界頂尖大學學習人工智能課程。 獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。

4. Twitter 美國航空公司情緒

顧名思義，Twitter 美國航空公司情緒數據集包含與美國重要航空公司相關的用戶體驗推文。該數據集包括自 2015 年 2 月以來的推文，分為正面、負面或中性。

該數據集包含 Twitter 用戶 ID、航空公司名稱、推文的日期和時間以及航空公司的負面體驗等信息。該數據集可從 Kaggle 下載。

5. 情緒140

用於情感分析的 Sentiment140數據集用於分析用戶通過社交媒體平台 Twitter 上的用戶推文對不同產品、品牌或主題的反應。該數據集是使用 Twitter API 收集的，包含大約 1,60,000 條推文。數據分為六個字段；

推文的極性（0 = 負，2 = 中性，4 = 正）
推文ID
推文的日期
查詢
推特用戶
推文中包含的文本數據

該數據集可以從 Sentiment140 或斯坦福的網站下載。該數據集可用於品牌管理、投票和購買計劃。

閱讀：情緒分析的前 4 種類型以及在哪裡使用

6. Opin-Rank 審查數據集

用於情感分析的 Opin-Rank 評論數據集包含大約 3,00,000 條關於汽車和酒店的用戶評論。該數據集包括從 Edmunds（汽車）和 TripAdvisor（酒店）等網站收集的用戶評論。

大部分數據集包含來自 TripAdvisor 的完整評論，大約 2,59,000 條。 Edmunds 的用戶評論約為 42,230。對全球 10 個不同城市的酒店進行了綜合評價，例如迪拜、芝加哥、拉斯維加斯和德里等。數據字段包括日期、評論標題和完整評論。

同樣，Edmund 對 2007 年至 2009 年的車型進行了汽車評論。評論數據包括日期、作者姓名、收藏夾和完整報告。該數據集可從 GitHub 網站下載。

7.亞馬遜產品數據

亞馬遜產品數據是用於亞馬遜產品情緒分析的更大數據集的子集。該超集包含一個 1.428 億個亞馬遜評論數據集。該子集由斯坦福大學教授 Julian McAuley 提供。

它提供從 1996 年 5 月到 2014 年 7 月期間在亞馬遜上列出的各種類別的產品的用戶評論。有一個更新版本（2018 版）可供下載。從 1996 年 5 月到 2018 年 10 月，它包含 2.331 億條用戶評論。

舊數據集可以從聖地亞哥大學網站下載，而新數據集可以在 GitHub 上找到。這兩個數據集都包含諸如評級、價格、產品描述和有用的投票等數據點，僅舉幾例。新數據集包含附加數據，例如技術細節和類似產品表。

8. WordStat 情感詞典

用於情感分析的 WordStat Sentiment Dictionary數據集是通過整合哈佛 IV 詞典、回歸圖像詞典以及語言和字數詞典中的正面和負面詞而設計的。它包含大約 15,000 個單詞的數據組合。

該數據集考慮了否定來將用戶情緒分類為正面或負面。該數據集可供公眾下載。但是，未經授權，您不得將其用於商業目的。您可以從 Provalisresearch 的網站下載最新版本的數據集。

另請閱讀：頂級 ML 數據集項目創意

9. 81 種語言的情感詞典

資源

顧名思義，81 種語言的情感詞典包含從南非荷蘭語到英語到意第緒語的上下文數據，總共 81 個單詞。數據包括上述語言數量的正面和負面詞典。該數據集對於從事自然語言處理項目（如聊天機器人）的分析師和數據科學家非常有用。

閱讀：如何用 Python 製作聊天機器人？

10. 詞袋遇上爆米花袋

最後但並非最不重要的情感分析數據集是“詞袋與爆米花袋”。你可能已經猜到了，這個數據集也與用戶對電影的情緒有關。它由 50,000 條 IMDB 評論組成。該數據集對用戶情緒使用二元分類。如果特定電影的 IMDB 評分小於 5，則情緒評分為 0。同樣，如果評分大於或等於 7，則情緒評分為 1。您可以從 Kaggle 下載數據集。

查看：使用 Python 進行情緒分析：動手指南

結論

我們希望這篇涵蓋十個不同的情感分析數據集的博客對您有所幫助。如果您對學習情感分析和相關技術（例如人工智能和機器學習）進一步感興趣，您可以查看我們的機器學習和人工智能課程中的執行 PG 計劃。

什麼數據集適合情感分析？

情感分析可以在面向消費者或基於產品的數據集上進行。面向消費者的數據集將捕獲消費者對事件或情況、產品或品牌的總體滿意度，甚至消費者對最近事件的感受的心態。例如，來自消費者反饋網站的數據集，允許您進行調查並查看產品或服務。有許多數據集可用於情緒分析。其中一些包括 Twitter 情感分析、Bing 情感數據集、電影評論情感分類、IMDb 情感分類等。

情緒分析處理的常見挑戰是什麼？

情感分析基於意見挖掘，這是一個需要使用語言、統計和機器學習方法的領域。人們有不同的意見，但由於社會壓力、恐懼和缺乏時間，他們往往不發表意見。情感分析可以是一個解決方案，但它只提供一個近似的情感分數。使用情感分析進行情感挖掘具有挑戰性，因為我們需要解釋為什麼某個文本是負面或正面的，而不僅僅是一個數字。這就是為什麼這些方法很少能很好地工作的原因。

如何提高情緒分析的準確性？

為了提高情感分析的準確性，您必須定義一個情感詞典，以幫助您識別句子的情感。情感詞典允許您開發某種字典，其中包含句子中的所有相關單詞以及與之相關的情感分數。要獲取情感詞典，您可以使用 Twitter API 獲取推文。然後您可以使用自然語言處理來查找句子的情緒。您還可以使用 NER 來提取情緒。