10 อันดับชุดข้อมูลที่จัดตั้งขึ้นสำหรับการวิเคราะห์ความเชื่อมั่นในปี 2022

เผยแพร่แล้ว: 2021-01-08

การวิเคราะห์ความรู้สึกเป็นเทคนิคที่ใช้สำหรับการทำความเข้าใจอารมณ์และความรู้สึกของผู้คน โดยใช้การเรียนรู้ของเครื่อง เกี่ยวกับผลิตภัณฑ์หรือบริการเฉพาะ โมเดล การวิเคราะห์ความคิดเห็น ต้องการชุดข้อมูลที่เฉพาะเจาะจงในปริมาณมาก

แง่มุมที่ท้าทายที่สุดประการหนึ่งในการสร้างและฝึกอบรมโมเดลคือการได้มาซึ่งปริมาณและประเภทของชุดข้อมูลการวิเคราะห์ความคิดเห็นที่เหมาะสม ที่ upGrad เราได้รวบรวมรายการชุดข้อมูลสิบชุดที่สามารถเข้าถึงได้ ซึ่งสามารถช่วยคุณเริ่มต้นกับโครงการของคุณในการวิเคราะห์ความเชื่อมั่น

แหล่งที่มา

สารบัญ

ชุดข้อมูลการวิเคราะห์ความเชื่อมั่น

1. ธนาคารต้นไม้ความเชื่อมั่นของสแตนฟอร์ด

ชุดข้อมูล แรก สำหรับการวิเคราะห์ความเชื่อมั่น ที่เราต้องการแชร์คือ Stanford Sentiment Treebank ชุดข้อมูลประกอบด้วยความรู้สึกของผู้ใช้จาก Rotten Tomatoes ซึ่งเป็นเว็บไซต์วิจารณ์ภาพยนตร์ที่ยอดเยี่ยม

มีข้อมูลมากกว่า 10,000 ชิ้นจากไฟล์ HTML ของเว็บไซต์ที่มีบทวิจารณ์ของผู้ใช้ ความคิดเห็นจะให้คะแนนในระดับเชิงเส้นระหว่าง 1 ถึง 25 หนึ่งคือค่าลบมากที่สุด ในขณะที่ 25 คือค่าความเชื่อมั่นเชิงบวกมากที่สุด ชุดข้อมูลสามารถดาวน์โหลดได้ฟรี และคุณสามารถค้นหาได้จากเว็บไซต์ Stanford

2. ชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDB

ชุดข้อมูลที่สองในรายการของเราคือชุดข้อมูล IMDB Movie Reviews มีรีวิวจากผู้ใช้ 25,000 คนจาก IMDB ชุดข้อมูลจัดเป็นไบนารี และยังมีข้อมูลที่ไม่มีป้ายกำกับเพิ่มเติม ซึ่งสามารถนำไปใช้เพื่อการฝึกอบรมและการทดสอบ

ชุดข้อมูลพร้อมให้ดาวน์โหลดจากเว็บไซต์ Kaggle หรือ Stanford ซึ่งมีป้ายกำกับว่า 'ชุดข้อมูลรีวิวภาพยนตร์ขนาดใหญ่ หากคุณกำลังมองหา ชุดข้อมูล บทวิจารณ์ของผู้ใช้ IMDB สำหรับการวิเคราะห์ ความ คิดเห็น มีตัวเลือกมากมายให้เลือก คุณสามารถเลือกหนึ่งรายการตามวัตถุประสงค์และการใช้งานของคุณ

อ่าน: ชุดข้อมูลที่ดีที่สุดสำหรับโปรเจ็กต์การเรียนรู้ของเครื่อง

3. กระดาษรีวิวชุดข้อมูล

ชุดข้อมูล Paper Reviews ประกอบด้วยบทวิจารณ์ส่วนใหญ่เป็นภาษาสเปนและอังกฤษจากการประชุมเกี่ยวกับคอมพิวเตอร์ มีทั้งหมด 405 อินสแตนซ์ (N) ซึ่งประเมินด้วยมาตราส่วน 5 จุด การประเมินเสร็จสิ้นมีดังนี้:

  • -2: เชิงลบมาก
  • -1: เชิงลบ
  • 0: เป็นกลาง
  • 1: บวก
  • 2: เป็นบวกมาก

คะแนนความเชื่อมั่นแสดงความคิดเห็นของผู้ใช้เกี่ยวกับบทความ ชุดข้อมูลนี้มีประโยชน์ในการทำนายความคิดเห็นของบทวิจารณ์ทางวิชาการ ชุดข้อมูลสามารถดาวน์โหลดได้จากเว็บไซต์ของมหาวิทยาลัยแคลิฟอร์เนีย

เรียนรู้ หลักสูตรปัญญาประดิษฐ์ จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

4. Twitter US Airline Sentiment

ชุดข้อมูลความเชื่อมั่นของสายการบินสหรัฐฯ ของ Twitter ตามชื่อมีทวีตเกี่ยวกับประสบการณ์ของผู้ใช้ที่เกี่ยวข้องกับสายการบินรายใหญ่ของสหรัฐฯ ชุดข้อมูลนี้รวมทวีตตั้งแต่เดือนกุมภาพันธ์ 2015 และจัดอยู่ในประเภทเชิงบวก เชิงลบ หรือเป็นกลาง

ชุดข้อมูลประกอบด้วยข้อมูลต่างๆ เช่น ID ผู้ใช้ Twitter ชื่อสายการบิน วันที่และเวลาที่ทวีต และประสบการณ์เชิงลบของสายการบิน ชุดข้อมูลสามารถดาวน์โหลดได้จาก Kaggle

5. ความรู้สึก140

ชุดข้อมูล Sentiment140 สำหรับการวิเคราะห์ความเชื่อมั่น ใช้เพื่อวิเคราะห์การตอบสนองของผู้ใช้ต่อผลิตภัณฑ์ แบรนด์ หรือหัวข้อต่างๆ ผ่านทวีตของผู้ใช้บนแพลตฟอร์มโซเชียลมีเดีย Twitter ชุดข้อมูลถูกรวบรวมโดยใช้ Twitter API และมีทวีตประมาณ 1,60,000 ทวีต ข้อมูลถูกจัดเรียงเป็นหกฟิลด์

  • ขั้วของทวีต (0 = ลบ, 2 = เป็นกลาง, 4 = บวก)
  • ID ของทวีต
  • วันที่ทวีต
  • แบบสอบถาม
  • ผู้ใช้ทวิตเตอร์
  • ข้อความที่มีอยู่ในทวีต

สามารถดาวน์โหลดชุดข้อมูลได้จากเว็บไซต์ของ Sentiment140 หรือ Stanford ชุดข้อมูลนี้มีประโยชน์สำหรับวัตถุประสงค์ในการจัดการแบรนด์ การสำรวจความคิดเห็น และการวางแผนการซื้อ

อ่าน: การวิเคราะห์ความเชื่อมั่น 4 ประเภทยอดนิยม & สถานที่ใช้งาน

6. ชุดข้อมูลรีวิวอันดับความคิดเห็น

ชุดข้อมูล บทวิจารณ์อันดับความคิดเห็น สำหรับการวิเคราะห์ความเชื่อมั่น ประกอบด้วยบทวิจารณ์ของผู้ใช้ประมาณ 3,00,000 รายการเกี่ยวกับรถยนต์และโรงแรม ชุดข้อมูลประกอบด้วยบทวิจารณ์ของผู้ใช้ที่รวบรวมจากเว็บไซต์ เช่น Edmunds (รถยนต์) และ TripAdvisor (โรงแรม)

ชุดข้อมูลส่วนใหญ่มีรีวิวฉบับสมบูรณ์จาก TripAdvisor ประมาณ 2,59,000 รายการ บทวิจารณ์ของผู้ใช้ Edmunds อยู่ที่ประมาณ 42,230 มีรีวิวโรงแรมใน 10 เมืองทั่วโลกอย่างครอบคลุม เช่น ดูไบ ชิคาโก ลาสเวกัส และเดลี เป็นต้น ฟิลด์ข้อมูลประกอบด้วยวันที่ ชื่อบทวิจารณ์ และบทวิจารณ์ฉบับเต็ม

มีรีวิวรถยนต์จาก Edmund รุ่นต่างๆ ตั้งแต่ปี 2550 – 2552 ข้อมูลรีวิวประกอบด้วยวันที่ ชื่อผู้แต่ง รายการโปรด และรายงานฉบับเต็ม ชุดข้อมูลสามารถดาวน์โหลดได้จากเว็บไซต์ GitHub

7. ข้อมูลผลิตภัณฑ์อเมซอน

ข้อมูลผลิตภัณฑ์ Amazon เป็นชุดย่อยของ ชุดข้อมูลขนาดใหญ่กว่ามากสำหรับการวิเคราะห์ความเชื่อมั่น ของผลิตภัณฑ์ Amazon superset ประกอบด้วยชุดข้อมูลการตรวจสอบของ Amazon 142.8 ล้านชุด ชุดย่อยนี้จัดทำโดยศาสตราจารย์ Julian McAuley แห่งสแตนฟอร์ด

โดยให้ความเห็นจากผู้ใช้ตั้งแต่เดือนพฤษภาคม พ.ศ. 2539 ถึงเดือนกรกฎาคม พ.ศ. 2557 สำหรับผลิตภัณฑ์ที่อยู่ในหมวดหมู่ต่างๆ ใน ​​Amazon มีเวอร์ชันอัปเดต (รุ่น 2018) ให้ดาวน์โหลด มีรีวิวจากผู้ใช้ 233.1 ล้านคนตั้งแต่เดือนพฤษภาคม 2539 ถึงต.ค. 2561

สามารถดาวน์โหลดชุดข้อมูลเก่าได้จากเว็บไซต์ของ University of San Diego ในขณะที่ชุดข้อมูลใหม่มีอยู่ใน GitHub ชุดข้อมูลทั้งสองมีจุดข้อมูล เช่น การให้คะแนน ราคา รายละเอียดผลิตภัณฑ์ และการโหวตที่เป็นประโยชน์ เป็นต้น ชุดข้อมูลใหม่นี้มีข้อมูลเพิ่มเติม เช่น รายละเอียดทางเทคนิคและตารางผลิตภัณฑ์ที่คล้ายกัน

8. พจนานุกรมความเชื่อมั่นของ WordStat

ชุดข้อมูล WordStat Sentiment Dictionary สำหรับการวิเคราะห์ความรู้สึก ได้รับการออกแบบโดยการรวมคำที่เป็นบวกและลบจากพจนานุกรม Harvard IV, Regressive Imagery Dictionary และพจนานุกรม Linguistic และ Word Count ประกอบด้วยข้อมูลประมาณ 15,000 คำรวมกัน

ชุดข้อมูลคำนึงถึงการปฏิเสธเพื่อจัดประเภทความเชื่อมั่นของผู้ใช้เป็นบวกหรือลบ ชุดข้อมูลพร้อมให้ดาวน์โหลดแบบสาธารณะ อย่างไรก็ตาม คุณไม่สามารถใช้เพื่อวัตถุประสงค์ทางการค้าโดยไม่ได้รับอนุญาต คุณสามารถดาวน์โหลดชุดข้อมูลเวอร์ชันล่าสุดได้จากเว็บไซต์ของ Provalisresearch

อ่านเพิ่มเติม: แนวคิดโปรเจ็กต์ชุดข้อมูล ML ยอดนิยม

9. คำศัพท์เกี่ยวกับความรู้สึก 81 ภาษา

แหล่งที่มา

ตามชื่อที่แนะนำ Sentiment Lexicon สำหรับ 81 ภาษาประกอบด้วยข้อมูลเชิงบริบทจากภาษาแอฟริกันเป็นภาษาอังกฤษเป็นภาษายิดดิช รวมเป็น 81 คำ ข้อมูลรวมถึงคำศัพท์เชิงบวกและเชิงลบสำหรับจำนวนภาษาที่กล่าวถึงข้างต้น ชุดข้อมูลนี้มีประโยชน์สำหรับนักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลที่ทำงานในโครงการประมวลผลภาษาธรรมชาติ เช่น แชทบอท

อ่าน: จะสร้าง chatbot ใน Python ได้อย่างไร

10. ถุงคำพูดตรงถุงป๊อปคอร์น

ชุดข้อมูล สุดท้ายแต่ไม่ท้ายสุด สำหรับการวิเคราะห์ความเชื่อมั่น คือ 'ถุงคำพูดและถุงป๊อปคอร์น' อย่างที่คุณอาจเดาได้ ชุดข้อมูลนี้เกี่ยวข้องกับความรู้สึกของผู้ใช้ที่มีต่อภาพยนตร์ด้วย ประกอบด้วยบทวิจารณ์ IMDB 50,000 รายการ ชุดข้อมูลใช้การจัดประเภทไบนารีสำหรับความคิดเห็นของผู้ใช้ หากการจัดประเภท IMDB น้อยกว่า 5 สำหรับภาพยนตร์เรื่องใดเรื่องหนึ่ง คะแนนความเชื่อมั่นจะเป็น 0 ในทำนองเดียวกัน หากการจัดประเภทมากกว่าหรือเท่ากับ 7 คะแนนความพึงพอใจจะเป็น 1 คุณสามารถดาวน์โหลดชุดข้อมูลได้จาก Kaggle

เช็คเอาท์: การวิเคราะห์ความเชื่อมั่นโดยใช้ Python: คู่มือปฏิบัติจริง

บทสรุป

เราหวังว่าบล็อกนี้ครอบคลุมชุดข้อมูล 10 ชุดสำหรับการวิเคราะห์ความเชื่อมั่นจะช่วยคุณได้ หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิเคราะห์ความรู้สึกและเทคโนโลยีที่เกี่ยวข้อง เช่น ปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง คุณสามารถตรวจสอบหลักสูตร Executive PG ของเรา ใน หลักสูตร การเรียนรู้ของเครื่องและ AI

ชุดข้อมูลใดที่เหมาะกับการวิเคราะห์ความเชื่อมั่น

การวิเคราะห์ความเชื่อมั่นสามารถทำได้ทั้งบนหน้าผู้บริโภคหรือชุดข้อมูลตามผลิตภัณฑ์ ชุดข้อมูลที่ผู้บริโภคเผชิญอยู่จะจับความคิดของผู้บริโภคเกี่ยวกับเหตุการณ์หรือสถานการณ์ ผลิตภัณฑ์หรือแบรนด์โดยคำนึงถึงความพึงพอใจโดยทั่วไป หรือแม้แต่ความรู้สึกที่ผู้บริโภคมีต่อเหตุการณ์ล่าสุด ตัวอย่างเช่น ชุดข้อมูลจากเว็บไซต์คำติชมของผู้บริโภคที่อนุญาตให้คุณทำแบบสำรวจและตรวจทานผลิตภัณฑ์หรือบริการ มีชุดข้อมูลมากมายสำหรับการวิเคราะห์ความเชื่อมั่น บางส่วน ได้แก่ การวิเคราะห์ความคิดเห็นของ Twitter, ชุดข้อมูลความเชื่อมั่นของ Bing, การจัดประเภทความคิดเห็นของบทวิจารณ์ภาพยนตร์, การจัดประเภทความคิดเห็นของ IMDb เป็นต้น

อะไรคือความท้าทายทั่วไปที่เกี่ยวข้องกับการวิเคราะห์ความเชื่อมั่น?

การวิเคราะห์ความรู้สึกขึ้นอยู่กับการทำเหมืองความคิดเห็น ซึ่งเป็นโดเมนที่ต้องใช้วิธีการทางภาษา สถิติ และการเรียนรู้ของเครื่อง ผู้คนมีความคิดเห็นที่แตกต่างกัน แต่มักไม่แสดงความคิดเห็นเนื่องจากแรงกดดันทางสังคม ความกลัว และการขาดเวลา การวิเคราะห์ความคิดเห็นอาจเป็นวิธีแก้ปัญหา แต่ให้คะแนนความคิดเห็นโดยประมาณเท่านั้น การใช้การวิเคราะห์ความเชื่อมั่นในการทำเหมืองความรู้สึกเป็นสิ่งที่ท้าทาย เพราะเราต้องอธิบายว่าทำไมข้อความบางข้อความถึงเป็นค่าลบหรือบวก และไม่ใช่แค่ตัวเลขเดียว นี่คือเหตุผลที่วิธีการเหล่านี้ไม่ค่อยได้ผลดีนัก

คุณจะเพิ่มความแม่นยำของการวิเคราะห์ความเชื่อมั่นได้อย่างไร

เพื่อเพิ่มความแม่นยำของการวิเคราะห์ความรู้สึก คุณต้องกำหนดพจนานุกรมเกี่ยวกับความรู้สึกซึ่งจะช่วยคุณในการจดจำความรู้สึกของประโยค คำศัพท์เกี่ยวกับความรู้สึกช่วยให้คุณพัฒนาพจนานุกรมบางประเภทที่มีคำที่เกี่ยวข้องทั้งหมดในประโยคและคะแนนความรู้สึกที่เกี่ยวข้อง ในการรับศัพท์เกี่ยวกับความรู้สึก คุณสามารถใช้ Twitter API เพื่อรับทวีตได้ จากนั้นคุณสามารถใช้การประมวลผลภาษาธรรมชาติเพื่อค้นหาความรู้สึกของประโยค คุณยังสามารถใช้ NER เพื่อดึงความรู้สึก