ทฤษฎีบทเบย์อธิบายพร้อมตัวอย่าง – คู่มือฉบับสมบูรณ์

เผยแพร่แล้ว: 2021-06-14

สารบัญ

บทนำ

ทฤษฎีบทเบย์คืออะไร?

ทฤษฎีบทของเบย์ใช้สำหรับการคำนวณความน่าจะเป็นแบบมีเงื่อนไขซึ่งสัญชาตญาณมักจะล้มเหลว แม้ว่าจะใช้กันอย่างแพร่หลายในความน่าจะเป็น แต่ทฤษฎีบทก็ถูกนำไปใช้ในด้านการเรียนรู้ของเครื่องด้วย การใช้งานในการเรียนรู้ของเครื่องรวมถึงการปรับโมเดลเข้ากับชุดข้อมูลการฝึกอบรมและการพัฒนาโมเดลการจัดหมวดหมู่

ความน่าจะเป็นแบบมีเงื่อนไขคืออะไร?

ความน่าจะเป็นแบบมีเงื่อนไขมักจะถูกกำหนดให้เป็นความน่าจะเป็นของเหตุการณ์หนึ่งเมื่อเกิดเหตุการณ์อื่น

  • ถ้า A และ B เป็นสองเหตุการณ์ ความน่าจะเป็นแบบมีเงื่อนไขของฉันจะถูกกำหนดให้เป็น P(A ที่กำหนด B) หรือ P(A|B)
  • ความน่าจะเป็นแบบมีเงื่อนไขสามารถคำนวณได้จากความน่าจะเป็นร่วมกัน (A | B) = P(A, B) / P(B)
  • ความน่าจะเป็นแบบมีเงื่อนไขไม่สมมาตร ตัวอย่างเช่น P(A | B) != P(B | A)

วิธีอื่นๆ ในการคำนวณความน่าจะเป็นแบบมีเงื่อนไขรวมถึงการใช้ความน่าจะเป็นแบบมีเงื่อนไขอื่นๆ เช่น

P(A|B) = P(B|A) * P(A) / P(B)

ย้อนกลับยังใช้

P(B|A) = P(A|B) * P(B) / P(A)

วิธีการคำนวณนี้มีประโยชน์เมื่อยากต่อการคำนวณความน่าจะเป็นร่วม มิฉะนั้น เมื่อมีความน่าจะเป็นแบบมีเงื่อนไขย้อนกลับ การคำนวณด้วยวิธีนี้จะกลายเป็นเรื่องง่าย

การคำนวณความน่าจะเป็นแบบมีเงื่อนไขแบบอื่นนี้เรียกว่า Bayes Rule หรือ Bayes Theorem มันถูกตั้งชื่อตามบุคคลที่บรรยายครั้งแรกว่า “สาธุคุณโธมัส เบย์”

สูตรของทฤษฎีบทเบย์

ทฤษฎีบทเบย์เป็นวิธีการคำนวณความน่าจะเป็นแบบมีเงื่อนไขเมื่อไม่มีความน่าจะเป็นร่วมกัน บางครั้ง ตัวส่วนไม่สามารถเข้าถึงได้โดยตรง ในกรณีเช่นนี้ วิธีอื่นในการคำนวณคือ:

P(B) = P(B|A) * P(A) + P(B|ไม่ใช่ A) * P(ไม่ใช่ A)

นี่คือสูตรของทฤษฎีบทเบย์ซึ่งแสดงการคำนวณอื่นของ P(B)

P(A|B) = P(B|A) * P(A) / P(B|A) * P(A) + P(B|ไม่ใช่ A) * P(ไม่ใช่ A)

สูตรข้างต้นสามารถอธิบายได้ด้วยวงเล็บรอบตัวส่วน

P(A|B) = P(B|A) * P(A) / (P(B|A) * P(A) + P(B|ไม่ใช่ A) * P(ไม่ใช่ A))

นอกจากนี้ หากเรามี P(A) แล้ว P(ไม่ใช่ A) ก็สามารถคำนวณได้เป็น

P(ไม่ใช่ A) = 1 – P(A)

ในทำนองเดียวกัน ถ้าเรามี P(ไม่ใช่ B|ไม่ใช่ A) ก็สามารถคำนวณ P(B|ไม่ใช่ A) ได้เป็น

P(B|ไม่ใช่ A) = 1 – P(ไม่ใช่ B|ไม่ใช่ A)

ทฤษฎีบทเบย์ของความน่าจะเป็นแบบมีเงื่อนไข

ทฤษฎีบทเบย์ประกอบด้วยคำศัพท์หลายคำซึ่งมีการตั้งชื่อตามบริบทของการประยุกต์ใช้ในสมการ

ความน่าจะเป็นหลังหมายถึงผลลัพธ์ของ P(A|B) และความน่าจะเป็นก่อนหน้าหมายถึง P(A)

  • P(A|B): ความน่าจะเป็นภายหลัง
  • P(A): ความน่าจะเป็นก่อนหน้า

ในทำนองเดียวกัน P(B|A) และ P(B) จะเรียกว่าความน่าจะเป็นและหลักฐาน

  • P(B|A): ความน่าจะเป็น
  • P(B): หลักฐาน.

ดังนั้น ทฤษฎีบทเบย์ของความน่าจะเป็นแบบมีเงื่อนไขสามารถปรับปรุงใหม่ได้ดังนี้:

หลัง = โอกาส * ก่อนหน้า / หลักฐาน

หากเราต้องคำนวณความน่าจะเป็นที่จะมีไฟเนื่องจากมีควัน เราจะใช้สมการต่อไปนี้:

P(ไฟ|ควัน) = P(ควัน|ไฟ) * P(ไฟ) / P(ควัน)

โดยที่ P(ไฟ) มาก่อน P(ควัน|ไฟ) คือความน่าจะเป็น และ P(ควัน) เป็นหลักฐาน

ภาพประกอบของทฤษฎีบทเบย์

มีการ อธิบาย ตัวอย่าง ทฤษฎีบทเบย์ เพื่อแสดงการใช้ทฤษฎีบทเบย์ในปัญหา

ปัญหา

มีกล่องสามกล่องที่มีข้อความว่า A B และ C รายละเอียดของกล่องคือ

  • กล่อง A ประกอบด้วยลูกบอลสีแดง 2 ลูกและสีดำ 3 ลูก
  • กล่อง B ประกอบด้วยลูกบอลสีแดง 3 ลูกและสีดำ 1 ลูก
  • และกล่อง C ประกอบด้วยลูกบอลสีแดง 1 ลูกและลูกบอลสีดำ 4 ลูก

ทั้งสามกล่องเหมือนกันโดยมีความน่าจะเป็นเท่ากันที่จะหยิบขึ้นมา ดังนั้นความน่าจะเป็นที่ลูกบอลสีแดงถูกหยิบขึ้นมาจากกล่อง A เป็นเท่าไหร่?

สารละลาย

ให้ E หมายถึงเหตุการณ์ที่หยิบลูกบอลสีแดง และ A, B และ C แสดงว่าหยิบลูกบอลจากกล่องของตน ดังนั้นความน่าจะเป็นแบบมีเงื่อนไขจะเป็น P(A|E) ซึ่งจำเป็นต้องคำนวณ

ความน่าจะเป็นที่มีอยู่ P(A) = P(B) = P (C) = 1 / 3 เนื่องจากกล่องทั้งหมดมีความน่าจะเป็นที่จะถูกหยิบเท่ากัน

P(E|A) = จำนวนลูกสีแดงในกล่อง A / จำนวนลูกในกล่อง A = 2 / 5

ในทำนองเดียวกัน P(E|B) = 3 / 4 และ P(E|C) = 1 / 5

จากนั้นหลักฐาน P(E) = P(E|A)*P(A) + P(E|B)*P(B) + P(E|C)*P(C)

= (2/5) * (1/3) + (3/4) * (1/3) + (1/5) * (1/3) = 0.45

ดังนั้น P(A|E) = P(E|A) * P(A) / P(E) = (2/5) * (1/3) / 0.45 = 0.296

ตัวอย่างทฤษฎีบทเบย์

ทฤษฎีบทเบย์ให้ความน่าจะเป็นของ "เหตุการณ์" ด้วยข้อมูลที่กำหนดใน "การทดสอบ"

  • มีความแตกต่างระหว่าง "เหตุการณ์" และ "การทดสอบ" เช่น มีการทดสอบโรคตับที่แตกต่างจากการเป็นโรคตับจริง ๆ คือ เหตุการณ์
  • เหตุการณ์ที่เกิดขึ้นได้ยากอาจมีอัตราการบวกลวงที่สูงกว่า

ตัวอย่างที่ 1

ความน่าจะเป็นที่ผู้ป่วยจะเป็นโรคตับหากติดสุราเป็นเท่าใด

ในที่นี้ “การเป็นคนติดเหล้า” คือ “การทดสอบ” (การทดสอบสารสีน้ำเงิน) สำหรับโรคตับ

  • A คือเหตุการณ์เช่น "ผู้ป่วยเป็นโรคตับ"

ตามบันทึกก่อนหน้านี้ของคลินิกระบุว่า 10% ของผู้ป่วยที่เข้าคลินิกกำลังเป็นโรคตับ

ดังนั้น P(A)=0.10

  • B คือการทดสอบสารสีน้ำเงินว่า "ผู้ป่วยติดสุรา"

บันทึกก่อนหน้านี้ของคลินิกพบว่า 5% ของผู้ป่วยที่เข้าคลินิกมีแอลกอฮอล์

ดังนั้น P(B)=0.05

  • นอกจากนี้ 7% ของผู้ป่วยที่ได้รับการวินิจฉัยว่าเป็นโรคตับ เป็นผู้ติดสุรา ค่านี้กำหนด B|A: ความน่าจะเป็นของผู้ป่วยที่ติดสุรา เนื่องจากมีโรคตับอยู่ที่ 7%

ตาม สูตรทฤษฎีบทเบ ย์

P(A|B) = (0.07 * 0.1)/0.05 = 0.14

ดังนั้นสำหรับผู้ป่วยที่ติดสุรา โอกาสในการเป็นโรคตับอยู่ที่ 0.14 (14%)

ตัวอย่าง2

  • ไฟอันตรายหายาก (1%)
  • แต่ควันเป็นเรื่องปกติธรรมดา (10%) เนื่องจากบาร์บีคิว
  • และ 90% ของไฟอันตรายทำให้เกิดควัน

ความน่าจะเป็นที่จะเกิดอัคคีภัยเมื่อมีควันเป็นเท่าใด

การคำนวณ

P(ไฟ|ควัน) =P(ไฟ) P(ควัน|ไฟ)/P(ควัน)

= 1% x 90%/10%

= 9%

ตัวอย่างที่ 3

โอกาสที่ฝนตกในตอนกลางวันเป็นอย่างไร? โดยที่ Rain หมายถึงฝนตกในตอนกลางวัน และ Cloud หมายถึงตอนเช้ามีเมฆมาก

โอกาสที่ฝนจะตกมีเมฆเขียนว่า P(ฝน|เมฆ)

P(ฝน|เมฆ) = P(ฝน) P(เมฆ|ฝน)/P(เมฆ)

P(ฝน) คือ ความน่าจะเป็นของฝน = 10%

P(Cloud|Rain) คือ ความน่าจะเป็นของเมฆ โดยที่ Rain เกิดขึ้น = 50%

P(Cloud) คือความน่าจะเป็นของคลาวด์ = 40%

P(ฝน|เมฆ) = 0.1 x 0.5/0.4 = .125

ดังนั้น มีโอกาสเกิดฝน 12.5%

แอปพลิเคชั่น

การประยุกต์ใช้ทฤษฎีบท Bayes หลายอย่างมีอยู่ในโลกแห่งความเป็นจริง การใช้งานหลักบางประการของทฤษฎีบทคือ:

1. การสร้างแบบจำลองสมมติฐาน

ทฤษฎีบท Bayes พบการประยุกต์ใช้อย่างกว้างขวางในการเรียนรู้ของเครื่องที่นำไปใช้ และสร้างความสัมพันธ์ระหว่างข้อมูลกับแบบจำลอง แมชชีนเลิร์นนิงประยุกต์ใช้กระบวนการทดสอบและวิเคราะห์สมมติฐานต่างๆ ในชุดข้อมูลที่กำหนด

เพื่ออธิบายความสัมพันธ์ระหว่างข้อมูลกับแบบจำลอง ทฤษฎีบทเบย์ได้จัดเตรียมแบบจำลองความน่าจะเป็น

P(h|D) = P(D|h) * P(h) / P(D)

ที่ไหน,

P(h|D): ความน่าจะเป็นหลังของสมมติฐาน

P(h): ความน่าจะเป็นก่อนหน้าของสมมติฐาน

การเพิ่มขึ้นของ P(D) จะทำให้ค่า P(h|D) ลดลง ในทางกลับกัน หาก P(h) และความน่าจะเป็นของการสังเกตข้อมูลที่ให้สมมติฐานเพิ่มขึ้น ความน่าจะเป็นของ P(h|D) จะเพิ่มขึ้น

2. ทฤษฎีบทเบย์สำหรับการจำแนกประเภท

วิธีการจัดประเภทเกี่ยวข้องกับการติดฉลากของข้อมูลที่กำหนด สามารถกำหนดเป็นการคำนวณความน่าจะเป็นแบบมีเงื่อนไขของป้ายชื่อคลาสที่ได้รับตัวอย่างข้อมูล

P(คลาส|ข้อมูล) = (P(ข้อมูล|คลาส) * P(คลาส)) / P(ข้อมูล)

โดยที่ P(class|data) คือความน่าจะเป็นของคลาสที่ได้รับจากข้อมูลที่ให้มา

การคำนวณสามารถทำได้สำหรับแต่ละชั้นเรียน คลาสที่มีความน่าจะเป็นมากที่สุดสามารถกำหนดให้กับข้อมูลที่ป้อนได้

การคำนวณความน่าจะเป็นแบบมีเงื่อนไขไม่สามารถทำได้ภายใต้เงื่อนไขของตัวอย่างจำนวนน้อย ดังนั้นการประยุกต์ใช้ทฤษฎีบทเบย์โดยตรงจึงไม่สามารถทำได้ วิธีแก้ปัญหาสำหรับแบบจำลองการจัดประเภทอยู่ในการคำนวณแบบง่าย

  • Naive Bayes ลักษณนาม

ทฤษฎีบทเบย์ถือว่าตัวแปรอินพุตขึ้นอยู่กับตัวแปรอื่นซึ่งทำให้การคำนวณมีความซับซ้อน ดังนั้น สมมติฐานจะถูกลบออกและทุกตัวแปรอินพุตถือเป็นตัวแปรอิสระ ด้วยเหตุนี้ โมเดลจึงเปลี่ยนจากโมเดลความน่าจะเป็นแบบมีเงื่อนไขขึ้นอยู่กับอิสระ ในที่สุดก็ลดความซับซ้อนลง

การทำให้เข้าใจง่ายของทฤษฎีบทเบย์นี้เรียกว่าอ่าวไร้เดียงสา มีการใช้กันอย่างแพร่หลายสำหรับการจัดหมวดหมู่และการทำนายแบบจำลอง

  • Bayes Optimal Classifier

นี่คือแบบจำลองความน่าจะเป็นประเภทหนึ่งที่เกี่ยวข้องกับการคาดคะเนตัวอย่างใหม่ที่ได้รับจากชุดข้อมูลการฝึกอบรม ตัวอย่างหนึ่งของ Bayes Optimal Classifier คือ “การจำแนกประเภทที่น่าจะเป็นไปได้มากที่สุดของอินสแตนซ์ใหม่จากข้อมูลการฝึกคืออะไร”

การคำนวณความน่าจะเป็นแบบมีเงื่อนไขของอินสแตนซ์ใหม่จากข้อมูลการฝึกสามารถทำได้โดยใช้สมการต่อไปนี้

P(vj | D) = ผลรวม {h ใน H} P(vj | hi) * P(hi | D)

โดยที่ vj เป็นอินสแตนซ์ใหม่ที่จะจัดประเภท

H คือเซตของสมมติฐานสำหรับการจำแนกอินสแตนซ์

สวัสดีเป็นสมมติฐานที่กำหนด

P(vj | hi) คือความน่าจะเป็นหลังของ vi จากสมมติฐาน hi และ

P(hi | D) คือความน่าจะเป็นหลังของสมมติฐาน hi จากข้อมูล D

3. การใช้ทฤษฎีบทเบย์ในการเรียนรู้ของเครื่อง

การประยุกต์ใช้ทฤษฎีบท Bayes ที่พบบ่อยที่สุดในการเรียนรู้ของเครื่องคือการพัฒนาปัญหาการจำแนกประเภท แอปพลิเคชันอื่นๆ ที่มากกว่าการจัดหมวดหมู่นั้นรวมถึงการเพิ่มประสิทธิภาพและแบบจำลองทั่วไป

  • การเพิ่มประสิทธิภาพแบบเบย์

เป็นงานที่ท้าทายเสมอในการค้นหาข้อมูลที่ส่งผลให้ต้นทุนต่ำสุดหรือสูงสุดของฟังก์ชันวัตถุประสงค์ที่กำหนด การเพิ่มประสิทธิภาพ Bayesian ขึ้นอยู่กับทฤษฎีบท Bayes และให้แง่มุมสำหรับการค้นหาปัญหาการปรับให้เหมาะสมทั่วโลก วิธีการนี้รวมถึงการสร้างแบบจำลองความน่าจะเป็น (ฟังก์ชันตัวแทน) การค้นหาผ่านฟังก์ชันการได้มา และการเลือกตัวอย่างตัวเลือกสำหรับการประเมินฟังก์ชันวัตถุประสงค์จริง

ในแมชชีนเลิร์นนิงที่ประยุกต์ใช้ การเพิ่มประสิทธิภาพแบบเบย์ใช้เพื่อปรับแต่งไฮเปอร์พารามิเตอร์ของโมเดลที่มีประสิทธิภาพดี

  • เครือข่ายความเชื่อแบบเบย์

ความสัมพันธ์ระหว่างตัวแปรอาจกำหนดได้โดยใช้แบบจำลองความน่าจะเป็น พวกเขายังใช้สำหรับการคำนวณความน่าจะเป็น แบบจำลองความน่าจะเป็นแบบมีเงื่อนไขทั้งหมดอาจไม่สามารถคำนวณความน่าจะเป็นได้เนื่องจากมีข้อมูลจำนวนมาก Naive Bayes ทำให้วิธีการคำนวณง่ายขึ้น ยังมีอีกวิธีหนึ่งที่แบบจำลองได้รับการพัฒนาบนพื้นฐานของการพึ่งพาอาศัยกันแบบมีเงื่อนไขที่ทราบระหว่างตัวแปรสุ่มและความเป็นอิสระตามเงื่อนไขในกรณีอื่นๆ เครือข่ายแบบเบย์จะแสดงการพึ่งพาและความเป็นอิสระนี้ผ่านแบบจำลองกราฟความน่าจะเป็นที่มีขอบตรง การขึ้นต่อกันแบบมีเงื่อนไขที่ทราบจะแสดงเป็นขอบตรง และการเชื่อมต่อที่ขาดหายไปแสดงถึงความเป็นอิสระแบบมีเงื่อนไขในแบบจำลอง

4. การกรองสแปมแบบเบย์

การกรองสแปมเป็นอีกหนึ่งการประยุกต์ใช้ทฤษฎีบทเบย์ มีเหตุการณ์สองเหตุการณ์:

  • เหตุการณ์ A: ข้อความเป็นสแปม
  • ทดสอบ X: ข้อความมีคำบางคำ (X)

ด้วยการประยุกต์ใช้ทฤษฎีบท Bayes จะสามารถคาดการณ์ได้ว่าข้อความนั้นเป็นสแปมหรือไม่เมื่อได้รับ "ผลการทดสอบ" การวิเคราะห์คำในข้อความสามารถคำนวณโอกาสในการเป็นข้อความสแปม ด้วยการฝึกอบรมตัวกรองที่มีข้อความซ้ำ ๆ การปรับปรุงข้อเท็จจริงที่ว่าความน่าจะเป็นที่จะมีคำบางคำในข้อความจะเป็นสแปม

การประยุกต์ใช้ทฤษฎีบทเบย์พร้อมตัวอย่าง

ผู้ผลิตตัวเร่งปฏิกิริยาผลิตอุปกรณ์สำหรับทดสอบข้อบกพร่องในตัวเร่งปฏิกิริยาด้วยไฟฟ้า (EC) ผู้ผลิตตัวเร่งปฏิกิริยาอ้างว่าการทดสอบมีความน่าเชื่อถือ 97% หาก EC มีข้อบกพร่องและเชื่อถือได้ 99% เมื่อไม่มีที่ติ อย่างไรก็ตาม 4% ของ EC ดังกล่าวอาจคาดว่าจะมีข้อบกพร่องเมื่อส่งมอบ กฎของเบย์ถูกนำมาใช้เพื่อตรวจสอบความน่าเชื่อถือที่แท้จริงของอุปกรณ์ ชุดเหตุการณ์พื้นฐานคือ

A : EC มีข้อบกพร่อง; A': EC ไม่มีที่ติ; B: EC ได้รับการทดสอบว่ามีข้อบกพร่อง B': EC ได้รับการทดสอบแล้วว่าไม่มีที่ติ

ความน่าจะเป็นจะเป็น

B/A: EC คือ (ทราบว่า) เสีย และทดสอบแล้วว่าเสีย P(B/A) = 0.97,

B'/A: EC (ทราบว่า) มีข้อบกพร่อง แต่ทดสอบแล้วไม่มีที่ติ P(B'/A)=1-P(B/A)=0.03,

B/A': EC คือ (ทราบว่า) เสีย แต่ทดสอบแล้วว่าเสีย P(B/A') = 1- P(B'/A')=0.01

B'/A: = EC คือ (ที่รู้กันว่า) ไร้ที่ติ และผ่านการทดสอบไร้ที่ติ P(B'/A') = 0.99

ความน่าจะเป็นที่คำนวณโดยทฤษฎีบทเบย์คือ:

ความน่าจะเป็นของการคำนวณแสดงให้เห็นว่ามีความเป็นไปได้สูงที่จะปฏิเสธ EC ที่ไร้ตำหนิ (ประมาณ 20%) และมีความเป็นไปได้น้อยที่จะระบุ EC ที่บกพร่อง (ประมาณ 80%)

บทสรุป

คุณลักษณะที่โดดเด่นที่สุดประการหนึ่งของทฤษฎีบทเบย์คือจากอัตราส่วนความน่าจะเป็นเพียงไม่กี่อัตรา สามารถรับข้อมูลจำนวนมหาศาลได้ ด้วยวิธีความน่าจะเป็น ความน่าจะเป็นของเหตุการณ์ก่อนหน้าสามารถเปลี่ยนเป็นความน่าจะเป็นภายหลังได้ แนวทางของทฤษฎีบทเบย์สามารถนำไปใช้ในด้านสถิติ ญาณวิทยา และตรรกะอุปนัย

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับ Bayes Theorem, AI และแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program ใน Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง มากกว่า 30 กรณี การศึกษาและการมอบหมายงาน, สถานะศิษย์เก่า IIIT-B, โครงการหลักที่ปฏิบัติได้จริงมากกว่า 5 โครงการและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

สมมติฐานในการเรียนรู้ของเครื่องคืออะไร?

ในความหมายที่กว้างที่สุด สมมติฐานคือแนวคิดหรือข้อเสนอใดๆ ที่จะต้องทดสอบ สมมติฐานคือการเดา แมชชีนเลิร์นนิงเป็นศาสตร์แห่งการทำความเข้าใจข้อมูล โดยเฉพาะอย่างยิ่งข้อมูลที่ซับซ้อนเกินไปสำหรับมนุษย์และมักมีลักษณะเฉพาะที่ดูเหมือนสุ่ม เมื่อใช้แมชชีนเลิร์นนิง สมมติฐานคือชุดคำสั่งที่เครื่องใช้ในการวิเคราะห์ชุดข้อมูลบางชุดและค้นหารูปแบบที่สามารถช่วยเราคาดการณ์หรือตัดสินใจได้ การใช้แมชชีนเลิร์นนิงทำให้เราสามารถคาดการณ์หรือตัดสินใจได้โดยใช้อัลกอริทึม

สมมติฐานทั่วไปที่สุดในการเรียนรู้ของเครื่องคืออะไร?

สมมติฐานทั่วไปส่วนใหญ่ในการเรียนรู้ของเครื่องคือไม่มีความเข้าใจในข้อมูล สัญกรณ์และแบบจำลองเป็นเพียงตัวแทนของข้อมูลนั้น และข้อมูลนั้นเป็นระบบที่ซับซ้อน ดังนั้นจึงไม่สามารถเข้าใจข้อมูลได้อย่างสมบูรณ์และทั่วถึง วิธีเดียวที่จะเรียนรู้อะไรก็ได้เกี่ยวกับข้อมูลคือใช้ข้อมูลนั้นและดูว่าการคาดการณ์เปลี่ยนแปลงไปอย่างไรกับข้อมูล สมมติฐานทั่วไปคือ โมเดลมีประโยชน์เฉพาะในขอบเขตที่พวกมันสร้างขึ้นเพื่อใช้งาน และไม่มีการใช้งานทั่วไปกับปรากฏการณ์ในโลกแห่งความเป็นจริง สมมติฐานทั่วไปคือข้อมูลมีความเฉพาะตัวและกระบวนการเรียนรู้เฉพาะสำหรับแต่ละปัญหา

เหตุใดจึงต้องสามารถวัดสมมติฐานได้

สมมติฐานสามารถวัดได้เมื่อสามารถกำหนดตัวเลขให้กับตัวแปรเชิงคุณภาพหรือเชิงปริมาณได้ ซึ่งสามารถทำได้โดยการสังเกตหรือทำการทดลอง ตัวอย่างเช่น หากพนักงานขายพยายามขายสินค้า สมมติฐานก็คือการขายผลิตภัณฑ์ให้กับลูกค้า สมมติฐานนี้สามารถวัดได้หากมีการวัดจำนวนการขายในหนึ่งวันหรือหนึ่งสัปดาห์