อธิบายระบบการดึงข้อมูล: ประเภท การเปรียบเทียบ และส่วนประกอบ

เผยแพร่แล้ว: 2021-03-10

ระบบการดึงข้อมูล (IR) คือชุดของอัลกอริทึมที่อำนวยความสะดวกในความเกี่ยวข้องของเอกสารที่แสดงกับข้อความค้นหาที่ค้นหา กล่าวง่ายๆ ก็คือ การทำงานเพื่อจัดเรียงและจัดอันดับเอกสารตามการสืบค้นของผู้ใช้ มีความสม่ำเสมอในการสอบถามและข้อความในเอกสารเพื่อให้สามารถเข้าใช้เอกสารได้

นอกจากนี้ยังอนุญาตให้ใช้ฟังก์ชันการจับคู่อย่างมีประสิทธิภาพเพื่อจัดอันดับเอกสารอย่างเป็นทางการโดยใช้ค่าสถานะการเรียกค้น (RSV) เนื้อหาในเอกสารแสดงด้วยชุดคำอธิบายหรือที่เรียกว่าคำศัพท์ซึ่งเป็นของคำศัพท์ V ระบบ IR ยังดึงข้อเสนอแนะเกี่ยวกับความสามารถในการใช้งานของผลลัพธ์ที่แสดงโดยการติดตามพฤติกรรมของผู้ใช้

เมื่อเราพูดถึงเครื่องมือค้นหา เราหมายถึง Google, Yahoo และ Bing เหมือนกับเครื่องมือค้นหาทั่วไป เครื่องมือค้นหาอื่นๆ ได้แก่ DBLP และ Google Scholar

ในบทความนี้ เราจะพิจารณาโมเดล IR ประเภทต่างๆ ส่วนประกอบที่เกี่ยวข้อง และเทคนิคที่ใช้ในการดึงข้อมูลเพื่อทำความเข้าใจกลไกเบื้องหลังเครื่องมือค้นหาที่แสดงผลลัพธ์

อ่านเพิ่มเติม: เงินเดือนนักวิทยาศาสตร์ข้อมูลในอินเดีย

สารบัญ

ประเภทของแบบจำลองการสืบค้นข้อมูล

การดึงข้อมูลประกอบด้วยองค์ประกอบหลักสี่ประการต่อไปนี้:

  1. D - การแสดงเอกสาร
  2. ถาม - ตัวแทนแบบสอบถาม
  3. F - กรอบงานเพื่อจับคู่และสร้างความสัมพันธ์ระหว่าง D และ Q
  4. R (q, di) - ฟังก์ชันการจัดอันดับที่กำหนดความคล้ายคลึงระหว่างแบบสอบถามและเอกสารเพื่อแสดงข้อมูลที่เกี่ยวข้อง

โมเดลการดึงข้อมูล (IR) มีสามประเภท:

1. Classical IR Model — ได้รับการออกแบบตามแนวคิดทางคณิตศาสตร์พื้นฐานและเป็นแบบจำลอง IR ที่ใช้กันอย่างแพร่หลายมากที่สุด โมเดลการดึงข้อมูลแบบคลาสสิกสามารถนำไปใช้ได้อย่างง่ายดาย ตัวอย่าง ได้แก่ โมเดล Vector-space, Boolean และ Probabilistic IR ในระบบนี้ การดึงข้อมูลขึ้นอยู่กับเอกสารที่มีชุดการสืบค้นที่กำหนดไว้ ไม่มีการจัดอันดับหรือเกรดใด ๆ โมเดล IR แบบคลาสสิกต่างๆ นำการแสดงเอกสาร การแสดงข้อความค้นหา และฟังก์ชันการดึงข้อมูล/การจับคู่มาพิจารณาในการสร้างแบบจำลอง

2. Non-Classical IR Model — ต่างจากรุ่นคลาสสิคตรงที่ถูกสร้างขึ้นจากตรรกะเชิงประพจน์ ตัวอย่างของโมเดล IR ที่ไม่ใช่แบบคลาสสิก ได้แก่ ลอจิกข้อมูล ทฤษฎีสถานการณ์ และโมเดลปฏิสัมพันธ์

3. แบบจำลอง IR ทางเลือก — สิ่งเหล่านี้ใช้หลักการของแบบจำลอง IR แบบคลาสสิกและปรับปรุงเพื่อสร้างแบบจำลองที่ใช้งานได้จริง เช่น แบบจำลองคลัสเตอร์ แบบจำลองเซตทฤษฎีทางเลือก แบบจำลองชุดคลุมเครือ แบบจำลองดัชนีความหมายแฝง (LSI) แบบจำลองพีชคณิตทางเลือก โมเดลอวกาศเวกเตอร์ทั่วไป ฯลฯ

มาทำความเข้าใจโมเดล IR คลาสสิกที่อิงตามความคล้ายคลึงกันที่นำมาใช้มากที่สุดโดยละเอียดเพิ่มเติม:

1. โมเดลบูลีน — โมเดลนี้จำเป็นต้องมีข้อมูลที่แปลเป็นนิพจน์บูลีนและคิวรีบูลีน ส่วนหลังใช้เพื่อกำหนดข้อมูลที่จำเป็นเพื่อให้สามารถจับคู่ได้ถูกต้องเมื่อพบว่านิพจน์บูลีนเป็นจริง มันใช้การดำเนินการบูลีน และ หรือไม่ เพื่อสร้างการรวมกันของคำหลายคำตามสิ่งที่ผู้ใช้ถาม

2. Vector Space Model — โมเดลนี้ใช้เอกสารและแบบสอบถามที่แสดงเป็นเวกเตอร์และดึงเอกสารขึ้นอยู่กับความคล้ายคลึงกัน ซึ่งอาจส่งผลให้เวกเตอร์สองประเภทถูกใช้เพื่อจัดอันดับผลการค้นหาเช่นกัน

  • ไบนารีใน VSM บูลีน
  • ถ่วงน้ำหนักใน VSM ที่ไม่ใช่ไบนารี

3. โมเดลการกระจายความน่าจะเป็น — ในรูปแบบนี้ เอกสารจะถือเป็นการแจกแจงคำศัพท์และการค้นหาจะถูกจับคู่ตามความคล้ายคลึงกันของการนำเสนอเหล่านี้ สิ่งนี้ทำได้โดยใช้เอนโทรปีหรือโดยการคำนวณยูทิลิตี้ที่น่าจะเป็นของเอกสาร ถ้าสองประเภท:

  • แบบจำลองการกระจายความน่าจะเป็นตามความคล้ายคลึงกัน
  • แบบจำลองการกระจายความน่าจะเป็นตามยูทิลิตี้ที่คาดไว้

4. ตัวแบบความน่าจะเป็น — โมเดลความน่าจะเป็นนั้นค่อนข้างเรียบง่ายและใช้การจัดอันดับความน่าจะเป็นเพื่อแสดงผลลัพธ์ พูดง่ายๆ ก็คือ เอกสารจะถูกจัดอันดับตามความน่าจะเป็นของความเกี่ยวข้องกับคำค้นหา

การ ชำระเงิน: Data Science กับ Data Analytics

ส่วนประกอบของแบบจำลองการดึงข้อมูล

ข้อกำหนดเบื้องต้นสำหรับแบบจำลอง IR มีดังนี้:

  1. ระบบการจัดทำดัชนีแบบอัตโนมัติหรือแบบดำเนินการด้วยตนเองซึ่งใช้ในการจัดทำดัชนีและค้นหาเทคนิคและขั้นตอนต่างๆ
  2. ชุดเอกสารในรูปแบบใดรูปแบบหนึ่งต่อไปนี้: ข้อความ รูปภาพ หรือมัลติมีเดีย
  3. ชุดของแบบสอบถามที่ทำหน้าที่เป็นอินพุตไปยังระบบ ผ่านมนุษย์หรือเครื่องจักร
  4. ตัวชี้วัดการประเมินเพื่อวัดหรือประเมินประสิทธิภาพของระบบ (เช่น ความแม่นยำและการเรียกคืน) ตัวอย่างเช่น เพื่อให้แน่ใจว่าข้อมูลที่แสดงต่อผู้ใช้มีประโยชน์เพียงใด

องค์ประกอบต่างๆ ของแบบจำลองการดึงข้อมูลประกอบด้วย:

ขั้นตอนที่ 1

การเข้าซื้อกิจการ
ระบบ IR จัดทำเอกสารและข้อมูลมัลติมีเดียจากแหล่งข้อมูลบนเว็บที่หลากหลาย ข้อมูลนี้รวบรวมโดยโปรแกรมรวบรวมข้อมูลเว็บและถูกส่งไปยังระบบจัดเก็บข้อมูลฐานข้อมูล

ขั้นตอนที่ 2

การเป็นตัวแทน
คำศัพท์อิสระจะได้รับการจัดทำดัชนี และคำศัพท์จะถูกจัดเรียง ทั้งแบบอัตโนมัติและแบบแมนนวล ตัวอย่างเช่น บทคัดย่อของเอกสารจะมีบทสรุป คำอธิบายเมตา บรรณานุกรม และรายละเอียดของผู้เขียนหรือผู้เขียนร่วม

ขั้นตอนที่ 3

การจัดระเบียบไฟล์
การจัดระเบียบไฟล์ดำเนินการด้วยวิธีใดวิธีหนึ่งจากสองวิธี แบบต่อเนื่องหรือแบบกลับด้าน การจัดไฟล์ตามลำดับเกี่ยวข้องกับข้อมูลที่มีอยู่ในเอกสาร ไฟล์ Inverted ประกอบด้วยรายการของเร็กคอร์ด ในลักษณะเทอมต่อเทอม

ขั้นตอนที่ 4

แบบสอบถาม
ระบบ IR เริ่มต้นเมื่อป้อนแบบสอบถาม ข้อความค้นหาของผู้ใช้อาจเป็นข้อความที่เป็นทางการหรือไม่เป็นทางการก็ได้ โดยเน้นว่าข้อมูลใดที่จำเป็น ในระบบ IR การสอบถามไม่ได้บ่งบอกถึงวัตถุเดียวในระบบฐานข้อมูล มันสามารถอ้างถึงหลายวัตถุซึ่งตรงกับแบบสอบถาม อย่างไรก็ตาม ระดับความเกี่ยวข้องอาจแตกต่างกันไป

ความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล

ระบบดึงข้อมูลจะดึงข้อมูลจากระบบการจัดการฐานข้อมูลโดยตรง เช่น ODBMS โดยการระบุคีย์เวิร์ดในการสืบค้นที่ผู้ใช้ให้มาและจับคู่กับเอกสารในฐานข้อมูล

ในขณะที่ระบบการดึงข้อมูลใน DBMS เป็นชุดของอัลกอริธึมหรือโปรแกรมที่เกี่ยวข้องกับการจัดเก็บ การดึง การประเมินเอกสารและการแสดงข้อความค้นหา แบบข้อความโดยเฉพาะ เพื่อแสดงผลลัพธ์ตามความคล้ายคลึงกัน

ส.โน การดึงข้อมูล การดึงข้อมูล
1 ดึงข้อมูลตามความคล้ายคลึงกันระหว่างแบบสอบถามและเอกสาร ดึงข้อมูลตามคำหลักในแบบสอบถามที่ผู้ใช้ป้อน
2 ข้อผิดพลาดเล็กน้อยสามารถยอมรับได้และมักจะไม่มีใครสังเกตเห็น ไม่มีที่ว่างสำหรับข้อผิดพลาดเนื่องจากส่งผลให้ระบบล้มเหลวโดยสมบูรณ์
3 มีความคลุมเครือและไม่มีโครงสร้างที่กำหนดไว้ มีโครงสร้างที่กำหนดไว้เกี่ยวกับความหมาย
4 ไม่ได้จัดเตรียมวิธีแก้ปัญหาให้กับผู้ใช้ระบบฐานข้อมูล ให้บริการโซลูชั่นแก่ผู้ใช้ระบบฐานข้อมูล
5 ระบบดึงข้อมูลให้ผลลัพธ์โดยประมาณ ระบบดึงข้อมูลให้ผลลัพธ์ที่แน่นอน
6 ผลลัพธ์ที่แสดงจะถูกจัดเรียงตามความเกี่ยวข้อง ผลลัพธ์ที่แสดงจะไม่ถูกจัดเรียงตามความเกี่ยวข้อง
7 โมเดล IR มีความน่าจะเป็นโดยธรรมชาติ โมเดลการดึงข้อมูลถูกกำหนดโดยธรรมชาติ

บทสรุป

สิ่งนี้นำเราไปสู่จุดสิ้นสุดของบทความ เราหวังว่าคุณจะพบว่าข้อมูลมีประโยชน์ หากคุณกำลังมองหาความรู้เพิ่มเติมเกี่ยวกับแนวคิด Data Science คุณควรตรวจสอบ โครงการ Executive PG ที่ได้รับการรับรองจาก NASSCOM แห่งแรกของอินเดียในด้าน Data Science จาก IITB บน upGrad

แอปพลิเคชั่นของระบบดึงข้อมูลมีอะไรบ้าง?

ระบบการดึงข้อมูลจะกำหนดความสัมพันธ์ระหว่างวัตถุข้อมูลและการสืบค้นข้อมูล เอกสารเหล่านี้ได้รับการจัดลำดับความสำคัญให้กับคำค้นหาของผู้ใช้ และการจับคู่ที่ดีที่สุดจะได้รับความสำคัญสูงสุด
ระบบดึงข้อมูลเป็นกลไกขับเคลื่อนในการใช้งานจริงหลายอย่าง เช่น:
1. ห้องสมุดดิจิทัลใช้ระบบนี้ในการจัดเรียงและค้นหาหนังสือตามชื่อ ประเภท หรือชื่อผู้แต่งที่ร้องขอ
2. เสิร์ชเอ็นจิ้น เช่น การค้นหาของ Google ใช้กลไกนี้เพื่อให้ผลการค้นหาที่แม่นยำและรวดเร็วยิ่งขึ้นโดยการจับคู่และจัดลำดับความสำคัญของเอกสาร
3. แพลตฟอร์มการค้นหาอื่นๆ เช่น การค้นหาบนมือถือ การค้นหาไฟล์เดสก์ท็อป และการค้นหาเบราว์เซอร์ก็ใช้เทคนิคนี้เช่นกัน
4. แอปพลิเคชัน เช่น แอปสตรีมเพลง แอปสตรีมวิดีโอ และไลบรารีรูปภาพ ใช้การดำเนินการดึงข้อมูลเพื่อค้นหาอันดับผลลัพธ์

อะไรคือความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล?

ข้อมูลต่อไปนี้แสดงให้เห็นความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล:
การดึงข้อมูล - การดึงข้อมูลเกี่ยวข้องกับการดำเนินการต่างๆ เช่น การดึงข้อมูล การจัดเก็บ และการประเมินข้อมูล ข้อผิดพลาดเล็กน้อยถูกละเลย เป็นตัวอย่างหนึ่งของแบบจำลองความน่าจะเป็น ผลลัพธ์สุดท้ายไม่แน่นอนและเป็นค่าประมาณ ผู้ใช้ฐานข้อมูลไม่ได้รับผลลัพธ์
การดึงข้อมูล - การดึงข้อมูลจากฐานข้อมูลเรียกว่าการดึงข้อมูล การดึงข้อมูลรวมถึงการระบุและรวบรวมข้อมูลจากฐานข้อมูล แม้แต่ข้อผิดพลาดเพียงครั้งเดียวก็อาจทำให้ระบบล้มเหลวได้ เป็นตัวอย่างหนึ่งของแบบจำลองที่กำหนดขึ้นได้ ผลลัพธ์สุดท้ายคือผลลัพธ์ที่แน่นอน ผู้ใช้ฐานข้อมูลได้รับผลลัพธ์ทั้งหมด ระบบการดึงข้อมูลมีโครงสร้างที่ดี

กำหนดปฏิสัมพันธ์ของผู้ใช้กับระบบ IR?

ในระบบดึงข้อมูลหรือระบบ IR ผู้ใช้จะแปลข้อมูลเป็นแบบสอบถามก่อน ระบบ IR ประกอบด้วยชุดของคำที่กำหนดตรรกะในการจัดการกับข้อมูล
ก่อนหน้านี้ เอกสารถูกแสดงผ่านคำหลักบางคำหรือชุดดัชนี แต่ได้รับการปรับปรุงให้ทันสมัยและมีการแสดงเอกสารพร้อมคีย์เวิร์ดทั้งชุด ซึ่งสามารถทำได้ด้วยการดำเนินการข้อความที่บทความหรือการเชื่อมต่อถูกลบ/ตัดออก วิธีนี้ช่วยลดความซับซ้อนของเอกสารได้เช่นกัน