โดเมนปลอมกำลังเผยแพร่เว็บไซต์ของคุณซ้ำหรือไม่

เผยแพร่แล้ว: 2022-03-10
สรุปโดยย่อ ↬ การขูดเนื้อหาเป็นความจริงของชีวิตบนอินเทอร์เน็ต เมื่อคุณนึกถึงการขูดเว็บ คุณอาจไม่คิดว่าเครื่องขูดจะพลิกกลับและให้บริการเนื้อหาทั้งหน้าของคุณบนเว็บไซต์อื่นในทันที แต่ถ้าเนื้อหาไซต์ของคุณถูกเผยแพร่ซ้ำล่ะ มันอาจจะเกิดขึ้นแล้ว

เราคิดว่าการขูดเว็บเป็นเครื่องมือที่ใช้ในการรวบรวมเนื้อหาเว็บเพื่อการวิเคราะห์ข้อมูล ซึ่งบางครั้งอาจส่งผลเสียต่อเจ้าของเว็บไซต์ ตัวอย่างเช่น อาจมีผู้ใช้เว็บขูดหน้าผลิตภัณฑ์ทั้งหมดของเว็บไซต์ค้าปลีกของคู่แข่งเพื่อรวบรวมข้อมูลเกี่ยวกับผลิตภัณฑ์ที่นำเสนอและราคาปัจจุบันเพื่อพยายามสร้างความได้เปรียบทางการแข่งขัน

การขูดเว็บสามารถใช้เพื่อรวบรวมข้อมูลทางการตลาด เช่น การระบุคำหลักที่ดีสำหรับแคมเปญโฆษณา การระบุหัวข้อที่กำลังเป็นที่นิยมสำหรับโพสต์ในบล็อก หรือการระบุผู้มีอิทธิพลในบล็อกและเว็บไซต์ข่าวที่สำคัญ ผู้ผลิตอาจขูดไซต์ค้าปลีกเพื่อให้แน่ใจว่า M anufacturer A dvertised P ricing ( MAP ) ได้รับการปฏิบัติตาม และผู้ตรวจสอบความปลอดภัยอาจขูดไซต์เพื่อค้นหาช่องโหว่หรือการละเมิดนโยบายความเป็นส่วนตัว และแน่นอน แครปเปอร์สามารถขูดไซต์ของคุณเพื่อค้นหาช่องโหว่ด้านความปลอดภัย หรือเปิดเผยรายละเอียดการติดต่อหรือโอกาสในการขาย กิจกรรมเหล่านี้จะไม่ส่งผลให้เนื้อหาที่คัดลอกมาถูกเผยแพร่ซ้ำหรือส่งไปยังผู้ใช้ปลายทาง

อย่างไรก็ตาม มีบางสถานการณ์ที่เนื้อหาหน้าเว็บที่คัดลอกมาจะถูกส่งเป็นหน้าโดยตรงไปยังผู้เยี่ยมชม ดังที่เราจะเห็นด้านล่างนี้ สามารถทำได้ด้วยเหตุผลที่ไม่เป็นพิษเป็นภัยหรือไม่ดีนัก ในสถานการณ์ที่แย่ที่สุด โดเมนเหล่านี้อาจเป็นโดเมนปลอม โดยพยายามเข้าถึงผู้ใช้จริง โดยไม่ต้องรับทราบแหล่งที่มาที่แท้จริงของเนื้อหาของคุณ อย่างไรก็ตาม แม้ในกรณีการใช้งานที่ไม่เป็นอันตราย คุณจะสูญเสียการควบคุมประสบการณ์ของผู้เยี่ยมชมบางส่วน เมื่อเนื้อหาของคุณถูกส่งด้วยวิธีการอื่น จากเซิร์ฟเวอร์หรือแพลตฟอร์มอื่น อาจทำให้ประสบการณ์ผู้ใช้และความสัมพันธ์ทางการค้าที่คุณสร้างขึ้นกับผู้ใช้ของคุณตกอยู่ในความเสี่ยง

คุณจะระบุ ติดตาม และจัดการความเสี่ยงนี้ต่อธุรกิจของคุณได้อย่างไร เราสำรวจวิธีที่คุณสามารถ ใช้การวิเคราะห์เว็บหรือข้อมูลการวัดผู้ใช้จริง บนเว็บไซต์ของคุณเพื่อรับข้อมูลเชิงลึกเกี่ยวกับโดเมนแอบอ้างที่เผยแพร่งานของคุณซ้ำ เรายังอธิบายประเภทการเผยแพร่ซ้ำเนื้อหาที่พบบ่อยที่สุดที่เราเห็นในข้อมูลจริงที่เรารวบรวมใน Akamai mPulse ทั้งที่ไม่เป็นอันตรายและเป็นปัญหา ดังนั้นคุณจึงรู้ว่าควรค้นหาอะไรในข้อมูลของคุณ

วิธีการติดตามกิจกรรมที่น่าสงสัย

หากคุณเพิ่งเริ่มสงสัยว่าอาจมีคนเผยแพร่เนื้อหาเว็บของคุณซ้ำหรือไม่ วิธีที่ง่ายที่สุดคือการค้นหาโดย Google คัดลอกประโยคสิบหรือสิบสองคำจากหน้าที่สนใจในไซต์ของคุณลงในแถบค้นหาของ Google วางไว้ในเครื่องหมายคำพูดคู่ แล้วคลิกค้นหา คุณควรจะเห็นไซต์ของคุณเองในผลการค้นหา แต่หากคุณพบประโยคที่ตรงกันในเว็บไซต์อื่น คุณอาจตกเป็นเหยื่อของการเผยแพร่ ซ้ำ เห็นได้ชัดว่าแนวทางนี้ค่อนข้างเฉพาะกิจ คุณอาจเขียนสคริปต์การค้นหาของ Google เพื่อเรียกใช้การตรวจสอบประเภทนี้เป็นระยะ แต่เช็คได้กี่หน้า? คุณจะเลือกเนื้อหาบนหน้าที่เผยแพร่ซ้ำจะไม่แก้ไขได้อย่างไร แล้วถ้าการดูหน้าที่ตีพิมพ์ซ้ำไม่ปรากฏให้เห็นในผลการค้นหาของ Google ล่ะ?

แนวทางที่ดีกว่าคือการใช้ข้อมูลที่คุณได้รวบรวมไว้แล้วกับบริการวิเคราะห์เว็บหรือบริการ R eal U ser M easurement ( RUM ) บริการเหล่านี้แตกต่างกันอย่างมากในด้านความสามารถและความลึกของข้อมูลที่รวบรวม โดยทั่วไปแล้ว สิ่งเหล่านี้เป็นเครื่องมือที่ใช้ในกระบวนการ JavaScript ที่โหลดเข้าสู่หน้าเว็บของไซต์ของคุณผ่านแท็กหรือข้อมูลโค้ดของตัวโหลด เมื่อบริการกำหนดว่าการดูหน้าเว็บ (และ/หรือกิจกรรมอื่นๆ ที่น่าสนใจของผู้ใช้) เสร็จสิ้น บริการจะส่ง "สัญญาณ" ของข้อมูลกลับไปยังระบบการรวบรวม ซึ่งข้อมูลจะได้รับการประมวลผล รวบรวม และจัดเก็บต่อไปในอนาคต การวิเคราะห์.

เพื่อช่วยระบุการเผยแพร่ซ้ำของหน้าเว็บตามโดเมนปลอม สิ่งที่คุณต้องการคือบริการที่:

  • รวบรวมข้อมูล สำหรับการดูทุกหน้าบนไซต์ (ในอุดมคติ);
  • รวบรวม URL แบบเต็มของทรัพยากร HTML ของหน้าฐาน ของการดูหน้า
  • ยอมรับบีคอน แม้ว่าชื่อโฮสต์ใน URL ของหน้าฐานนั้นจะไม่ใช่ชื่อที่เผยแพร่ในเว็บไซต์ของคุณ
  • ช่วยให้คุณ ค้นหาข้อมูลที่รวบรวมได้ด้วย ตนเองและ/หรือมีการสืบค้นข้อมูลที่ออกแบบมาเพื่อค้นหา “โดเมนแอบอ้าง”
เพิ่มเติมหลังกระโดด! อ่านต่อด้านล่าง↓

จะเกิดอะไรขึ้นเมื่อมีการเผยแพร่หน้าเว็บอีกครั้ง

เมื่อหน้าเว็บถูกคัดลอกโดยมีเจตนาที่จะส่งเป็นการดูหน้าเว็บแบบสมบูรณ์ให้กับผู้ใช้ปลายทาง มีดโกนอาจแก้ไขเนื้อหา การปรับเปลี่ยนอาจมีขอบเขตกว้างขวาง การแก้ไขเนื้อหาบางอย่างทำได้ง่ายกว่าส่วนอื่นๆ และในขณะที่โดเมนแอบอ้างอาจเปลี่ยนข้อความหรือรูปภาพ การแก้ไข JavaScript อาจเป็นเรื่องท้าทายกว่า การแก้ไขที่พยายามแก้ไขใน JavaScript อาจทำให้หน้าที่การใช้งานของหน้าเสียหาย ขัดขวางการแสดงผลที่เหมาะสม หรือมีปัญหาอื่นๆ

ข่าวดีสำหรับเราคือเครื่องมือติดตามการวิเคราะห์เว็บหรือบริการวัดผลผู้ใช้จริงได้รับการติดตั้งเครื่องมือ JavaScript และโดเมนแอบอ้างจำนวนมากไม่น่าจะพยายามแก้ไขเนื้อหาเพื่อลบออกเนื่องจากความเสี่ยงที่อาจทำลายหน้า หากมีดโกนไม่ได้ตั้งใจลบโค้ดหรือแท็กข้อมูลโค้ดของตัวโหลดสำหรับการวิเคราะห์เว็บหรือบริการ RUM โดยทั่วไปจะโหลดได้สำเร็จและสร้างบีคอนสำหรับการดูหน้าเว็บ ซึ่งแสดงหลักฐานกิจกรรมโดเมนแอบอ้าง

นี่คือกุญแจสำคัญในการติดตามโดเมนแอบอ้างด้วยการวิเคราะห์เว็บหรือข้อมูล RUM แม้ว่าจะไม่มีการส่งเนื้อหาของหน้าจากแพลตฟอร์มหรือเซิร์ฟเวอร์ของคุณ ตราบใดที่โค้ด JavaScript ที่คุณใช้สำหรับการวิเคราะห์หรือการติดตามประสิทธิภาพการโหลด คุณยังคงสามารถรับข้อมูลเกี่ยวกับการดูหน้าเว็บได้

เปลี่ยนข้อมูลให้เป็นข้อมูล

เมื่อคุณมีข้อมูลแล้ว คุณสามารถขุดหาหลักฐานของโดเมนแอบอ้างได้ โดยพื้นฐานที่สุด นี่คือการสืบค้นฐานข้อมูลที่นับจำนวนการดูหน้าเว็บตามชื่อโฮสต์แต่ละชื่อใน URL ของหน้า ซึ่งคล้ายกับรหัสเทียมนี้:

 results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);

ชื่อโฮสต์ใดๆ ในผลลัพธ์ที่ไม่ใช่ชื่อที่ไซต์ของคุณใช้นั้นเป็นโดเมนแอบอ้างและควรค่าแก่การตรวจสอบ สำหรับการตรวจสอบข้อมูลอย่างต่อเนื่อง คุณอาจต้องการจัดหมวดหมู่โดเมนแอบอ้างที่คุณเห็นในข้อมูลและระบุ

ตัวอย่างเช่น บางโดเมนที่ใช้โดยบริการแปลภาษาธรรมชาติที่ เผยแพร่หน้าเว็บใหม่ทั้งหมด อาจมีลักษณะดังนี้:

 # Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]

ขึ้นอยู่กับความต้องการของคุณ คุณอาจสร้างอาร์เรย์ของโดเมน "ที่ยอมรับได้" และ "ปัญหา" หรือจัดหมวดหมู่โดเมนแอบอ้างตามหน้าที่หรือประเภท ด้านล่างนี้คือประเภทโดเมนแอบอ้างที่พบบ่อยที่สุดที่คุณอาจเห็นในข้อมูลจริง

เผยแพร่ซ้ำอย่างอ่อนโยน

ไม่ใช่ว่าหน้าเว็บที่คัดลอกมาจากโดเมนบุคคลที่สามทั้งหมดจะเป็นอันตราย จากการดูข้อมูล Akamai mPulse ในกลุ่มลูกค้าที่หลากหลาย การ ดูหน้าเว็บส่วนใหญ่จากโดเมนแอบอ้าง เป็นบริการที่ผู้เยี่ยมชมไซต์ตั้งใจเลือกใช้ ผู้เยี่ยมชมเว็บไซต์อาจสามารถเพลิดเพลินกับเนื้อหาของหน้าที่พวกเขาพบว่าไม่สามารถเข้าถึงได้ ในบางกรณี พนักงานของเจ้าของไซต์เองอาจใช้บริการดังกล่าว

หมวดหมู่หลักที่อธิบายไว้ในที่นี้ไม่ได้ครอบคลุมทั้งหมด

การแปลภาษาธรรมชาติ

โดเมนแอบอ้างที่พบบ่อยที่สุดคือโดเมนที่ใช้โดยบริการแปลภาษาธรรมชาติ บริการเหล่านี้สามารถขูดหน้าเว็บ แปลข้อความที่เข้ารหัสบนหน้าเป็นภาษาอื่น และส่งเนื้อหาที่แก้ไขไปยังผู้ใช้ปลายทาง

หน้าที่ผู้ใช้ปลายทางเห็นจะมี URL จากโดเมนระดับบนสุดของบริการแปลภาษา (เช่น translate.goog, translatoruser-int.com หรือ translate.weblio.jp เป็นต้น) rewordify.com เปลี่ยนข้อความภาษาอังกฤษบนหน้าเป็นประโยคที่ง่ายกว่าสำหรับผู้เริ่มต้นพูดภาษาอังกฤษ แม้ว่า คุณจะไม่สามารถควบคุมคุณภาพของการแปล หรือประสิทธิภาพของประสบการณ์หน้าที่จัดส่งได้ แต่ก็ถือว่าปลอดภัยที่จะถือว่าเจ้าของเว็บไซต์ส่วนใหญ่ไม่ถือว่าสิ่งนี้เป็นความเสี่ยงหรือข้อกังวลทางธุรกิจ

ภาพหน้าจอของบริการแปลภาษาธรรมชาติที่นำเสนอบทความเว็บไซต์ข่าวที่แปลจากภาษาอังกฤษเป็นภาษาญี่ปุ่น
บริการแปลภาษาธรรมชาติที่นำเสนอบทความเว็บไซต์ข่าวที่แปลจากภาษาอังกฤษเป็นภาษาญี่ปุ่น (ตัวอย่างขนาดใหญ่)

ผลลัพธ์ของโปรแกรมค้นหาและเก็บถาวรเว็บ

หมวดหมู่ทั่วไปของโดเมนแอบอ้างคือโดเมนที่ใช้โดยเครื่องมือค้นหาเพื่อแสดงผลแคชหรือการดูหน้าเว็บในเวอร์ชันที่เก็บถาวร โดยทั่วไปแล้ว หน้าเหล่านี้จะเป็นหน้าที่อาจไม่พร้อมใช้งานบนไซต์อีกต่อไปแต่มีอยู่ในที่เก็บถาวรของบุคคลที่สาม

คุณอาจต้องการทราบเกี่ยวกับความถี่ของการดูหน้าเว็บเหล่านี้และ การวิเคราะห์เชิงลึกสามารถระบุรายละเอียดเฉพาะ ของสิ่งที่ผู้ใช้ปลายทางค้นหาในแคชและไฟล์เก็บถาวรออนไลน์ ด้วย URL แบบเต็มสำหรับคำขอแต่ละรายการที่ส่งไปยังแคชและไฟล์เก็บถาวรออนไลน์ คุณควรจะสามารถระบุคำหลักหรือหัวข้อที่มีลักษณะบ่อยที่สุดในการดูหน้าเว็บประเภทดังกล่าว

ภาพหน้าจอตัวอย่างของข้อความที่ปรากฏเหนือผลการค้นหาที่แคชไว้ในบริการค้นหาของ Google
ข้อความที่ปรากฏเหนือผลการค้นหาที่แคชไว้ในบริการค้นหาของ Google (ตัวอย่างขนาดใหญ่)

เครื่องมือสำหรับผู้พัฒนา

โดยทั่วไปแล้ว พนักงานของคุณจะใช้บริการเหล่านี้โดยเป็นส่วนหนึ่งของธุรกิจธรรมชาติในการพัฒนาและดำเนินการไซต์ของคุณ เครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ทั่วไปอาจขูดหน้าเว็บทั้งหน้า วิเคราะห์เพื่อหาข้อผิดพลาดทางไวยากรณ์ใน JavaScript, XML, HTML หรือ CSS และแสดง เวอร์ชันที่มาร์กอัปของหน้าเว็บ เพื่อให้นักพัฒนาได้สำรวจ

นอกจากข้อผิดพลาดทางไวยากรณ์แล้ว เครื่องมืออาจประเมินไซต์เพื่อให้สอดคล้องกับการช่วยสำหรับการเข้าถึงหรือมาตรฐานอื่นๆ ที่กฎหมายกำหนด บริการตัวอย่างบางส่วนที่เห็นในโลกแห่งความเป็นจริง ได้แก่ codebeautify.org, webaim.org และ jsonformatter.org

เครื่องมือเผยแพร่เนื้อหา

เครื่องมือที่คล้ายกับเครื่องมือสำหรับนักพัฒนาคือเครื่องมือที่คุณอาจใช้ในการจัดการความต้องการในการเผยแพร่เนื้อหาของคุณ ตัวอย่างที่เห็นได้บ่อยที่สุดคือเครื่องมือแสดงตัวอย่างโฆษณาของ Google ซึ่งดึงหน้า แก้ไขหน้าให้รวมแท็กโฆษณาและเนื้อหาโฆษณาจาก Google และแสดงให้เจ้าของเว็บไซต์เห็นว่าผลลัพธ์จะออกมาเป็นอย่างไรหากมีการเผยแพร่

เครื่องมือเผยแพร่เนื้อหาอีกประเภทหนึ่งคือบริการที่ดึงหน้าเว็บ ตรวจสอบกับฐานข้อมูลสำหรับ การละเมิดลิขสิทธิ์หรือการลอกเลียนแบบที่อาจเกิดขึ้น และแสดงหน้าที่มีมาร์กอัปเพื่อระบุเนื้อหาที่อาจละเมิด

ภาพหน้าจอของบริการออนไลน์ที่โหลดหน้าเว็บอย่างครบถ้วนและเน้นส่วนใด ๆ ของหน้าที่มีข้อความที่พบในฐานข้อมูลของเนื้อหาที่เผยแพร่ก่อนหน้านี้
ตัวอย่างของบริการออนไลน์ที่โหลดหน้าเว็บอย่างครบถ้วนและเน้นส่วนใด ๆ ของหน้าที่มีข้อความที่พบในฐานข้อมูลของเนื้อหาที่เผยแพร่ก่อนหน้านี้ (ตัวอย่างขนาดใหญ่)

โดเมนทรานส์โค้ดเดอร์

บริการบางอย่างส่งหน้าเว็บในรูปแบบที่เปลี่ยนแปลงเพื่อประสิทธิภาพที่ดีขึ้นหรือคุณลักษณะการแสดงผลที่ได้รับการปรับปรุง บริการทั่วไปประเภทนี้คือ Google Web Light มีให้บริการในบางประเทศบนอุปกรณ์ระบบปฏิบัติการ Android ที่มีการเชื่อมต่อเครือข่ายมือถือที่ช้า Google Web Light แปลงรหัสหน้าเว็บเพื่อส่ง ไบต์น้อยลงถึง 80% ในขณะที่รักษา "เนื้อหาที่เกี่ยวข้องส่วนใหญ่" ทั้งหมดในนามของการนำส่งเนื้อหา ลงในเบราว์เซอร์ Android Mobile ที่เร็วกว่ามาก

บริการทรานส์โค้ดเดอร์อื่นๆ จะแก้ไขเนื้อหาของหน้าเพื่อเปลี่ยนการนำเสนอ เช่น printwhatyoulike.com ลบองค์ประกอบโฆษณาออกเพื่อเตรียมการพิมพ์ลงบนกระดาษ และ marker.to ให้ผู้ใช้ "มาร์กอัป" หน้าเว็บด้วยปากกาเน้นข้อความสีเหลืองเสมือนจริงและแชร์หน้าเว็บกับ คนอื่น. แม้ว่าบริการทรานส์โค้ดเดอร์จะมีจุดประสงค์ที่ดี แต่ก็มีความเป็นไปได้ที่ทั้งการละเมิด (การนำโฆษณาออก) และคำถามที่อาจเกิดขึ้นเกี่ยวกับความสมบูรณ์ของเนื้อหาที่คุณในฐานะเจ้าของไซต์ จำเป็นต้องทราบ

สำเนาของหน้าเว็บที่บันทึกไว้ในเครื่อง

แม้ว่าจะไม่ใช่เรื่องปกติ แต่เราเห็นบีคอนในข้อมูล Akamai mPulse ที่มีเพจที่ให้บริการจาก file:// URL นี่คือการดูหน้าที่โหลดจากหน้าเว็บที่ดูก่อนหน้านี้ซึ่งถูกบันทึกลงในที่จัดเก็บในตัวเครื่อง เนื่องจากอุปกรณ์ทุกเครื่องอาจมี โครงสร้างระบบไฟล์ที่แตกต่างกัน ส่งผลให้มี "โดเมน" ในข้อมูล URL นับไม่ถ้วน โดยทั่วไปจึงไม่สมเหตุสมผลที่จะลองรวมสิ่งเหล่านี้สำหรับรูปแบบ ถือว่าปลอดภัยหากเจ้าของเว็บไซต์ไม่ถือว่าสิ่งนี้เป็นความเสี่ยงหรือข้อกังวลทางธุรกิจ

บริการเว็บพร็อกซี่

โดเมนแอบอ้างอีกประเภทหนึ่งที่ อาจ ยอมรับได้คือโดเมนที่ใช้โดยบริการพร็อกซีของเว็บ มีสองประเภทย่อยขนาดใหญ่ของบริการพร็อกซี่ที่ไม่เป็นพิษเป็นภัยสันนิษฐาน หนึ่งคือหนังสือ มอบฉันทะของสถาบัน เช่น ระบบห้องสมุดของมหาวิทยาลัยที่สมัครรับสิ่งพิมพ์ข่าวออนไลน์เพื่อให้สิทธิ์ในการเข้าถึงกลุ่มนักศึกษา เมื่อนักเรียนดูไซต์ เพจอาจส่งจากชื่อโฮสต์ในโดเมนระดับบนสุดของมหาวิทยาลัย

ถือว่าปลอดภัยหากจะถือว่าผู้เผยแพร่โฆษณาส่วนใหญ่ไม่ถือว่าสิ่งนี้เป็นความเสี่ยงหรือข้อกังวลทางธุรกิจหากเป็นส่วนหนึ่งของรูปแบบธุรกิจของตน พร็อกซีที่ไม่เป็นพิษเป็นภัยประเภทอื่นๆ คือ ไซต์ที่มีจุดมุ่งหมายเพื่อปกปิดตัวตน เพื่อให้ผู้เยี่ยมชมสามารถใช้เนื้อหาเว็บไซต์ได้โดยไม่ต้องถูกติดตามหรือระบุตัวตน ตัวอย่างที่พบบ่อยที่สุดของหมวดหมู่ย่อยหลังนั้นคือบริการ anonymousbrowser.org ผู้ใช้บริการเหล่านี้อาจมีหรือไม่มีเจตนาดีก็ได้

การเผยแพร่ซ้ำอย่างเป็นอันตราย

แม้ว่าเราจะเห็นว่ามีเหตุผลที่ไม่ร้ายแรงสำหรับหน้าเว็บที่จะถูกคัดลอกแล้วส่งจากโดเมนอื่น (และที่จริงแล้ว การวิจัยแสดงให้เห็นว่ากรณีการใช้งานที่ไม่เป็นอันตรายมักพบเห็นบ่อยที่สุดในข้อมูลการวัดผู้ใช้จริงของ Akamai mPulse ) มีบางกรณีที่เจตนาของผู้ขูดอาจเป็นอันตรายได้ เนื้อหาที่คัดลอกมาสามารถใช้เพื่อสร้างรายได้ได้ หลายวิธี ตั้งแต่การส่งต่อเนื้อหาที่ถูกขโมยมาเป็นของตนเอง ไปจนถึงการพยายามขโมยข้อมูลประจำตัวหรือความลับอื่นๆ กรณีการใช้งานที่เป็นอันตรายอาจเป็นอันตรายต่อทั้งเจ้าของเว็บไซต์และ/หรือผู้เยี่ยมชมเว็บไซต์

การขูดโฆษณา

ในอุตสาหกรรมการพิมพ์ รายได้จากโฆษณามีความสำคัญต่อความสำเร็จในเชิงพาณิชย์หรือความล้มเหลวของเว็บไซต์ แน่นอน การขายโฆษณาต้องมีเนื้อหาที่ผู้เข้าชมต้องการบริโภค และผู้ไม่หวังดีบางคนอาจพบว่าขโมยเนื้อหานั้นได้ง่ายกว่าการสร้างเอง เครื่องขูดโฆษณาสามารถรวบรวมบทความทั้งหมดจากเว็บไซต์ และเผยแพร่ซ้ำในโดเมนระดับบนสุดที่ต่างกันด้วยแท็กโฆษณาใหม่ทั้งหมด หากมีดโกนไม่ซับซ้อนพอที่จะแยกเนื้อหาออกจากโครงสร้างเพจได้อย่างสมบูรณ์ ตัวอย่างเช่น รวมโค้ด JavaScript ของหน้าหลัก รวมถึงข้อมูลโค้ดตัวโหลดสำหรับการวิเคราะห์เว็บหรือบริการ RUM ของคุณ คุณจะได้รับบีคอนของข้อมูลสำหรับการดูหน้าเว็บเหล่านี้

ฟิชชิ่ง

ฟิชชิงเป็นความพยายามที่ฉ้อโกงเพื่อให้ผู้ใช้เปิดเผยข้อมูลที่ละเอียดอ่อนหรือเป็นส่วนตัว เช่น ข้อมูลรับรองการเข้าถึง หมายเลขบัตรเครดิต หมายเลขประกันสังคม หรือข้อมูลอื่นๆ โดยแอบอ้างเป็นไซต์ที่เชื่อถือได้ เพื่อให้ดูเหมือนจริงที่สุด ไซต์ฟิชชิ่งมักจะสร้างขึ้นโดยการคัด ลอกไซต์ที่ถูกต้องซึ่งพวกเขาตั้งใจจะแอบอ้าง อีกครั้ง หากมีดโกนไม่ซับซ้อนพอที่จะแยกเนื้อหาออกจากโครงสร้างหน้าอย่างสมบูรณ์ และตัวอย่างเช่น รวมรหัสหน้าหลักรวมถึงข้อมูลโค้ดตัวโหลดสำหรับการวิเคราะห์เว็บหรือบริการ RUM ของคุณ คุณจะได้รับบีคอนสำหรับการดูหน้าเว็บเหล่านี้ใน mPulse

ข้อความแจ้งเตือนของเบราว์เซอร์โดยทั่วไปที่แจ้งผู้ใช้ว่าหน้าเว็บที่พวกเขากำลังจะได้เห็นนั้นมีการเผยแพร่ซ้ำเนื้อหาจากเว็บไซต์อื่นที่ได้รับการแก้ไขเพื่อหลอกลวงผู้เยี่ยมชมให้โต้ตอบกับมันราวกับว่ามันถูกต้องตามกฎหมาย
ข้อความแจ้งเตือนของเบราว์เซอร์โดยทั่วไปที่แจ้งผู้ใช้ว่าหน้าเว็บที่พวกเขากำลังจะได้เห็นนั้นมีการเผยแพร่ซ้ำเนื้อหาจากเว็บไซต์อื่นที่ได้รับการแก้ไขเพื่อหลอกลวงผู้เยี่ยมชมให้โต้ตอบกับมันราวกับว่ามันถูกต้องตามกฎหมาย (ตัวอย่างขนาดใหญ่)

การจี้เบราว์เซอร์หรือการค้นหา

หน้าเว็บอาจถูกคัดลอกและเผยแพร่ใหม่ด้วย JavaScript เพิ่มเติมที่มีเบราว์เซอร์หรือโค้ดโจมตีการจี้การค้นหา ไม่เหมือนฟิชชิงที่ล่อใจให้ผู้ใช้ยอมจำนนข้อมูลอันมีค่า การโจมตีประเภทนี้ จะพยายามเปลี่ยนแปลงการตั้งค่าเบราว์เซอร์ เพียงแค่เปลี่ยนเสิร์ชเอ็นจิ้นเริ่มต้นของเบราว์เซอร์ให้ชี้ไปที่ตัวที่ผู้โจมตีได้รับรายได้จากผลการค้นหาจากพันธมิตรอาจสร้างผลกำไรให้กับผู้กระทำความผิด หากมีดโกนไม่ซับซ้อน โดยฉีดโค้ดโจมตีใหม่แต่ไม่เปลี่ยนโค้ดเพจหลักที่มีอยู่แล้ว รวมถึงข้อมูลโค้ดตัวโหลดสำหรับการวิเคราะห์เว็บหรือบริการ RUM ของคุณ คุณจะได้รับบีคอนสำหรับการดูหน้าเว็บเหล่านี้ใน mPulse

Paywall หรือพร็อกซีบายพาสการสมัครสมาชิก

บริการบางอย่างอ้างว่าช่วยผู้ใช้ปลายทางในการเข้าถึงหน้าบนไซต์ที่ต้องสมัครสมาชิกเพื่อดูโดยไม่ต้องเข้าสู่ระบบที่ถูกต้อง สำหรับผู้เผยแพร่เนื้อหาบางราย ค่าธรรมเนียมการสมัครอาจเป็นส่วนสำคัญของรายได้ไซต์ สำหรับผู้อื่น การเข้าสู่ระบบอาจจำเป็นต้องปฏิบัติตามกฎหมายเพื่อให้ผู้ใช้บริโภคเนื้อหาที่ถูกจำกัดอายุ สัญชาติ ถิ่นที่อยู่ หรือเกณฑ์อื่นๆ

บริการพร็อกซี่ที่เลี่ยง (หรือพยายามเลี่ยง) ข้อจำกัดการเข้าถึงเหล่านี้ ก่อให้เกิด ความเสี่ยงทางการเงินและทางกฎหมายต่อธุรกิจของคุณ บริการเหล่านี้จำนวนมากดูเหมือนจะเน้นเฉพาะในไซต์ลามกอนาจาร แต่เจ้าของเว็บไซต์ทุกคนควรระวังตัวแสดงที่ไม่ดีเหล่านี้

ข้อความตัวอย่างว่าเว็บไซต์ที่มีเพย์วอลล์ (ซึ่งผู้เยี่ยมชมต้องสมัครสมาชิกและจ่ายเงินเพื่อดูเนื้อหาส่วนใหญ่) อาจแสดงต่อผู้เยี่ยมชมที่มีเนื้อหาฟรีถึงขีดจำกัดแล้ว บริการเผยแพร่เนื้อหาซ้ำบางรายการโฆษณาความสามารถในการข้ามข้อจำกัดเหล่านี้
ข้อความตัวอย่างที่เว็บไซต์ที่มีเพย์วอลล์อาจแสดงต่อผู้เข้าชมที่มีเนื้อหาฟรีถึงขีดจำกัดแล้ว บริการเผยแพร่เนื้อหาซ้ำบางรายการโฆษณาความสามารถในการข้ามข้อจำกัดเหล่านี้ (ตัวอย่างขนาดใหญ่)

ข้อมูลที่ผิด

นอกเหนือจากการพยายามหากำไรจากการขูดเว็บแล้ว โดเมนแอบอ้างบางโดเมนอาจถูกใช้เพื่อส่งเนื้อหาที่ได้รับการแก้ไขในลักษณะที่จะจงใจเผยแพร่ข้อมูลที่ไม่ถูกต้อง สร้างความเสียหายต่อชื่อเสียง หรือเพื่อวัตถุประสงค์ทางการเมืองหรืออื่นๆ

การจัดการผลลัพธ์

เมื่อคุณมีวิธีระบุและติดตามเมื่อโดเมนแอบอ้างเผยแพร่เว็บไซต์ของคุณซ้ำแล้ว ขั้นตอนต่อไปคืออะไร เครื่องมือมีค่าพอๆ กับความสามารถของเราในการใช้งานอย่างมีประสิทธิภาพ ดังนั้น การพัฒนากลยุทธ์สำหรับการใช้โซลูชันการติดตามโดเมนที่แอบอ้าง เป็นส่วนหนึ่งของกระบวนการทางธุรกิจของคุณจึงเป็นสิ่งสำคัญ ในระดับสูง ฉันคิดว่าสิ่งนี้ช่วยลดการตัดสินใจเกี่ยวกับกระบวนการจัดการสามขั้นตอน:

  1. ระบุภัยคุกคาม
  2. จัดลำดับความสำคัญการคุกคาม
  3. แก้ไขภัยคุกคาม

1. ระบุภัยคุกคามผ่านการรายงานเป็นประจำ

เมื่อคุณได้พัฒนาการสืบค้นฐานข้อมูลเพื่อดึงข้อมูลโดเมนแอบแฝงที่อาจเกิดขึ้นจากการวิเคราะห์เว็บหรือข้อมูลการวัดของผู้ใช้จริง คุณจะต้องดูข้อมูลเป็นประจำ

ในจุดเริ่มต้น ฉันขอแนะนำ รายงานประจำสัปดาห์ ที่สามารถสแกนหากิจกรรมใหม่ได้อย่างรวดเร็ว รายงานประจำสัปดาห์ดูเหมือนจะเป็นจังหวะที่ดีที่สุดในการจับปัญหาก่อนที่จะรุนแรงเกินไป รายงานประจำวันอาจรู้สึกเบื่อหน่ายและกลายเป็นเรื่องง่ายที่จะมองข้ามไปชั่วขณะหนึ่ง ตัวเลขรายวันอาจตีความได้ยากกว่า เนื่องจากคุณสามารถดูจำนวนการดูหน้าเว็บที่ค่อนข้างน้อยซึ่งอาจแสดงถึงแนวโน้มที่เกี่ยวข้องหรือไม่ก็ได้

ในทางกลับกัน การรายงานรายเดือนอาจทำให้เกิดปัญหานานเกินไปก่อนที่จะถูกจับได้ รายงานประจำสัปดาห์ดูเหมือนจะเป็นความสมดุลที่เหมาะสมสำหรับไซต์ส่วนใหญ่ และน่าจะเป็นจังหวะเริ่มต้นที่ดีที่สุดสำหรับการรายงานเป็นประจำ

2. การจัดหมวดหมู่ภัยคุกคามที่อาจเกิดขึ้น

ดังที่เราได้พิจารณาข้างต้นแล้ว ไม่ใช่ว่าโดเมนแอบอ้างทั้งหมดที่เผยแพร่เนื้อหาไซต์ของคุณซ้ำจะเป็นอันตรายในลักษณะหรือเป็นข้อกังวลต่อธุรกิจของคุณ เมื่อคุณได้รับประสบการณ์เกี่ยวกับภูมิทัศน์ของข้อมูลไซต์ของคุณเอง คุณอาจปรับปรุงการรายงานตามปกติของคุณโดยการเข้ารหัสสีหรือการแยกโดเมนที่คุณรู้จักและพิจารณาว่าไม่เป็นอันตรายเพื่อช่วยให้คุณมุ่งเน้นไปที่โดเมนปัญหาที่ไม่รู้จัก ใหม่ หรือที่รู้จักซึ่ง สำคัญที่สุด

ขึ้นอยู่กับความต้องการของคุณ คุณอาจสร้างอาร์เรย์ของโดเมน "ที่ยอมรับได้" และ "ปัญหา" หรือ จัดหมวดหมู่โดเมนแอบอ้างตามหน้าที่หรือประเภท (เช่น หมวดหมู่ "การแปลภาษาธรรมชาติ" หรือ "เครื่องมือเผยแพร่เนื้อหา" ที่อธิบายข้างต้น) ทั้งนี้ขึ้นอยู่กับความต้องการของคุณ ทุกไซต์จะมีความต้องการที่แตกต่างกัน แต่วัตถุประสงค์คือเพื่อแยกโดเมนที่มีปัญหาออกจากโดเมนที่ไม่เกี่ยวข้อง

3. ดำเนินการกับนักแสดงที่ไม่ดี

สำหรับแต่ละหมวดหมู่ที่เป็นปัญหาที่คุณระบุ ให้กำหนดพารามิเตอร์ที่คุณต้องการใช้เมื่อตัดสินใจว่าจะตอบสนองต่อภัยคุกคามอย่างไร:

  • จำนวนการ ดูหน้าเว็บขั้นต่ำ คือเท่าใดก่อนที่เราจะดำเนินการ
  • อะไรคือประเด็นแรกของการยกระดับและ ใครเป็นผู้รับผิดชอบ ?
  • ผู้มีส่วนได้ส่วนเสียใดในธุรกิจ ที่ต้องตระหนักถึงกิจกรรมที่เป็นอันตรายและเมื่อใด
  • มีการจัดทำ เอกสารและทบทวนการ ดำเนินการโดยผู้มีส่วนได้ส่วนเสียทั้งหมด (ผู้บริหาร ฝ่ายกฎหมาย ฯลฯ) เป็นประจำหรือไม่?
  • เมื่อมีการดำเนินการ (เช่น การยื่นคำร้อง “DMCA Takedown” กับผู้กระทำความผิดหรือผู้ให้บริการ หรืออัปเดตกฎของไฟร์วอลล์แอปพลิเคชันเว็บเพื่อพยายามจำกัดการเข้าถึงเนื้อหาที่ขโมยมา) ผลลัพธ์ของการกระทำเหล่านี้ จะถูกติดตามและรับทราบหรือไม่
  • ประสิทธิภาพของการดำเนินการเหล่านี้ จะถูกสรุปต่อผู้นำธุรกิจระดับบริหารเมื่อเวลาผ่านไปอย่างไร?

แม้ว่าคุณจะไม่ประสบความสำเร็จในการทำลายการเผยแพร่เนื้อหาไซต์ของคุณที่เป็นอันตรายทั้งหมด คุณควรยังคง สร้างกระบวนการที่มั่นคง ในการจัดการความเสี่ยงเช่นเดียวกับความเสี่ยงอื่นๆ ต่อธุรกิจ จะสร้างความไว้วางใจและอำนาจกับคู่ค้าทางธุรกิจ นักลงทุน พนักงาน และผู้มีส่วนร่วมของคุณ

บทสรุป

ในสถานการณ์ที่เหมาะสม การวิเคราะห์เว็บหรือข้อมูลการวัดของผู้ใช้จริงสามารถให้การมองเห็นในโลกของโดเมนแอบอ้าง ซึ่งใช้โดยเว็บแครปเปอร์เพื่อเผยแพร่เนื้อหาไซต์ของคุณบนเซิร์ฟเวอร์ของตนอีกครั้ง โดเมนหลอกลวงเหล่านี้จำนวนมากเป็นบริการที่ไม่เป็นอันตรายจริง ๆ ที่ช่วยเหลือผู้ใช้ปลายทางหรือช่วยเหลือคุณในรูปแบบต่างๆ ที่มีประสิทธิผล

ในกรณีอื่นๆ โดเมนแอบอ้างมีแรงจูงใจที่มุ่งร้าย ไม่ว่าจะขโมยเนื้อหาเพื่อหากำไรหรือเพื่อจัดการในลักษณะที่ก่อให้เกิดอันตรายต่อธุรกิจหรือผู้เยี่ยมชมเว็บไซต์ของคุณ การวิเคราะห์เว็บหรือข้อมูล RUM เป็นอาวุธลับของคุณในการช่วย ระบุโดเมนแอบอ้างที่อาจเป็นอันตรายซึ่งต้องมีการดำเนินการทันที ตลอดจนเพื่อให้เข้าใจถึงความชุกของโดเมนที่ไม่เป็นอันตรายมากขึ้น ข้อมูลที่คุณรวบรวมใช้ประโยชน์จากการวิเคราะห์เว็บหรือตำแหน่งของบริการ RUM ในฐานะผู้สังเกตการณ์ในเบราว์เซอร์ของผู้เข้าชมเอง เพื่อดูว่าเครื่องมือตรวจสอบและการรายงานแพลตฟอร์มของคุณไม่สามารถทำได้

การวิเคราะห์ข้อมูลในช่วงเวลาหนึ่ง คุณจะได้เรียนรู้มากขึ้นเรื่อยๆ เกี่ยวกับโดเมนแอบอ้างและความตั้งใจของโดเมนดังกล่าว เพื่อที่จะแจ้งให้ธุรกิจของคุณทราบเกี่ยวกับความเสี่ยงที่เกิดขึ้นกับชื่อเสียงและประสบการณ์ของผู้เยี่ยมชมของคุณได้ดียิ่งขึ้น ตลอดจนพัฒนาและบังคับใช้กลไกเพื่อปกป้องทรัพย์สินทางปัญญาของคุณ

อ่านเพิ่มเติมเกี่ยวกับ Smashing Magazine

  • ปกป้องเว็บไซต์ของคุณด้วยนโยบายคุณสมบัติ
  • ทำให้เว็บไซต์ของคุณรวดเร็ว เข้าถึงได้ และปลอดภัยด้วยความช่วยเหลือจาก Google
  • สิ่งที่คุณต้องการรู้เกี่ยวกับ OAuth2 และการเข้าสู่ระบบด้วย Facebook
  • นโยบายการรักษาความปลอดภัยของเนื้อหา เพื่อนที่ดีที่สุดของคุณในอนาคต
  • ต่อต้านการละเมิดความเป็นส่วนตัวบนเว็บ