Imposter Domains vă republică site-ul?
Publicat: 2022-03-10Ne gândim la web scraping ca la un instrument folosit pentru a recolta conținut web în scopuri de analiză a informațiilor, uneori în detrimentul proprietarului site-ului. De exemplu, cineva ar putea zgâria web toate paginile de produse ale site-ului de vânzare cu amănuntul al unui concurent pentru a colecta informații despre produsele oferite și prețurile curente pentru a încerca să câștige un avantaj competitiv.
Web scraping poate fi folosit pentru a colecta date de marketing, cum ar fi identificarea cuvintelor cheie bune pentru campanii de publicitate, identificarea subiectelor trending pentru postările pe blog sau identificarea influențelor în bloguri și site-uri de știri importante. Producătorii ar putea analiza site-urile de vânzare cu amănuntul pentru a se asigura că este respectat prețul publicitar al producătorului (MAP ) , iar auditorii de securitate pot analiza site-urile pentru a căuta vulnerabilități sau încălcări ale politicilor de confidențialitate. Și, bineînțeles, scraper-urile ar putea răzui site-ul dvs. pentru a căuta vulnerabilități de securitate sau detalii expuse de contact sau de vânzări. Niciuna dintre aceste activități nu ar avea ca rezultat republicarea sau livrarea utilizatorilor finali a conținutului răzuit.
Există, totuși, situații în care conținutul paginii web răzuit este livrat ca o pagină în sine direct vizitatorilor. După cum vom vedea mai jos, acest lucru se poate face din motive benigne sau nu atât de benigne. În cel mai rău caz, acestea pot fi adevărate domenii impostoare, care încearcă să interacționeze cu utilizatori reali fără a recunoaște adevărata sursă a conținutului dvs. . Chiar și în cazuri de utilizare benigne, totuși, pierzi controlul asupra experienței vizitatorului. Atunci când conținutul tău este livrat prin alte mijloace, de pe alte servere sau platforme, poate pune în pericol experiența utilizatorului și relația comercială pe care ai construit-o cu utilizatorii tăi.
Cum puteți identifica, urmări și gestiona acest risc pentru afacerea dvs.? Explorăm modul în care puteți utiliza analizele web sau datele de măsurare a utilizatorilor reali pe site-ul dvs. pentru a obține informații despre orice domeniu impostor care vă republică munca. De asemenea, descriem cele mai comune tipuri de republicare de conținut pe care le vedem în datele din lumea reală pe care le-am colectat în Akamai mPulse, atât benigne, cât și problematice, astfel încât să știți ce să căutați în datele dvs.
Cum să urmăriți o activitate suspectă
Dacă abia începi să te întrebi dacă cineva ar putea republica conținutul tău web, cel mai ușor lucru de făcut este o căutare pe Google. Copiați o propoziție de zece sau douăsprezece cuvinte dintr-o pagină de interes de pe site-ul dvs. în bara de căutare Google, puneți-o între ghilimele duble și faceți clic pe Căutare. Ar trebui să vă vedeți propriul site în rezultatele căutării, dar dacă găsiți acea propoziție care se potrivește exact pe alte site-uri, este posibil să fiți victima republicării . Această abordare este, evident, puțin ad-hoc. Poate ați putea să scrieți niște căutări Google pentru a efectua periodic astfel de verificări. Dar câte pagini verifici? Cum puteți alege în mod fiabil conținutul paginilor pe care republicarea nu le va modifica? Și ce se întâmplă dacă vizualizările de pagină republicate nu ajung niciodată în rezultatele căutării Google?
O abordare mai bună este să utilizați datele pe care le colectați deja cu serviciile dvs. de analiză web sau de M asurarea utilizatorilor reali ( RUM ). Aceste servicii variază considerabil în ceea ce privește capacitățile și profunzimea datelor colectate. În general, toate sunt instrumentate ca procese JavaScript care sunt încărcate pe paginile web ale site-ului dvs. printr-o etichetă sau un fragment de cod de încărcare. Atunci când serviciul stabilește că o vizualizare a paginii (și/sau o altă activitate de interes pentru utilizator) este finalizată, trimite un „far” de date înapoi la un sistem de colectare, unde datele sunt apoi procesate, agregate și stocate pentru viitor. analiză.
Pentru a ajuta la identificarea republicării paginilor web de către domeniile impostoare, ceea ce doriți este un serviciu care:
- Colectează date pentru fiecare vizualizare de pagină de pe site (în mod ideal);
- Colectează adresa URL completă a resursei HTML a paginii de bază a vizualizării paginii;
- Acceptă balize chiar dacă numele de gazdă din acea adresă URL a paginii de bază nu este cel sub care este publicat site-ul dvs.;
- Vă permite să interogați singur datele colectate și/sau aveți deja interogări de date concepute pentru a găsi „domenii impostore”.
Ce se întâmplă când o pagină web este republicată?
Atunci când o pagină web este răzuită cu intenția de a fi livrată ca vizualizare completă a paginii unui utilizator final, scraper-ul poate modifica conținutul. Modificările pot fi ample. Modificarea anumitor conținuturi este mai ușoară decât altele și, în timp ce un domeniu impostor ar putea schimba textul sau imaginile, modificarea JavaScript poate fi o propunere mai provocatoare. Încercările de modificări în JavaScript pot întrerupe funcționalitatea paginii, pot inhiba redarea corectă sau pot prezenta alte probleme.
Vestea bună pentru noi este că instrumentele de urmărire a analizei web sau serviciile de măsurare a utilizatorilor reali sunt instrumentate ca JavaScript și este puțin probabil ca multe domenii impostoare să încerce să modifice conținutul pentru a le elimina din cauza riscurilor ca aceasta să rupă pagina. Dacă scraperul nu elimină în mod intenționat codul fragmentului de încărcare sau eticheta pentru serviciul dvs. de analiză web sau RUM, în general, se va încărca cu succes și va genera un semnal de semnalizare pentru vizualizarea paginii - oferindu-vă dovezi ale activității domeniului impostor .
Aceasta este cheia pentru urmărirea domeniilor impostoare cu analize web sau date RUM. Chiar dacă niciunul dintre conținutul paginii nu este livrat de pe platforma sau serverele dvs., atâta timp cât se încarcă codul JavaScript pe care îl utilizați pentru analiză sau urmărirea performanței, puteți obține în continuare date despre vizualizarea paginii.
Transformarea datelor în informații
Acum că aveți date, le puteți extrage pentru dovezi ale unor domenii impostoare. Cel mai de bază, aceasta este o interogare de bază de date care numără numărul de vizualizări ale paginii de către fiecare nume de gazdă din adresa URL a paginii, ceva de genul acestui pseudocod:
results = query(""" select host, count(*) as count from $(tableName) where timestamp between '$(startTime)' and '$(endTime)' and url not like 'file:%' group by 1 order by 2 desc """);
Orice nume de gazdă din rezultate care nu este unul pe care site-ul dvs. îl folosește este un domeniu impostor și merită investigat. Pentru monitorizarea continuă a datelor, probabil că veți dori să clasificați domeniile impostoare pe care le vedeți în date și pe care le-ați identificat.
De exemplu, unele domenii utilizate de serviciile de traducere în limbaj natural care republică pagini web întregi ar putea arăta astfel:
# Translation domains translationDomains = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com", "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com", "trans.hiragana.jp","translate.baiducontent.com","translate.goog", "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp", "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com", "webtranslate.tilde.com","worldlingo.com"]
În funcție de nevoile dvs., puteți crea matrice de domenii „acceptabile” și „cu probleme” sau puteți clasifica domeniile impostoare după funcția sau tipul lor. Mai jos sunt cele mai comune tipuri de domenii impostoare pe care le puteți vedea în datele din lumea reală.
Republicare benignă
Nu toate paginile web răzuite livrate de pe un domeniu terță parte vor fi rău intenționate. Pe baza analizei datelor Akamai mPulse dintr-un spectru larg de clienți, majoritatea vizualizărilor de pagini din domeniile impostore sunt de fapt servicii pe care un vizitator al site-ului alege în mod intenționat să le folosească. Un vizitator al site-ului se poate bucura de conținutul paginii pe care l-ar găsi inaccesibil. În unele cazuri, serviciile sunt probabil utilizate de către angajații proprietarului site-ului însuși.
Categoriile majore descrise aici nu sunt deloc exhaustive.
Traducere în limbaj natural
Cele mai comune domenii de impostor sunt cele utilizate de serviciile de traducere în limbaj natural. Aceste servicii pot răzui o pagină web, pot traduce textul codificat de pe pagină într-o altă limbă și pot livra acel conținut modificat utilizatorului final.
Pagina pe care o vede utilizatorul final va avea o adresă URL de la domeniul de nivel superior al serviciului de traducere (cum ar fi translate.goog, translatoruser-int.com sau translate.weblio.jp, printre multe altele). rewordify.com schimbă textul în limba engleză dintr-o pagină în propoziții mai simple pentru vorbitorii de limba engleză începători. Deși nu aveți control asupra calității traducerilor sau a performanței experienței paginii livrate, este sigur să presupunem că majoritatea proprietarilor de site-uri nu ar considera acest lucru un risc sau o preocupare de afaceri.
Motorul de căutare și rezultatele arhivei web în cache
O altă categorie comună de domenii impostoare sunt domeniile utilizate de motoarele de căutare pentru a furniza rezultate stocate în cache sau versiuni arhivate ale vizualizărilor de pagină. De obicei, acestea ar fi pagini care ar putea să nu mai fie disponibile pe site, dar sunt disponibile în arhive terțe.
Poate doriți să aflați despre frecvența acestor vizualizări de pagină și o analiză mai profundă ar putea determina specificul a ceea ce căutau utilizatorii finali în cache-urile și arhivele online. Cu adresa URL completă pentru fiecare solicitare făcută către cache-urile și arhivele online, ar trebui să puteți identifica cuvintele cheie sau subiectele care apar cel mai des în aceste tipuri de vizualizări de pagină.
Instrumente de dezvoltare
Aceste servicii vor fi utilizate de obicei de proprii angajați ca parte a afacerii naturale de dezvoltare și conducere a site-ului dvs. Un instrument obișnuit de dezvoltator poate răzui o pagină web întreagă, o poate analiza pentru erori de sintaxă în JavaScript, XML, HTML sau CSS și poate afișa o versiune marcată a paginii pentru ca dezvoltator să o exploreze.
Pe lângă erorile de sintaxă, instrumentele pot evalua, de asemenea, un site pentru conformitatea cu accesibilitatea sau cu alte standarde impuse legal. Unele exemple de servicii văzute în lumea reală includ codebeautify.org, webaim.org și jsonformatter.org.
Instrumente de publicare a conținutului
Instrumentele pentru dezvoltatori sunt foarte asemănătoare cu instrumentele pe care le puteți utiliza pentru a vă gestiona nevoile de publicare de conținut. Cel mai des întâlnit exemplu este instrumentul de previzualizare Google Ads, care preia o pagină, o modifică pentru a include o etichetă publicitară și conținut publicitar de la Google și le afișează proprietarului site-ului pentru a vedea cum ar arăta rezultatul dacă ar fi publicat.
Un alt tip de instrument de publicare a conținutului este un serviciu care preia o pagină web, o verifică în bazele de date pentru orice încălcare potențială a drepturilor de autor sau plagiat și afișează pagina cu marcaj pentru a identifica orice conținut potențial ofensator.
Domenii Transcoder
Unele servicii oferă o pagină web într-o formă modificată fie pentru performanță îmbunătățită, fie pentru caracteristici de afișare îmbunătățite. Cel mai comun serviciu de acest tip este Google Web Light. Disponibil într-un număr limitat de țări pe dispozitive cu sistem de operare Android cu conexiuni lente de rețea mobilă, Google Web Light transcodează pagina web pentru a oferi cu până la 80% mai puțini octeți , păstrând în același timp „majoritatea conținutului relevant”, totul în numele livrării conținutului. în browserul Android Mobile cu atât mai rapid.
Alte servicii de transcoder modifică conținutul paginii pentru a-i schimba prezentarea, de exemplu, printwhatyoulike.com elimină elementele publicitare în pregătirea pentru imprimare pe hârtie, iar marker.to permite utilizatorului să „marqueze” o pagină web cu un evidențiator galben virtual și să partajeze pagina cu alții. Deși serviciile de transcoder pot fi bine intenționate, există potențiale atât pentru abuz (eliminarea reclamelor), cât și potențiale întrebări privind integritatea conținutului de care trebuie să fiți conștient, în calitate de proprietar de site.
Copii ale paginilor web salvate local
Deși nu este obișnuit, vedem balize în datele Akamai mPulse cu pagini difuzate de la URL-uri file://
. Acestea sunt vizualizări de pagină încărcate de pe o pagină web vizualizată anterior și care a fost salvată în stocarea locală a dispozitivului. Deoarece fiecare dispozitiv ar putea avea o structură de sistem de fișiere diferită , rezultând un număr infinit de „domenii” în datele URL, în general, nu are sens să încercăm să le agregați pentru modele. Este sigur să presupunem că proprietarii de site-uri nu ar considera acest lucru un risc sau o preocupare de afaceri.
Servicii de proxy web
O altă categorie de domenii impostoare care pot fi acceptabile sunt cele utilizate de serviciile de proxy web. Există două subcategorii mari de servicii proxy presupuse benigne. Unul este proxy-urile instituționale , cum ar fi un sistem de bibliotecă universitar care se abonează la o publicație de știri online pentru a acorda acces studenților. Când un student vede site-ul, pagina poate fi livrată de la un nume de gazdă din domeniul de nivel superior al universității.
Este sigur să presupunem că majoritatea editorilor nu ar considera acest lucru un risc sau o preocupare de afaceri dacă face parte din modelul lor de afaceri. Celălalt tip major de proxy benign sunt site-urile care urmăresc să ofere anonimat , astfel încât vizitatorii să poată consuma conținutul unui site web fără a fi urmăriți sau identificați. Cel mai comun exemplu al acestei din urmă subcategorii este serviciul anonymousbrowser.org. Utilizatorii acestor servicii pot fi sau nu bine intenționați.
Republicare rău intenționată
Deși am văzut că pot exista motive benigne pentru ca o pagină web să fie răzuită și apoi livrată dintr-un domeniu alternativ (și, de fapt, cercetările arată că cazurile de utilizare benigne sunt de departe cele mai frecvent întâlnite în datele de măsurare a utilizatorului real Akamai mPulse ), cu siguranță există cazuri în care intențiile scrapers sunt rău intenționate. Conținutul răzuit poate fi folosit pentru a genera venituri într-o varietate de moduri, de la simpla transmitere a conținutului furat drept propriu până la încercarea de a fura acreditări sau alte secrete. Cazurile de utilizare rău intenționate pot dăuna atât proprietarului site-ului, cât și/sau vizitatorului site-ului.
Scraping reclamă
În industria editorială, veniturile din reclame sunt esențiale pentru succesul comercial sau eșecul site-urilor web. Desigur, vânzarea reclamelor necesită conținut pe care vizitatorii doresc să-l consume, iar unor actori răi le poate fi mai ușor să fure acel conținut decât să-l creeze ei înșiși. Ad scrapers pot colecta articole întregi de pe un site și le pot republica pe un alt domeniu de nivel superior cu etichete publicitare complet noi. Dacă scraperul nu este suficient de sofisticat pentru a separa complet conținutul de structura paginii și, de exemplu, include codul JavaScript al paginii de bază, inclusiv fragmentul de încărcare pentru serviciul dvs. de analiză web sau RUM, puteți obține indicatoare de date pentru aceste vizualizări de pagină.
phishing
Phishingul este o încercare frauduloasă de a-i determina pe utilizatori să dezvăluie informații sensibile sau private, cum ar fi acreditările de acces, numerele cărților de credit, numerele de securitate socială sau alte date, uzurpând identitatea unui site de încredere. Pentru a arăta cât mai autentice posibil, site-urile de phishing sunt adesea create prin eliminarea site-ului legitim pe care doresc să-l uzurpare . Din nou, dacă scraperul nu este suficient de sofisticat pentru a separa complet conținutul de structura paginii și, de exemplu, include codul de bază al paginii, inclusiv fragmentul de încărcare pentru serviciul dvs. de analiză web sau RUM, puteți obține semnalizatoare pentru aceste vizualizări de pagină în mPulse.
Deturnarea browserului sau a căutării
O pagină web poate fi răzuită și republicată cu JavaScript suplimentar care conține codul de atac de deturnare a browserului sau a căutării. Spre deosebire de phishing, care tentează utilizatorii să predea date valoroase, acest tip de atac încearcă să modifice setările browserului . Simpla schimbare a motorului de căutare implicit al browserului pentru a indica unul din care atacatorul obține venituri din rezultatele căutării afiliate ar putea fi profitabilă pentru un actor rău. Dacă scraperul nu este sofisticat, injectând cod de atac nou, dar nu modifică codul preexistent al paginii de bază, inclusiv fragmentul de încărcare pentru serviciul dvs. de analiză web sau RUM, puteți obține semnalizatoare pentru aceste vizualizări de pagină în mPulse.
Paywall sau abonament bypass proxy
Unele servicii pretind că ajută utilizatorii finali să acceseze pagini de pe site-uri care necesită abonamente pentru a le vizualiza fără a avea o autentificare validă. Pentru unii editori de conținut, taxele de abonament pot reprezenta o parte foarte importantă din veniturile site-ului. Pentru alții, autentificarea poate fi necesară pentru a rămâne în conformitate cu legea pentru ca utilizatorii să consume conținut care este restricționat de vârstă, cetățenie, rezidență sau alte criterii.
Serviciile proxy care ocolesc (sau încearcă să ocolească) aceste restricții de acces prezintă riscuri financiare și juridice pentru afacerea dvs. . Din punct de vedere subiectiv, multe dintre aceste servicii par a fi concentrate în mod special pe site-uri de pornografie, dar toți proprietarii de site-uri ar trebui să fie în căutarea acestor actori răi.
Dezinformare
În plus față de încercarea de a profita de pe urma web scraping, unele domenii impostoare pot fi folosite pentru a furniza conținut care a fost modificat într-un mod de a răspândi în mod intenționat dezinformări, a dăuna reputației sau în scopuri politice sau de altă natură.
Gestionarea Rezultatelor
Acum că aveți o modalitate de a identifica și urmări când domeniile impostoare vă republică site-ul, care sunt următorii pași? Instrumentele sunt la fel de valoroase ca și capacitatea noastră de a le folosi eficient, așa că este important să dezvoltați o strategie pentru utilizarea unei soluții de urmărire a domeniului impostor ca parte a proceselor dvs. de afaceri. La un nivel înalt, cred că acest lucru se reduce la luarea de decizii cu privire la un proces de management în trei etape:
- Identificați amenințarea,
- Prioritizează amenințarea,
- Remediați amenințarea.
1. Identificarea amenințărilor prin raportare regulată
Odată ce ați dezvoltat interogările bazei de date pentru a extrage date despre domeniul potențial impostor din datele dvs. de analiză web sau din datele de măsurare a utilizatorilor reale, trebuie să examinați datele în mod regulat.
Ca punct de plecare, aș recomanda un raport săptămânal care poate fi scanat rapid pentru orice activitate nouă. Un raport săptămânal pare a fi cea mai bună cadență pentru a detecta probleme înainte ca acestea să devină prea severe. Un raport zilnic poate fi obositor și poate deveni ceva ușor de ignorat după un timp. Cifrele zilnice pot fi, de asemenea, mai dificil de interpretat, deoarece vă puteți uita la un număr destul de mic de vizualizări de pagină care pot reprezenta sau nu o tendință îngrijorătoare.
Pe de altă parte, raportarea lunară poate duce la probleme care persistă prea mult timp înainte de a fi prins. Un raport săptămânal pare a fi echilibrul potrivit pentru majoritatea site-urilor și este probabil cea mai bună cadență de pornire pentru raportarea regulată.
2. Clasificarea amenințării potențiale
După cum am considerat mai sus, nu toate domeniile impostoare care republică conținutul site-ului dvs. sunt neapărat de natură rău intenționată sau reprezintă o preocupare pentru afacerea dvs. Pe măsură ce dobândiți experiență cu peisajul datelor proprii site-ului dvs., vă puteți îmbunătăți raportarea obișnuită prin codificarea culorilor sau prin separarea domeniilor despre care cunoașteți și pe care le considerați nerăușitoare pentru a vă ajuta să vă concentrați asupra domeniilor cu probleme necunoscute, noi sau cunoscute care contează cel mai mult.
În funcție de nevoile dvs., puteți crea matrice de domenii „acceptabile” și „cu probleme” sau puteți clasifica domeniile impostoare după funcția sau tipul lor (cum ar fi categoriile „traducere în limba naturală” sau „instrumente de publicare a conținutului” descrise mai sus). Fiecare site va avea nevoi diferite, dar obiectivul este de a separa domeniile problematice de domeniile care nu sunt preocupante.
3. Luați măsuri împotriva actorilor răi
Pentru fiecare dintre categoriile problematice pe care le identificați, determinați parametrii pe care doriți să îi utilizați atunci când decideți cum să răspundeți la amenințare:
- Care este numărul minim de vizualizări de pagină înainte de a lua măsuri?
- Care este primul punct de escaladare și cine este responsabil pentru aceasta?
- Ce părți interesate din cadrul afacerii trebuie să fie conștienți de activitatea rău intenționată și când?
- Sunt acțiunile care trebuie întreprinse documentate și revizuite de către toate părțile interesate (executivi, juridici etc.) în mod regulat?
- Atunci când se întreprind acțiuni (cum ar fi depunerea unei notificări de „eliminare DMCA” la infractor sau la furnizorul de servicii al acestuia sau actualizarea regulilor de firewall pentru aplicații web pentru a încerca să limiteze accesul la hoții de conținut) sunt urmărite și recunoscute rezultatele acestor acțiuni ?
- Cum va fi rezumată eficacitatea acestor acțiuni liderilor executivi de afaceri în timp?
Chiar dacă nu reușiți să eliminați orice republicare rău intenționată a conținutului site-ului dvs., ar trebui să construiți un proces solid pentru a gestiona riscurile ca orice alt risc pentru afacere. Va genera încredere și autoritate cu partenerii dvs. de afaceri, investitorii, angajații și colaboratorii.
Concluzie
În circumstanțele potrivite, analizele dvs. web sau datele de măsurare a utilizatorilor reale pot oferi vizibilitate în lumea domeniilor impostore, utilizate de web scrapers pentru a republica conținutul site-ului dvs. pe serverele lor. Multe dintre aceste domenii impostoare sunt de fapt servicii benigne care fie ajută utilizatorii finali, fie vă ajută în diferite moduri productive.
În alte cazuri, domeniile impostoare au motive rău intenționate, fie pentru a fura conținut pentru profit, fie pentru a-l manipula într-un mod care dăunează afacerii sau vizitatorului site-ului. Analiza web sau datele RUM sunt arma ta secretă pentru a ajuta la identificarea oricăror domenii potențial rău intenționate care necesită acțiune imediată , precum și pentru a înțelege mai bine prevalența domeniilor mai benigne. Datele pe care le colectați folosesc analiza web sau poziția serviciului RUM ca observator în browserul propriu al vizitatorului pentru a vedea ceea ce instrumentele de monitorizare și raportare ale platformei dvs. nu pot.
Analizând datele de-a lungul timpului, puteți afla din ce în ce mai multe despre domeniile impostoare și intențiile acestora pentru a vă informa mai bine afacerea cu privire la riscurile pe care acestea le prezintă pentru reputația dvs. și experiențele vizitatorilor dvs. și pentru a dezvolta și a aplica mecanisme pentru a vă proteja proprietatea intelectuală.
Citiți suplimentare despre Smashing Magazine
- Protejarea site-ului dvs. cu politica de funcții
- Faceți-vă site-urile rapide, accesibile și sigure cu ajutorul Google
- Ce trebuie să știți despre OAuth2 și conectarea cu Facebook
- Politica de securitate a conținutului, viitorul tău cel mai bun prieten
- Împotriva încălcării confidențialității pe web