Dezvoltare pentru web-ul semantic
Publicat: 2022-03-10În iulie, Fundația Wikimedia a anunțat Abstract Wikipedia, o încercare de a marca cunoștințele care sunt independente de limbă. În multe privințe, acesta este punctul culminant al deceniilor de acumulare, timp în care visul unui Web semantic nu a decolat niciodată, dar nici nu a dispărut niciodată.
De fapt, Web-ul semantic este în creștere și, pe măsură ce își reînnoiește misiunea, cu toții avem de câștigat din încorporarea markupului semantic în site-urile noastre web, fie ele bloguri personale sau giganți ai rețelelor sociale. Indiferent dacă vă pasă de experiențele web sofisticate, de SEO sau de a renunța la tirania monopolurilor web, Web-ul semantic merită atenția noastră.
Beneficiile dezvoltării pentru Web-ul semantic nu sunt întotdeauna imediate sau vizibile, dar fiecare site care întărește bazele unui internet deschis, transparent și descentralizat.
Web-ul semantic
Ce este mai exact Web-ul Semantic? Este un web care poate fi citit de mașină, care oferă prin metadate „un cadru comun care permite ca datele să fie partajate și reutilizate peste granițele aplicației, întreprinderii și comunității”.
Ideea este la fel de veche ca și World Wide Web în sine. Mai în vârstă, de fapt. A fost un punct focal al propunerii lui Tim Berners-Lee din 1989. După cum a subliniat el, documentele nu numai că ar trebui să formeze rețele web, ci și datele din interiorul lor ar trebui să:

Web-ul semantic a parcurs un drum stâncos în deceniile de după. De la începutul mileniului, s-a transformat în mai multe concepte - date deschise, grafice de cunoștințe - toate însemnând efectiv același lucru: rețele de date.
După cum rezumă W3C, este „o extensie a rețelei web actuale în care informațiile primesc un sens bine definit, care permite mai bine computerelor și oamenilor să lucreze în cooperare”.

Ideea a avut parte de susținători. Hacktivistul de internet Aaron Swartz a scris un manuscris de carte despre Web-ul semantic numit A Programmable Web . În ea a scris:
„Documentele nu pot fi cu adevărat îmbinate, integrate și interogate; ele servesc mai ales ca cazuri izolate pentru a fi vizualizate și revizuite. Dar datele sunt proteice, capabile să se schimbe în orice formă se potrivește cel mai bine nevoilor tale.”
Din mai multe motive, Web-ul semantic nu a decolat în același mod în care a făcut-o Web-ul, deși se recuperează. Mai multe marcaje au încercat să acapareze mantaua de-a lungul anilor - RDFa, OWL și Schema pentru a numi câteva - deși niciunul nu a devenit standard în modul în care, să zicem, HTML sau CSS au devenit. Bariera de intrare era prea mare.
Cu toate acestea, visul Web-ului Semantic a rezistat și, pe măsură ce tot mai multe site-uri îl încorporează în design-urile lor, există și mai multe motive pentru a vă alătura petrecerii. Cu cât sunt mai multe site-uri la bord, cu atât Web-ul semantic devine mai puternic.
Lectură suplimentară
- Inteligența datelor
- The Semantic Web, un articol din 2001 de Tim Berners-Lee, James Hensley și Ora Lassila
- Credible Web Community Group la W3C
Cunoaștere fără frontiere
Înainte de a intra în nebunia modului de proiectare pentru Web-ul semantic, merită să aprofundăm puțin de ce . Ce contează dacă datele sunt conectate? Nu sunt suficiente documentele conectate?
Există mai multe motive pentru care Web-ul semantic continuă să fie împins de cei cărora le pasă de un internet gratuit și deschis. Înțelegerea acestor motive este esențială pentru procesul de implementare. Nu ar trebui să fie un caz de „mâncă-ți legumele, folosește markup semantic”. Web-ul semantic este ceva în care să crezi și să faci parte.
Beneficiile Web-ului Semantic includ:
- Experiențe web mai bogate și mai sofisticate
- Ocolind silozurile de conținut și monopolurile pe internet
- Lizibilitatea și clasamentele îmbunătățite ale motorului de căutare
- Democratizarea informației
Cele mai multe dintre acestea pot fi urmărite până la un principiu de bază al Web-ului Semantic: un limbaj universal pentru date. Deși internetul a făcut deja minuni pentru comunicarea internațională, nu se poate scăpa de faptul că unele țări o au mult mai bine decât altele. Luați, de exemplu, limbile folosite pe web față de limbile folosite în lumea reală. Cei cu ochi de vultur dintre voi ar putea observa un ușor dezechilibru în datele de mai jos...

Utopia fără margini a rețelei nu este atât de apropiată pe cât ar părea de cei dintre noi din interiorul bulei vorbitoare de limbă engleză. Este ceva pentru care să pedepsești pe cineva? Nu neapărat, dar este ceva cu care trebuie să te confrunți. Procedând astfel, evidențiază importanța marcajului care compensează aceste lacune. Prin îmbogățirea datelor de pe web, eliminăm stresul limbilor sale.
Acesta este punctul central al Wikipedia rezumate recent anunțată, care va încerca să decupleze articolele de limba în care se întâmplă să fie scrise. Directorul executiv al Wikimedia, Katherine Maher, scrie: „Folosind cod, voluntarii vor putea traduce aceste „articole” abstracte în propriile limbi. Dacă reușește, acest lucru ar putea permite în cele din urmă tuturor să citească despre orice subiect în Wikidata în propria limbă.”
Rezumat Creatorul Wikipedia Denny Vrandecic a fost un susținător al Web-ului semantic de ani de zile, recunoscându-și potențialul de a debloca potențialul neexploatat online. Înlăturarea barierelor naționale este esențială pentru acest proces.
„Indiferent în ce limbă vă publicați conținutul, veți pierde posibilitatea de a include marea majoritate a oamenilor din lume. Web-ul ne-a oferit această oportunitate minunată de a avea o acoperire globală, dar bazându-ne pe o singură limbă sau pe un set mic de limbi, risipim această oportunitate. În timp ce cel mai important obiectiv este acela de a crea conținut bun, în primul rând, invitați mai mulți oameni să participe la dezvoltarea unui conținut mai bun, fiind independenți de limbă. Vă ajută să reduceți barierele în calea contribuției și a consumului și permite multor mai mulți oameni să beneficieze de acest efort.”
— Denny Vrandecic, creator abstract Wikipedia
Un exemplu oportun în acest sens a fost vizualizarea datelor în timpul pandemiei de COVID-19. Virusul a făcut ravagii de nespus în întreaga lume, dar a fost și un moment strălucitor pentru rețelele de date deschise, permițând ca aplicații web superbe, rapoarte și multe altele să fie comune pe web.

Și, bineînțeles, atunci când datele sunt transparente și ușor accesibile, este mai ușor să identifici anomaliile... sau chiar înșelăciunea. Accesul public pe scară largă la tipul de informații de mai sus ar fi de neconceput chiar și acum 20 de ani. Acum ne așteptăm la asta și mirosim un șobolan când ne este refuzat. Datele sunt puternice și, dacă vrem, pot fi exploatate definitiv.
În mod similar, a ne scoate din silozuri de conținut – un semn distinctiv al experienței web moderne – ia putere de la monopolurile web precum Google, Facebook și Twitter. Suntem atât de obișnuiți cu platformele terțe să descifreze și să prezinte informații, încât uităm că nu sunt strict necesare.
„Dacă am avea formate partajate, protocoale partajate, am putea ajunge totuși cu anumiți furnizori care joacă un rol important pe anumite piețe – gândiți-vă la Gmail pentru e-mail – dar toată lumea este liberă să se mute la alt furnizor, iar piața rămâne competitivă.”
— Denny Vrandecic, creator abstract Wikipedia
Web-ul semantic este fără siloz; este gratuit, deschis și abstract, permițând comunicarea între diferite limbi și platforme, care altfel ar fi mult mai dificilă.
Conținut online care conține date
Proiectarea pentru Web-ul semantic se rezumă la conținut online care se învață de date - să vă uitați la conținutul dvs. și să vedeți ce poate (și ar trebui) să fie rezumat. Ce înseamnă acest lucru în termeni practici, dincolo de a fi de acord vag că este un lucru util de făcut? Depinde:
- Dacă porniți un proiect de la zero, includeți considerațiile Web semantic în ceea ce faceți. Pe măsură ce un site web prinde contur, împletește marcajul semantic în ADN-ul său.
- Dacă actualizați sau reconstruiți un proiect, evaluați ce ar putea fi țesut în Web-ul semantic care în prezent nu este, apoi implementați.
Ambele cazuri echivalează practic cu conținut de date. În această secțiune, vom analiza câteva exemple de abstractizare a datelor și cum poate face conținutul mai bun, mai inteligent și mai disponibil pe scară largă.
Extragerea informațiilor
Proiectarea și dezvoltarea pentru Web-ul semantic înseamnă să priviți conținutul online cu pălăria de date. Cei mai mulți dintre noi experimentăm web-ul ca pe o serie de documente sau pagini conectate; ceea ce vrei să faci cu Web-ul semantic este informația de conectare. Aceasta înseamnă să vă evaluați conținutul pentru punctele de date, apoi să ajustați designul în funcție de ceea ce găsiți.
Avocatul Web-ului semantic James Hendler conturează acest proces deosebit de bine cu etosul său DIVE. ( PUNGE în date, eh? Eh?). Se descompune astfel:
- Descoperi
Găsiți seturi de date și/sau conținut (inclusiv în afara propriei organizații). - Integra
Legați relațiile folosind etichete semnificative. - Valida
Furnizați intrări pentru sistemele de modelare și simulare. - Explora
Dezvoltați abordări pentru a transforma datele în cunoștințe acționabile.
Dezvoltarea pentru Web-ul semantic se referă în mare parte la a avea acea perspectivă a lucrurilor pe care le creați și modul în care se alimentează potențial în experiențe web infinit mai bogate. După cum spune Hendler, scopul este cunoașterea acționabilă.
Acest lucru poate fi aplicat la aproape orice tip de conținut web, dar să începem cu un exemplu comun: rețete . Să presupunem că ai un blog de gătit, cu rețete noi în fiecare joi. Dacă ești francez și postezi o rețetă de sufle uluitoare pe blogul tău personal în text simplu, este util doar celor care știu să citească limba franceză.
Cu toate acestea, prin implementarea marcajului semantic, blogul poate fi transformat într-un set de date de rețetă care poate fi citit de mașină. Sintaxa există pentru ca termenii de gătit să fie abstrași. Schema, de exemplu, care poate funcționa împreună cu Microdata, RDFa sau JSON-LD, are un marcaj care include:
- Timp de pregatire
- timp de gătit
- RețetăRandament
- retetaIngredient
- cost estimat
- nutriție, împărțită în calorii și conținut de grăsimi
- potrivit pentru dieta.
aș putea continua. Gama completă de opțiuni, cu exemple, poate fi citită pe Schema.org. Adăugându-le în formatul de postare, formatul rețetei nu trebuie să se schimbe deloc - pur și simplu puneți informațiile în termeni pe care computerele îi pot înțelege.


De exemplu, tot ceea ce este evidențiat în albastru în rețeta BBC de mai sus a primit, de asemenea, un marcaj semantic - de la timpul de gătire până la conținutul nutrițional. Puteți vedea ce se întâmplă sub capotă introducând adresa URL a rețetei în Testul de rezultate bogate de la Google. Rețineți funcționalitatea „Adăugați la lista de cumpărături”, un exemplu de conexiune posibilă prin implementarea Webului Semantic. Conținutul bun devine date utilizabile.
Majoritatea dintre noi ne-am intersectat cu acest tip de sofisticare prin rezultatele căutării, dar aplicațiile sunt mult mai largi decât atât. Marcarea semantică a rețetelor facilitează găsirea și utilizarea site-urilor web de către asistenții de acasă. Ingredientele enumerate pot fi comandate de la supermarketul local. Rețetele ar putea fi filtrate în tot felul de moduri - pentru diete, alergii, religie, costuri, cum ar fi. Sau să presupunem că ai un număr limitat de ingrediente în casă. Cu o bază de date, puteți introduce acele ingrediente și puteți vedea ce rețete se potrivesc.
Gama de posibilități chiar se limitează la nelimitat. După cum a spus Swartz, datele sunt proteice. Odată ce îl aveți, îl puteți folosi în tot felul de moduri ciudate și minunate. Această piesă nu este atât despre acele moduri ciudate și minunate, ci despre a le face posibile. Proiectarea pentru Web-ul semantic face ca designul ulterioar să fie infinit mai bogat.
Iată un exemplu mai personal pentru a arăta ce vreau să spun. Câțiva prieteni și cu mine conducem un mic webzine muzical ca hobby. Deși publicăm articolul sau interviul ciudat, „evenimentul principal” sunt recenziile săptămânale ale albumelor, în care fiecare dintre noi atribuim un scor, alegem melodiile preferate și scriem rezumate. Mergem de mai bine de cinci ani, ceea ce înseamnă că avem aproape 250 de recenzii, ceea ce înseamnă o mulțime de date potențiale. Nu ne-am dat seama cât până am început să reproiectăm site-ul.
Am atins acest lucru într-o bucată despre introducerea datelor structurate în procesul de proiectare. În analiza recenziilor noastre, ne-am dat seama că erau pline de informații cărora li se putea acorda un marcaj semantic. Artiști, nume albume, lucrări de artă, data lansării, scoruri individuale, scoruri generale, tip de lansare și multe altele. În plus – și aici devine cu adevărat interesant – ne-am dat seama că ne putem conecta la o bază de date existentă: MusicBrainz.
Această abordare bidirecțională este cheia Web-ului semantic. Când site-ul nostru de muzică va fi relansat, acesta va fi propria sa sursă de date deschisă, cu mii de puncte de date unice. Conectarea la o bază de date muzicală existentă va oferi propriilor noastre date mai mult context - și potențial. Mii de puncte de date devin zeci de mii de puncte de date, poate mai multe.

Graficul de mai sus doar zgârie suprafața câte informații vor fi conectate la paginile de recenzii. Conținutul este același ca înainte, doar că acum este conectat la un ecosistem de metadate - Giant Global Graph, așa cum l-a numit cândva Berners-Lee.
Dezvoltarea pentru Web-ul semantic înseamnă identificarea propriilor date, marcarea acestora, apoi identificarea modului în care se conectează la alte date. Pentru că o face. Mereu o face. Și acest proces este modul în care aceasta...

… în timp devine asta…

A doua imagine este The Linked Open Data Cloud, o vizualizare care se actualizează constant a datelor conectate de pe web. Acel stup roșu de conexiuni este știința; restul mai are ceva de parcurs. Acolo intrăm noi.
Resurse utile web semantic
- RDF la w3schools.com
- Validatorul RDF al W3C
- „Web-ul semantic este ușor” de W3C
- „Oare ce s-a întâmplat cu Web-ul semantic?” de Two-Bit History
- generator JSON-LD
- Google Structured Data Markup Helper
Conectare
Idealul Web-ului Semantic este conexiunea. Creați date, partajați date, solicitați date. Faceți parte dintr-un ecosistem informațional. Când creați date originale, grozav. Împărtășește-l. Când datele există deja și doriți să le utilizați, trageți-le.
Iată doar câteva dintre resursele de date disponibile:
- DPpedia
- MusicBrainz
- WorldCat
- ISBNdb
Într-adevăr, acolo unde există baze de date ca acestea, aș merge până acolo încât să spun că ceea ce trebuie făcut ar fi să le actualizez acolo unde le lipsesc informațiile. De ce să-l păstrezi pentru tine? Deveniți un colaborator, un susținător al Web-ului semantic.
Implementarea
În ceea ce privește construirea Semantic Webness în site-urile dvs., cu siguranță nu susțin marcarea manuală, doc-cu-doc. Cine are timp pentru asta? Cel mai adesea, soluția este standardizarea unui format și modelarea acestuia.
Modelarea este marea oportunitate aici. Câți oameni au cu adevărat timp să marcheze manual toate aceste informații? Cu toate acestea, dacă aveți intrări personalizate, obțineți tot ce este mai bun din ambele lumi. Conținutul poate fi umplut cu informații prietenoase pentru oameni, iar informațiile există ca date gata să servească orice scop imi vine în minte.
Luați, de exemplu, un generator de site static precum Eleventy, care s-a bucurat de un pic de dragoste din partea comunității dezvoltatorilor în ultima vreme. Scrii o postare, o rulezi printr-un șablon și ești de aur. Deci, de ce să nu încorporăm marcajul semantic în șablonul în sine?
La fel ca Eleventy, noua versiune a site-ului nostru webzine muzical folosește Markdown pentru postările sale. Deși avem aceleași postări text vechi pe care le-am avut întotdeauna, acum fiecare recenzie include și următoarele intrări de metadate, care sunt apoi introduse în șablon:

Împreună cu detaliile autorului în corpul postării și câteva informații generice despre site-ul web, aceasta se traduce apoi în următorul marcaj semantic:
<script type="application/ld+json"> { "@context": "https://schema.org/", "@type": "Review", "reviewBody": "One of the definitive albums released by, quite possibly, the greatest singer-songwriter we've ever seen. To those looking to probe Young's daunting discography: start here.", "datePublished": "2020-08-14", "author": [{ "@type": "Person", "name": "Andre Dack" }, { "@type": "Person", "name": "Frederick O'Brien" }, { "@type": "Person", "name": "Marcus Lawrence" }], "itemReviewed": { "@type": "MusicAlbum", "name": "After the Gold Rush", "@id": "https://musicbrainz.org/release-group/b6a3952b-9977-351c-a80a-73e023143858", "image": "https://audioxide.com/images/album-artwork/after-the-gold-rush-neil-young.jpg", "albumProductionType": "https://schema.org/StudioAlbum", "albumReleaseType": "https://schema.org/AlbumRelease", "byArtist": { "@type": "MusicGroup", "name": "Neil Young", "@id": "https://musicbrainz.org/artist/75167b8b-44e4-407b-9d35-effe87b223cf" } }, "reviewRating": { "@type": "Rating", "ratingValue": 27, "worstRating": 0, "bestRating": 30 }, "publisher": { "@type": "Organization", "name": "Audioxide", "description": "Independent music webzine founded in 2015. Publishes reviews, articles, interviews, and other oddities.", "url": "https://audioxide.com", "logo": "https://audioxide.com/logo-location.jpg", "sameAs" : [ "https://facebook.com/audioxide", "https://twitter.com/audioxide", "https://instagram.com/audioxidecom" ] } } </script>
Acolo unde înainte era doar text, pe fiecare pagină de recenzie vor exista acum și versiuni care pot fi citite de mașină a ceea ce văd cititorii când vizitează site-ul. Cuvintele sunt încă acolo, conținutul abia s-a schimbat deloc - a fost doar alimentat cu date. De la rezultate bogate de căutare până la pagini interactive cu statistici pentru recenzii, acest lucru crește masiv ceea ce este posibil. Drumul din față este larg și deschis. De asemenea, ne oferă o miză în viitorul MusicBrainz. Conectând datele lor la propriile noastre date, vrem, la rândul nostru, să vedem că se descurcă bine și ne vom face partea pentru a ne asigura că o face.
Marcajul semantic adecvat depinde de natura unui site web, dar este posibil ca acesta să existe. Începeți cu intrările evidente (data, autorul, tipul de conținut etc.) și deschideți-vă drumul în buruienile conținutului. Primul pas ar putea fi la fel de simplu ca un hCard (un fel de carte de identitate digitală) pentru site-ul dvs. personal. Imprimați capturi de ecran ale paginilor și începeți adnotarea. Veți fi uimit de cât de mult conținut poate fi alimentat cu date.
De neimaginat
Proiectarea și dezvoltarea pentru Web-ul semantic este o practică care datează de la idealurile fondatoare ale Internetului. Indiferent dacă prețuiți vizualizarea datelor frumoase și informative, doriți rezultate de căutare mai sofisticate, doriți să eliminați puterea monopolurilor web sau pur și simplu credeți în informații gratuite și deschise, Web-ul semantic este aliatul dvs.
Aaron Swartz și-a încheiat manuscrisul cu un apel la speranță:
„Web-ul semantic se bazează pe pariu, un pariu că oferirea lumii instrumente pentru a colabora și a comunica cu ușurință va duce la posibilități atât de minunate încât cu greu ne putem imagina chiar acum.”
Rezumat Wikipedia Denny Vrandecic face ecou aceste sentimente astăzi, spunând:
„Este nevoie de o infrastructură web care să faciliteze interoperabilitatea între servicii, ceea ce necesită un set comun de standarde pentru reprezentarea datelor și protocoale comune între furnizori.”
Web-ul semantic a șchiopătat suficient de mult încât să fie clar că este puțin probabil să apară un limbaj de tip glonț de argint, dar acum există destui care coexistă pașnic pentru ca visul fondator al lui Berners-Lee să devină o realitate pentru cea mai mare parte a rețelei. Fiecare dintre noi poate fi avocat în cartierele noastre.
Fii mai bun, cere mai bine
După cum a spus Tim Berners-Lee, Web-ul semantic este o cultură la fel de mult pe cât este un obstacol tehnic. Într-un TED Talk din 2009, el a rezumat frumos: creați date legate, solicitați date legate . Asta e mai adevărat acum decât oricând. World Wide Web este atât de deschis, conectat și bun pe cât îl forțăm noi să fie. Ori de câte ori faci ceva online, întreabă-te: „Cum se poate conecta acest lucru la Web-ul semantic?” Răspunsurile vor adăuga noi dimensiuni lucrurilor pe care le creăm și vor crea noi posibilități inimaginabil de minunate pentru anii următori.