セマンティックWeb向けの開発

公開: 2022-03-10
簡単な要約↬機械可読インターネットの夢はインターネット自体と同じくらい古くからありますが、それが実際に可能になっているのはごく最近のことです。 主要なWebサイトがコンテンツのデータ化に向けて前進している今こそ、時流に乗る絶好の機会です。

7月、ウィキメディア財団は、言語に依存しない知識をマークアップする試みであるAbstractWikipediaを発表しました。 多くの点で、これは何十年にもわたる蓄積の集大成であり、その間、セマンティックWebの夢は完全に実現したことはなく、完全に消滅したこともありません。

実際のところ、セマンティックWebは成長しており、その使命を更新するにつれて、個人のブログであれソーシャルメディアの巨人であれ、セマンティックマークアップをWebサイトに組み込むことで私たち全員が利益を得ることができます。 洗練されたWebエクスペリエンス、SEO、またはWeb独占の専制政治をかわすことに関心があるかどうかにかかわらず、セマンティックWebは注目に値します。

セマンティックWeb向けに開発することの利点は、必ずしもすぐにわかる、または目に見えるわけではありませんが、それを行うすべてのサイトは、オープンで透過的な分散型インターネットの基盤を強化します。

セマンティックWeb

セマンティックWebとは正確には何ですか? これは機械可読なWebであり、メタデータを介して「アプリケーション、エンタープライズ、およびコミュニティの境界を越えてデータを共有および再利用できるようにする共通のフレームワーク」を提供します。

このアイデアは、ワールドワイドウェブ自体と同じくらい古いものです。 実際、古い。 それはティムバーナーズリーの1989年の提案の焦点でした。 彼が概説したように、ドキュメントはWebを形成するだけでなく、そののデータも次のようにする必要があります。

ティムバーナーズリーのワールドワイドウェブ提案からCERNへの図
ティムバーナーズリー卿のワールドワイドウェブに対する最初の提案からの図。 (大プレビュー)

セマンティックWebは、それ以来数十年で岩だらけの道を歩んでいます。 ミレニアムの変わり目以来、それは複数の概念(オープンデータ、知識グラフ)に変化しました。これらはすべて、事実上同じこと、つまりデータの網を意味します。

ジャンプした後もっと! 以下を読み続けてください↓

W3Cが要約しているように、これは「情報に明確な意味が与えられ、コンピューターと人々が協力して作業できるようにする現在のWebの拡張」です。

群衆の前で話すアーロン・スワーツ
2012年にスピーチするアーロン・スワーツ。写真はダニエル・J・シエラドスキー。 (大プレビュー)

このアイデアには、支持者のかなりの割合があります。 インターネットハクティビストのAaronSwartzが、セマンティックWebに関する本の原稿A ProgrammableWebを作成しました。 その中で彼は書いた:

「ドキュメントを実際にマージして統合し、クエリすることはできません。 それらは主に、表示およびレビューされる分離されたインスタンスとして機能します。 しかし、データは変幻自在であり、ニーズに最も適した形にシフトすることができます。」

さまざまな理由から、セマンティックWebは追いついてきていますが、Webと同じように普及していません。 何年にもわたって、いくつかのマークアップ(RDFa、OWL、Schemaなど)がマントルをつかもうとしましたが、HTMLやCSSのように標準になったものはありません。 参入障壁が高すぎた。

ただし、セマンティックWebの夢は根強く残っており、セマンティックWebをデザインに組み込むサイトが増えるにつれ、パーティーに参加する理由はますます増えています。 参加するサイトが多いほど、セマンティックWebは強力になります。

参考文献

  • データインテリジェンス
  • セマンティックWeb、Tim Berners-Lee、James Hensley、およびOraLassilaによる2001年の記事
  • W3Cの信頼できるWebコミュニティグループ

国境のない知識

セマンティックWebの設計方法の雑草に入る前に、その理由をもう少し深く掘り下げる価値があります。 データが接続されているかどうかは重要ですか? ドキュメントを十分に接続していませんか?

セマンティックWebが、無料でオープンなインターネットを気にする人々によって押し続けられている理由はいくつかあります。 これらの理由を理解することは、実装プロセスに不可欠です。 「野菜を食べて、セマンティックマークアップを使用する」場合ではありません。 セマンティックWebは、信じてその一部となるものです。

セマンティックWebの利点は次のとおりです。

  • より豊かで洗練されたWebエクスペリエンス
  • コンテンツサイロとインターネット独占を回避する
  • 検索エンジンの読みやすさとランキングの向上
  • 情報の民主化

これらのほとんどは、セマンティックWebの中心的な信条であるデータのユニバーサル言語にまでさかのぼることができます。 インターネットはすでに国際コミュニケーションに驚異的ですが、一部の国が他の国よりもはるかに優れているという事実から逃れることはできません。 たとえば、Webで使用されている言語と、現実の世界で使用されている言語を比較します。 あなたの間のワシの目は、以下のデータのわずかな不均衡を見つけることができるかもしれません…

オンラインと実生活で話されている言語を比較した棒グラフ
Webで使用されている言語の割合は、現実の世界で使用されている言語と一致していません。 (大プレビュー)

ウェブのボーダレスなユートピアは、英語を話すバブルの中の私たちのように見えるほど近くはありません。 それは誰かを懲らしめるものですか? 必ずしもそうとは限りませんが、それは直面するものです。 そうすることで、これらのギャップを埋めるマークアップの重要性が浮き彫りになります。 Webのデータを充実させることで、言語の負担を軽減します。

これは最近発表されたAbstractWikipediaの核心であり、記事をたまたま書かれている言語から切り離そうとします。WikimediaのエグゼクティブディレクターであるKatherine Maherは、次のように書いています。自分の言語。 成功すれば、最終的には誰もがウィキデータのあらゆるトピックについて自分の言語で読むことができるようになるでしょう。」

AbstractWikipediaの作成者であるDennyVrandecicは、セマンティックWebの支持者であり、オンラインで未開拓の可能性を解き放つ可能性を認識しています。 そのプロセスには、国の障壁を打ち破ることが不可欠です。

「コンテンツを公開する言語に関係なく、世界中の大多数の人々を含めることを見逃してしまいます。 Webは、グローバルにリーチするこの素晴らしい機会を与えてくれましたが、単一の言語または少数の言語セットに依存することで、この機会を浪費しています。 最も重要な目的は、そもそも優れたコンテンツを作成することですが、言語に依存しないことで、より多くの人々をより優れたコンテンツの開発に参加させることができます。 それはあなたが貢献と消費への障壁を下げるのを助けます、そしてそれはより多くの人々がその努力から利益を得るのを許します。」

— Denny Vrandecic、AbstractWikipediaクリエーター

これのタイムリーな例は、COVID-19パンデミック中のデータの視覚化です。 このウイルスは世界中で言葉では言い表せないほどの大混乱を引き起こしましたが、オープンデータネットワークにとっても輝かしい瞬間であり、優れたWebアプリやレポートなどをWeb全体で共有できるようになりました。

ncovid2019.liveのホームページ
ncovid2019.liveダッシュボードは、アメリカの高校生Avi Schiffmanによって作成され、WHO、CDC、およびCOV19からデータを取得します。 (大プレビュー)

そしてもちろん、データが透過的で簡単にアクセスできる場合は、異常を特定しやすくなります。 上記の種類の情報への広範な一般のアクセスは、20年前でさえ考えられないでしょう。 今、私たちはそれを期待し、それが私たちを否定したときにネズミの匂いを嗅ぎます。 データは強力であり、必要に応じて、永久に使用することができます。

同様に、最新のWebエクスペリエンスの特徴であるコンテンツのサイロから自分自身をチェックすることで、Google、Facebook、TwitterなどのWeb独占から力を奪うことができます。 私たちは、情報を解読して提示するサードパーティのプラットフォームに慣れているため、厳密には必要ではないことを忘れています。

「フォーマットやプロトコルを共有していても、特定の市場で特定のプロバイダーが大きな役割を果たしてしまう可能性があります。Gmailforemailを考えてみてください。ただし、誰もが別のプロバイダーに自由に移動でき、市場は競争力を維持しています。」

— Denny Vrandecic、AbstractWikipediaクリエーター

セマンティックWebはサイロレスです。 それは無料で、オープンで、抽象的であり、そうでなければはるかに困難な異なる言語やプラットフォーム間のコミュニケーションを可能にします。

データファイリングオンラインコンテンツ

セマンティックWebの設計は、データに基づいたオンラインコンテンツに要約されます。つまり、コンテンツを調べて、何を抽象化できるか(そして抽象化する必要があるか)を確認します。 これは、それがやりがいのあることであることに漠然と同意することを超えて、実際的な意味で何を意味しますか? 場合によります:

  1. プロジェクトを最初から開始する場合は、セマンティックWebの考慮事項を作業に組み込んでください。 ウェブサイトが形になるにつれて、セマンティックマークアップをそのDNAに織り込みます。
  2. プロジェクトを更新または再構築する場合は、現在セマンティックWebに組み込まれていないものを評価してから、実装します。

どちらの場合も、基本的にはデータに対応するコンテンツになります。 このセクションでは、データの抽象化の例と、それによってコンテンツをより良く、よりスマートに、より広く利用できるようにする方法について説明します。

情報の抽象化

セマンティックWebの設計と開発とは、データを身に付けた状態でオンラインコンテンツを確認することを意味します。 私たちのほとんどは、一連の接続ドキュメントまたはページとしてWebを体験します。 セマンティックWebでやりたいのは、情報を接続することです。 これは、データポイントのコンテンツを評価し、見つけたものに基づいてデザインを調整することを意味します。

セマンティックWebの支持者であるJamesHendlerは、このプロセスを彼のDIVEの精神で特によく概説しています。 (データに飛び込みます、え?え?)。 それは次のように分類されます:

  • 発見する
    データセットやコンテンツ(組織外を含む)を検索します。
  • 統合
    意味のあるラベルを使用して関係をリンクします。
  • 検証
    モデリングおよびシミュレーションシステムへの入力を提供します。
  • 探検
    データを実用的な知識に変えるためのアプローチを開発します。

セマンティックWeb向けに開発することは、主に、作成したものを俯瞰的に表示し、それが無限に豊かなWebエクスペリエンスにどのように役立つかを示すことです。 ヘンドラーが言うように、実用的な知識が目標です。

これは実際にはほとんどすべてのタイプのWebコンテンツに適用できますが、一般的な例であるレシピから始めましょう。 毎週木曜日に新しいレシピを使って料理ブログを運営しているとします。 あなたがフランス語で、スフレのレシピを個人のブログにプレーンテキストで投稿する場合、それはフランス語を読むことができる人にのみ役立ちます。

ただし、セマンティックマークアップを実装することにより、ブログを機械可読レシピデータセットに変換できます。 抽象化される料理用語の構文が存在します。 たとえば、Microdata、RDFa、またはJSON-LDと一緒に機能するスキーマには、次のようなマークアップがあります。

  • 準備時間
  • 調理時間
  • レシピ収量
  • レシピ成分
  • 見積費用
  • 栄養、カロリーと脂肪に分解コンテンツ
  • 適切なForDiet。

私は続けることができました。 例を含むすべてのオプションは、Schema.orgで読むことができます。 それらを投稿形式に追加する際に、レシピの形式をまったく変更する必要はありません。単に、コンピューターが理解できる用語で情報を入力するだけです。

BBCコテージパイレシピのスクリーンショット
編集コンテンツをデータに変換することにより、BBCレシピは潜在的な有用性を大幅に向上させます。 (クリックすると大きなプレビューが表示されます)

たとえば、上記のBBCレシピで青で強調表示されているものはすべて、調理時間から栄養成分まで、セマンティックマークアップも与えられています。 GoogleのリッチリザルトテストにレシピのURLを入力すると、内部で何が起こっているかを確認できます。 セマンティックWebの実装によって可能になった接続の例である「ショッピングリストに追加」機能に注意してください。 良いコンテンツは使えるデータになります。

私たちのほとんどは、検索結果を介してこの種の洗練された道を渡りましたが、アプリケーションはそれよりもはるかに広いです。 レシピのセマンティックマークアップにより、ホームアシスタントがWebサイトを簡単に見つけて使用できるようになります。 記載されている食材は地元のスーパーマーケットから注文できます。 レシピは、ダイエット、アレルギー、宗教、コストなど、さまざまな方法でフィルタリングできます。 または、家の中に限られた数の材料があったとしましょう。 データベースを使用すると、それらの材料を入力して、どのレシピが法案に適合するかを確認できます。

可能性の範囲は本当に無限に国境を接しています。 スワーツが言ったように、データは変幻自在です。 あなたがそれを手に入れたら、あなたはそれをあらゆる種類の奇妙で素晴らしい方法で使うことができます。 この作品は、それらを可能にすることについてではなく、それらの奇妙で素晴らしい方法についてではありません。 セマンティックWebのデザインは、その後のデザインを無限に豊かにします。

これが私が何を意味するかを示すためのより個人的な例です。 数人の友人と私は趣味として小さな音楽ウェブマガジンを運営しています。 奇妙な記事やインタビューを公開していますが、「メインイベント」は毎週のアルバムレビューで、3人がそれぞれスコアを割り当て、お気に入りのトラックを選択し、要約を書きます。 私たちは5年以上行ってきました。つまり、250近くのレビューがあり、これは非常に多くの潜在的なデータを意味します。 サイトの再設計を開始するまで、私たちはどれだけ気づいていませんでした。

構造化データを設計プロセスに組み込む方法について、これに触れました。 レビューを分析したところ、セマンティックマークアップを与えることができる情報がぎっしり詰まっていることがわかりました。 アーティスト、アルバム名、アートワーク、リリース日、個々のスコア、全体的なスコア、リリースタイプなど。 さらに、これが本当にエキサイティングなところです。既存のデータベースであるMusicBrainzに接続できることに気づきました。

この双方向のアプローチは、セマンティックWebの核心です。 私たちの音楽ウェブサイトがリニューアルすると、それは何千ものユニークなデータポイントを持つ独自のオープンデータソースになります。 既存の音楽データベースに接続すると、私たち自身のデータにより多くのコンテキストと可能性がもたらされます。 数千のデータポイントが数万のデータポイントになり、場合によってはそれ以上になります。

セマンティックマークアップがアルバムレビューでどのようにつながるかを示すグラフ
いくつかの単純なセマンティックマークアップを使用すると、一見無害に見えるWebページが巨大な情報ネットワークの中心になる可能性があります。 (大プレビュー)

上の図は、レビューページに接続される情報の量のほんの一部にすぎません。 コンテンツは以前と同じですが、メタデータエコシステムにプラグインされています。これは、バーナーズリーがかつて呼んだように、ジャイアントグローバルグラフです。

セマンティックWeb向けに開発するということは、自分のデータを識別し、それをマークアップしてから、他のデータとの接続方法を推測することを意味します。 そうだから。 常にそうです。 そして、そのプロセスはこのように…

セマンティックデータがWebページ間でどのように接続するかを示す図
(大プレビュー)

…やがてこれになります…

リンクトオープンデータクラウド
Linked Open Data Cloudは、オンラインでリンクされたデータの状態を常に更新します。 (大プレビュー)

2番目の画像は、リンクトオープンデータクラウドです。これは、Webに接続されたデータの視覚化を常に更新しています。 そのつながりの赤い巣は科学です。 残りは行く方法があります。 それが私たちの出番です。

便利なセマンティックWebリソース

  • w3schools.comのRDF
  • W3CのRDFバリデーター
  • W3Cによる「セマンティックWebが簡単に」
  • 「セマンティックWebに何が起こったのか?」 2ビット履歴
  • JSON-LDジェネレーター
  • Googleの構造化データマークアップヘルパー

プラグイン

セマンティックWebの理想は接続です。 データを作成し、データを共有し、データを要求します。 情報エコシステムの一部になりましょう。 オリジナルのデータを作成するときは、すばらしい。 共有する。 データがすでに存在し、それを使用したい場合は、それをプルします。

そこにあるデータリソースのほんの一握りがここにあります:

  • DPpedia
  • MusicBrainz
  • WorldCat
  • ISBNdb

確かに、このようなデータベースが存在する場合、情報が不足している場所でデータベースを更新するのが正しいことだと私は言います。 なぜあなた自身にそれを保つのですか? 寄稿者、セマンティックWebの支持者になります。

実装

セマンティックWebnessをサイトに組み込む限り、私は確かに手動のドキュメントごとのマークアップを推奨していません。 誰がそのための時間を持っていますか? 多くの場合、解決策は、フォーマットを標準化してテンプレート化する場合です。

テンプレートはここでの大きなチャンスです。 そのすべての情報を手動でマークアップする時間がある人は本当に何人いますか? ただし、カスタム入力がある場合は、両方の長所を活用できます。 コンテンツは人に優しい情報で満たすことができ、その情報は、思いついた目的に役立つデータとして存在します。

たとえば、最近開発者コミュニティからの愛情を少し楽しんでいるEleventyのような静的サイトジェネレーターを考えてみましょう。 あなたは投稿を書き、それをテンプレートに通すと、あなたは金色になります。 では、セマンティックマークアップをテンプレート自体に組み込んでみませんか?

11のように、私たちの音楽ウェブマガジンサイトの新しいバージョンはその投稿にMarkdownを使用しています。 以前と同じ古いテキスト投稿がありますが、すべてのレビューには次のメタデータ入力も含まれています。これらの入力はテンプレートに取り込まれます。

マークダウンドキュメントのメタデータ入力
メタデータ入力をテンプレートに組み込むと、コンテンツをデータに変換でき、特定の投稿のアップロードに最大で数分追加されます。 (大プレビュー)

投稿の本文にある作成者の詳細といくつかの一般的なWebサイト情報とともに、これは次のセマンティックマークアップに変換されます。

 <script type="application/ld+json"> { "@context": "https://schema.org/", "@type": "Review", "reviewBody": "One of the definitive albums released by, quite possibly, the greatest singer-songwriter we've ever seen. To those looking to probe Young's daunting discography: start here.", "datePublished": "2020-08-14", "author": [{ "@type": "Person", "name": "Andre Dack" }, { "@type": "Person", "name": "Frederick O'Brien" }, { "@type": "Person", "name": "Marcus Lawrence" }], "itemReviewed": { "@type": "MusicAlbum", "name": "After the Gold Rush", "@id": "https://musicbrainz.org/release-group/b6a3952b-9977-351c-a80a-73e023143858", "image": "https://audioxide.com/images/album-artwork/after-the-gold-rush-neil-young.jpg", "albumProductionType": "https://schema.org/StudioAlbum", "albumReleaseType": "https://schema.org/AlbumRelease", "byArtist": { "@type": "MusicGroup", "name": "Neil Young", "@id": "https://musicbrainz.org/artist/75167b8b-44e4-407b-9d35-effe87b223cf" } }, "reviewRating": { "@type": "Rating", "ratingValue": 27, "worstRating": 0, "bestRating": 30 }, "publisher": { "@type": "Organization", "name": "Audioxide", "description": "Independent music webzine founded in 2015. Publishes reviews, articles, interviews, and other oddities.", "url": "https://audioxide.com", "logo": "https://audioxide.com/logo-location.jpg", "sameAs" : [ "https://facebook.com/audioxide", "https://twitter.com/audioxide", "https://instagram.com/audioxidecom" ] } } </script>

以前はテキストだけでしたが、すべてのレビューページには、読者がサイトにアクセスしたときに表示されるものの機械可読バージョンもあります。 言葉はすべてまだそこにあり、内容はほとんど変更されていません—それはただデータ化されただけです。 豊富な検索結果からインタラクティブなレビュー統計ページまで、これにより可能性が大幅に向上します。 前方の道は広くて開いています。 それはまた、MusicBrainzの将来への賭けにもなります。 彼らのデータを私たち自身のデータに接続することによって、私たちはそれがうまくいくことを望んでおり、それが確実に行われるように私たちの役割を果たします。

適切なセマンティックマークアップはWebサイトの性質によって異なりますが、存在する可能性があります。 明白な入力(日付、作成者、コンテンツタイプなど)から始めて、コンテンツの雑草に向かって進んでください。 最初のステップは、個人のWebサイト用のhCard(デジタルIDカードの一種)のように簡単です。 ページのスクリーンショットを印刷して、注釈を付け始めます。 データ化できるコンテンツの量に驚かれることでしょう。

想像を超えて

セマンティックWebの設計と開発は、インターネットの創設の理想にまでさかのぼる慣習です。 美しく有益なデータの視覚化を重視する場合でも、より洗練された検索結果が必要な場合でも、Web独占から力を奪いたい場合でも、単に自由でオープンな情報を信じたい場合でも、セマンティックWebはあなたの味方です。

アーロン・スワーツは希望を呼びかけて原稿を締めくくりました。

「セマンティックWebは賭けに基づいています。これは、ワールドツールを使って簡単にコラボレーションやコミュニケーションを行えるようにすることで、今のところ想像もできないほど素晴らしい可能性につながるという賭けです。」

Abstract Wikipedia Denny Vrandecicは、今日これらの感情を反映して、次のように述べています。

「サービス間の相互運用性を促進するWebインフラストラクチャが必要です。これには、データを表すための共通の標準セットと、プロバイダー間での共通のプロトコルが必要です。」

セマンティックWebは、銀の弾丸の言語が表示される可能性が低いことを明確にするのに十分な長さで進んできましたが、バーナーズリーの創設の夢がほとんどのWebで現実になるには、今では十分に平和に共存しています。 私たち一人一人は、自分たちの近所の擁護者になることができます。

より良くなり、より良く要求する

Tim Berners-Leeが言ったように、セマンティックWebは、技術的なハードルであると同時に文化でもあります。 2009年のTEDトークで、彼はそれをうまくまとめました。リンクトデータを作成し、リンクトデータを要求します。 それは今まで以上に真実です。 ワールドワイドウェブは、私たちが強制するのと同じくらいオープンで接続されており、優れています。 オンラインで何かを作成するときはいつでも、「これをセマンティックWebにプラグインするにはどうすればよいですか?」と自問してください。 答えは、私たちが作成するものに新しい次元を追加し、今後何年にもわたって想像を絶する素晴らしい新しい可能性を生み出します。