L'évolution du web vers la synthèse

L’évolution du web vers la synthèse et l’intelligence artificielle

Le web sémantique : Présent dans la recherche de tous les jours

En 1999, Tim Berners-Lee a décrit sa vision de l’avenir d’Internet. Il décrivit les ordinateurs étant capable d’analyser et de comprendre les mêmes informations que nous, et de devenir des assistants virtuels personnalisés. Imaginez l’application de calendrier sur votre appareil mobile observant un conflit d’horaire lorsque vous commencez à réserver un voyage sur Weekendesk. Ou que votre ordinateur effectue toutes les recherches nécessaires pour justifier votre décision et établit un rapport de recherche détaillé à l’appui d’une décision prête pour vous dans la matinée. Pour beaucoup, c’est la véritable destination d’Internet, et tout le partage social qui a attiré l’attention de tout le monde dans le web 2.0 est un aperçu simple de ce qui est à venir. Un auteur du blog, a décrit en disant:  » C’est une orgie de données et votre serveur y est invité « .

Depuis une dizaine d’années, un mouvement appelé le Web sémantique (hyper-médias) a été adopté pour permettre cette vision. On pense que par bien annoter un document HTML, permettra à un ordinateur de consommer et de comprendre l’information, un peu comme un humain le ferait et donc être en mesure de prendre des décisions éclairées et à agir en notre nom. Pour ce faire, il doit y avoir la structure, les définitions relationnelles et des protocoles d’annotation de plusieurs vocabulaires descriptifs et suivis. Jusqu’à présent, l’adoption a été anémique.
Cependant, pour de nombreuses raisons, l’effort a jusqu’ici été scindé en factions de diverses technologies concurrentes. La création et le soutien limité par les navigateurs ainsi que les moteurs de recherche ont limités les précoces à explorer la technologie plus profondément.

Mais récemment, cette situation a changé depuis l’apparition de l’HTML5, technologie prenant en charge le marquage sémantique dans tous les navigateurs modernes. Les moteurs de recherche ont commencé à récompenser les sites Web utilisant les Rich Snippets en affichant dans leurs résultats de recherche les données sémantiques ( étoiles d’évaluation, image de profil google, etc.). Des rapports ont été rédigés, beaucoup de firmes ont vu leur trafic augmenté près de 30 %, en raison de leurs implémentations de la norme RDFa et des Rich Snippets.

Récemment d’autres entreprises utilisent également des balises sémantiques. Facebook ont été les premiers à se démarquer en utilisant la norme RDF avec la création de l’OpenGraph en 2009 et ont récemment commencés à utiliser le marquage de profils utilisateurs et événementiel avec les micro-formats hCard et hCalendar. Google a poussé l’authentification des auteurs et lds ouvrages rédigés avec l’annotation XFN rel= »me ». Yahoo Tech et LinkedIn ont tout deux adoptés également la norme des micro-formats dans leurs données.

En réponse à cette confusion et complexité, un consortium des principaux moteurs de recherche, y compris Google, Yahoo, Microsoft et Yandex, se sont réunis pour créer une approche standardisée, appelée Schema.org. Elle suppose l’utilisation des micro-données à grande échelle plutôt que RDF / RDFa et constitue une ressource unique pour les principaux vocabulaires sémantiques à utiliser. L’espoir est que, en simplifiant la technologie et la standardisation, ces obstacles à l’adoption se verront réduits et que la plupart des industries commencent à adopter cette technologie.

Alors, comment peut-on mettre en oeuvre une annotation sémantique ?

Il y a deux cadres d’annotation primaires qui sont le langage de définition de ressource (RDF / RDFa) et Microformats. RDF peut être utilisé avec le balisage du document HTML avec ce qu’on appelle Sujet-Prédicat-Objet triple. C’est un langage robuste qui est le plus couramment utilisé pour d’autres ensembles de données fiables qui nécessitent des données de liens profonds. Il a été critiqué pour sa complexité, cependant une révision récente appelée RDFa a été mise en place ce qui rend la technologie plus facile à utiliser, avec un accent sur l’utilisation d’attributs. Voici un exemple de ce que pourrait ressembler un objet simple en RDFa :

</pre>
<div xmlns:v=”http://rdf.semantic-vocabulary.org/#” typeof=”v:Person”>
 <p>Name: <span property=”v:name”>Rémi Morin</span></p>
 <p>Title: <span property=”v:title”>Référenceur web, chargé de veille emarketing</span></p>
</div>
<pre>

Les Micro-formats quant à eux, ont été développés visant la simplicité pour une implémentation dans un document HTML. Les Micro-données sont un sous-ensemble des Micro-formats que Schema.org a mis en place. Créant sa propre API DOM dans la spécification HTML5, c’est donc la future norme présumée pour la plupart des sites internet :

</pre>
<div itemscope itemtype=”http://semantic-vocabulary.org/Person”>
 <p>Name: <span itemprop=”name”>Rémi Morin</span></p>
 <p>Title: <span itemprop=”title”>Référenceur web, chargé de veille emarketing</span></p>
</div>

À un certain niveau, les concepts sont assez simples, mais il y a de nombreuses ontologies et vocabulaires sémantiques qui ont été définis et sont référencés dans le but de donner un sens à votre RDF ou attributions Microformat. Remarqué la référence sémantique vocabulary.org ci-dessus ? Elle fait appel à un schéma défini hCard, ou dans l’exemple suivant est une personne qui y est définie. Schema.org a défini un grand nombre d’entre eux directement pour les micro-données, mais il en existe d’autres comme base Dublic, DocBook et les Goodrelations qui est très populaire en particulier pour le commerce électronique. Il y a des plugins disponibles pour un grand nombre CMS, principalement dans le commerce électronique pour aider à mettre en place un balisage sémantique.

Imaginez le web 4.0

Tom Jenkins, président exécutif d’Open Text a récemment fait l’objet d’un discours sur l’apparition du web 3.0 web sémantique et d’Internet objet ainsi que de ses prédictions pour le Web 4.0. Jenkins a noté que  » Les natifs du numérique, décrits comme super-connectés fous de technologie âgées de 30 ans et au-dessous, demandent d’avantages de gadgets et de nouvelles applications qui vantent les gains de productivité et de temps. C’est cette demande qui est le moteur de l’arrivée précoce du Web 3.0, ou le Web sémantique.  »

Jenkins prédit que le Web 4.0 arrivant dans notre vie de tous les jours dans les cinq ans :  » Les environnements virtuels ne sont plus limités aux laboratoires de recherche et cette paire de lunettes 3D pour les films peuvent être utilisés plus souvent que jamais. » Jenkins perçoit le Web 4.0 basé sur la virtualisation, en déclarant :  » Pensez à un monde virtuel, se représenter comme étant un avatar, possédant une paire de lunettes 3D virtuels et que l’on puisse marcher dans les nuages.  »

Jenkins a également exprimé le besoin croissant de gestion des connaissances et le danger pour les entreprises d’ignorer les médias sociaux: « Environ 45% des entreprises au niveau mondial interdisent l’accès des employés aux sites de médias sociaux. » Jenkins avertit que ces sociétés finiront par «perdre leur compétitivité» et exhorte le développement des politiques de l’entreprise pour guider utilisation des médias sociaux.

Je vous invite à lire un article intéressant avec l’arrivée du Knowledge Graph de Google en France complétant mes arguments illustrés ici ainsi que dans un de mes articles sur la présentation du graphe de connaissance dynamique de google lorsqu’il était sorti aux Etats-Unis que j’avais rédigé auparavant .

Article édité le 07/12/2012

Rémi Morin

Veilleur - Référenceur Gestion de l'identité numérique des entreprises soucieuses de leur e-reputation, et conscientes de la plus-value que peut apporter la bonne gestion de leur présence en ligne.

Follow Me:
TwitterFacebookLinkedInPinterestGoogle Plus

Comment bien mettre en oeuvre l'implémentation des microdonnées
Comment bien mettre en oeuvre les microdonnées

Le web sémantique n’a jamais fait parler de lui, mais récemment, tout le monde en parle. Les taux d’adoption de la standardisation RDFamicro-données et d’autres types de données structurées ont été lente à se faire identifier en raison de du peu d’avantages de les ajouter aux pages.

Les moteurs de recherche, et en particulier Google, ont commencé à utiliser les rich snippets. Les balises Meta robots et robots.txt sont deux exemples adoptés par les moteurs de recherche pour la découverte de contenu.

Qu’est-ce que sont les  schémas ?

Les schémas sont des balises HTML que les développeurs web utilisent pour le balisage de leurs pages avec un langage lisible décrivant le contenu de la page. Le balisage peut être lu et compris par les principaux moteurs de recherche et autres robots ou programmes.

Les développeurs web utilisent la norme de schema.org pour ajouter des données structurées au sujet de leur contenu des pages. Schema.org fournit le vocabulaire et le format de micro-données (normes ouvertes de format de données), et permet d’ajouter une couche supplémentaire d’informations au contenu HTML constitué d’un ensemble de balises introduites par la technologie de l’HTML5.

L’objectif à long terme de cette démarche est de couvrir un large éventail de formats. L’objectif initial étant les micro-données.

Ce guide vous aidera à vous mettre en adéquation avec les micro-données et la norme schema.org, de sorte que vous pourrez commencer à ajouter des balises à vos pages web. Google fournit un outil de validation pour les richs snippet, que vous pouvez utiliser pour tester votre balisage et d’identifier d’éventuelles erreurs.

Une considération importante est de savoir qui sont les contrôleurs de schema.org ? Un consortium des principaux moteurs de recherche – Google, Microsoft et Yahoo.

Tous les participants sont des entreprises publiques. Que faire si le conseil décide que la norme schema.org doit être un centre de profit et décident de rendre la norme payante ? Y a t-il quoi que ce soit que l’on peut faire pour arrêter cela ?

Même s’il n’est pas dans le champ d’application de cet article de répondre à cette question, il est important de considérer au moins les évolutions futures possibles.

Les moteurs de recherche ont commencés à utiliser ces données structurées en ajoutant des extraits rich snippets aux résultats des moteurs de recherche, ce qui va augmenter, car il y a un impact certain et positif sur le taux de clic (CTR). Principalement sur l’ajouts de commentaires (étoiles), des images (vidéos) et d’autres caractéristiques de rich snippets qui les démarquent dans les SERP.

Cela peut paraître comme un avantage sur le classement, mais il y a beaucoup d’autres moyens moins coûteux de réaliser des augmentations similaires sur le taux de clics sans le coût du balisage supplémentaire.

Identifier les micro-données

On pourrait penser que ces données pourrait alourdir les sitemaps. Google utilise le sitemap pour assigner vos données à son moteur.
Commencez par ajouter des micro-formats à l’HTML en ajoutant l’élément ItemScope spécifier dans le bloc HTML (div) et ajoutez l’attribut ItemType après pour identifier le type. Voici un extrait à partir du site schema.org expliquant les différents types d’éléments :

&lt;itemtype = &quot;http://schema.org/Event&quot;&gt;&lt;/itemtype&gt;

Le type le plus large pour la norme schema.org est Thing (Chose), qui possède quatre propriétés : nom, description, url et l’image.

Les types plus spécifiques partagent des propriétés plus larges. Par exemple, une événement (Event) est un type plus spécifique que la chose (Think), et un festival (Festival) est un type plus spécifique que événement.

Les articles plus spécifiques héritent des propriétés de leur parent. (En fait, un festival est un type moins spécifique que un événement qui a son tour est un type moins spécifique que organisation, de sorte qu’il hérite des propriétés de deux types de parents.)

Plus d’informations sur la hiérarchie des typages de la norme schema.org.

La propriété d’un élément utilise l’attribut itemprop englobant l’information se rapportant à la propriété :

&lt;h2&gt;Evènement : &lt;span itemprop = &quot;name&quot;&gt; Titre de l'évènement&lt;/span&gt;&lt;/h2&gt;

Utilisez les balises span pour associer les attributs itemprop vers le texte approprié sur la page. Lorsque vous êtes incapable de marquer le balisage de l’information (par exemple une date de création d’article) utiliser la méthode méta comme ceci:

&lt;meta itemprop = &quot;dateCreated&quot; content = &quot;2012-03-08&quot; /&gt; (format iso 8601 pour les dates)

Il est possible qu’un itemprop peut être un itemtype lui-même par exemple, si vous avez y inclus des critiques ou des personnes impliquées dans l’article comme un contributeur ou l’auteur et dans ce cas, vous l’intégrer dans les données comme ceci:

&lt;div itemprop = &quot;Review&quot; itemscope itemtype = &quot;http://schema.org/Review&quot;&gt;
&lt;span&gt;Auteur : &lt;span itemprop = &quot;author&quot;&gt; Un auteur &lt;/span&gt; (né le 12 Septembre 1754) &lt;/span&gt;
&lt;/div&gt;

Dans tous les cas, votre balise div ouverte doit avoir une balise de fermeture comme illustré ci-dessus.

La plupart des types sur schema.org ont des « types » qui sont attendus du texte et des URL. Cela permet aussi à un type parent (illustré ci-dessus), qu’il peut inclure des types d’enfants.

Les pages qui sont une collection d’éléments doit avoir chaque élément marqué séparément et utiliser l’attribut itemprop avec la valeur « url » pour faire un lien vers une page comme ceci:

&lt;div itemscope itemtype = &quot;http://schema.org/Person&quot;&gt;
&lt;a href=&quot;page1.php&quot; itemprop = &quot;url&quot;&gt; page 1 &lt;/a&gt;
&lt;/div&gt;
&lt;div itemscope itemtype = &quot;http://schema.org/Person&quot;&gt;
&lt;a href=&quot;page2.php&quot; itemprop = &quot;url&quot;&gt; page 2 &lt;/a&gt;
&lt;/div&gt;

Meilleures pratiques de mise en oeuvre

  • Ne pas attacher des attributs pour cachés du contenu.
  • Ne pas entrer des valeurs qui sont destinées à tromper quelqu’un ou quelque chose (par exemple les moteurs de recherche).
  • Testez, testez et testez et retestez de nouveau et vous connaîtrez la véritable valeur des micro-formats que vous obtiendrais de la tâche de tous formaliser vos pages !

Ressources en ligne pour la normalisation schema.org

Rémi Morin

Veilleur - Référenceur Gestion de l'identité numérique des entreprises soucieuses de leur e-reputation, et conscientes de la plus-value que peut apporter la bonne gestion de leur présence en ligne.

Follow Me:
TwitterFacebookLinkedInPinterestGoogle Plus