Un web bien bruyant : protocole

Voici les termes de l'étude réalisée pour écrire l'article Un web bien bruyant. Cette partie étant plus formelle que l'article principal, je l'ai mise à part.

Voici donc les termes de l'étude. Étant donné une page web portant par exemple un article, on souhaite mesurer la part du « signal » par rapport au total. Toute la difficulté et la limite de l'étude tient à la définition du signal, que l'on peut diviser en deux parties : 1. Qu'est-ce qui dans la page constitue le contenu ? 2. Quelle forme retenir et mesurer pour ce contenu ?

On va appeler « contenu » le sujet, la cible affichée de la page. Par exemple pour cette page que vous lisez en ce moment, la cible est le protocole de l'étude, titrée « Un web bien bruyant : protocole », mais pas les métadonnées de l'article, telles que le titre, la date ou l'auteur, qui sont pourtant d'intérêt pour le lecteur. Ainsi on espère gommer les différences de choix éditorial quant à l'affichage de plus ou moins de métadonnées dans la page.

La forme que l'on va retenir du contenu pour mesurer le signal en sera une représentation qui omet jusqu'au balisage HTML (balises <p> de paragraphes ou <a> de liens hypertexte par exemple), pourtant nécessaire à son affichage dans un navigateur. On garde en revanche le texte, les images ou vidéo faisant partie du contenu, ainsi que l'url cible des liens (attribut href des balises <a>) que l'on écrira à la suite du texte des liens. On espère ainsi gommer les différences de choix de codage quant à l'utilisation des balises ou des attributs.

Tout le reste sera appelé « bruit », y compris donc les balisages nécessaires, dont italiques et gras notamment. On ne s'attend donc jamais à obtenir un rapport « signal / total » égal à 1.

Pour chaque étude de cas, on utilisera le navigateur web Mozilla Firefox (c'est mon navigateur au quotidien), en s'assurant de ne pas avoir activé de bloqueur de publicités ou de traceur. Dans l'inspecteur web, on utilisera l'onglet « réseau » et on rechargera la page étudiée en vidant le cache (en appuyant sur les touches Contrôle, Shift et R afin de vider les caches). On obtiendra un tableau comprenant notamment la taille et le type des objets téléchargés, que l'on va enregistrer au format HAR (basé sur JSON). La somme de ces tailles sera la taille totale de la page et servira de base de travail. Ensuite on définira le contenu et on le normalisera pour qu'il ne reste que le texte, les images, vidéos et audio qui le composent. On fera la somme de ces parties pour mesurer le signal. Le score de la page sera :

signal / total

On devrait ainsi faire apparaître la part du contenu dans la masse téléchargée.

Il faut noter quelques limites à ce protocole.

D'abord tous les contenus ne sont pas égaux en volume. Un contenu vidéo par exemple sera plusieurs ordres de grandeur plus lourd que du texte. Donc à quantité de bruit égale, la vidéo disposera d'un score bien meilleur que du texte.

Ensuite un même site web peut disposer de contenus très variés. Wikipédia dispose par exemple d'articles très courts et d'autres très longs, d'articles avec des images et d'autres sans. Un moyen de lever ce biais serait de faire un échantillon aléatoire assez large du site et de faire des moyennes.

Enfin en fonction de l'écran et de la qualité du réseau utilisé, les images comme les vidéos et le son téléchargées seront de qualité variable. Cela aura un impact direct sur le score final. Une manière de lever ce biais serait d'aller systématiquement à la pêche aux meilleures versions de chacunes de ces parties.