Cette étude de cas s'intéresse à un article du monde : Nouvelle plainte contre OpenAI pour infraction au RGPD (archive : internet archive). On l'étudie selon le protocole établi pour l'article Un web bien bruyant.
fichier
taille en octet
lemonde_nouvelle-plainte-contre-openai-pour-infraction-au-rgpd.txt
2 944
total
2 944
Quant à la page complète, elle possède des scripts qui chargent à intervalle régulier toute une nouvelle série de publicités. Techniquement cela produit une taille infinie. Pour les besoins de l'étude on va s'arréter au premier cycle.
Et voici pour ce qui aura été téléchargé. On enregistre le contenu du moniteur web en HAR puis on le requête avec jq (jq -r '[.log.entries[]|{method: .request.method, mimetype: .response.content.mimeType, size: .response.content.size}]|group_by(.method, .mimetype)|map(.[0] + {"nombre": length, "total": (map(.size)|add)})[]|[.method, .mimetype, .nombre, .total]|@tsv') :
Méthode Type MIME Nombre Taille GET 7 GET application/javascript 30 1 500 271 GET application/javascript; charset=UTF-8 2 232 379 GET application/javascript; charset=utf-8 5 385 815 GET application/json 3 13 950 GET application/json; charset=UTF-8 2 16 115 GET application/json; charset=utf-8 27 50 566 GET application/x-javascript 22 1 490 014 GET application/x-javascript; charset=utf-8 4 323 460 GET font/woff2 12 457 325 GET image/gif 60 101 998 GET image/jpeg 1 16 553 GET image/png 3 2 230 GET image/svg+xml 5 122 109 GET image/x-icon 1 362 GET text/css 4 1 095 774 GET text/html 25 482 451 GET text/html; charset=ISO-8859-1 4 258 GET text/html; charset=UTF-8 8 363 046 GET text/html; charset=utf-8 19 23 166 GET text/javascript 7 878 010 GET text/javascript; charset=ISO-8859-1 1 218 938 GET text/javascript; charset=UTF-8 15 1 376 914 GET text/javascript; charset=utf-8 3 21 9947 GET text/javascript; charset=utf8 2 109 200 GET text/plain 23 0 GET text/plain; charset=UTF-8 12 92 284 GET text/xml 1 0 HEAD application/javascript 1 0 OPTIONS application/json; charset=utf-8 11 22 OPTIONS text/plain 3 0 POST application/json 8 41 492 POST application/json; charset=UTF-8 7 14 076 POST application/json; charset=utf-8 23 3 816 POST text/html; charset=utf-8 1 7 POST text/plain 15 0 POST text/xml 4 0 Total 381 9 632 548
Ce qui nous amène au rapport « signal / bruit » : 2 944 / 963 2548 = 0,0003.