Un web bien bruyant : Nouvelle plainte contre OpenAI pour infraction au RGPD (Le Monde)

Par , le .

Cette étude de cas s'intéresse à un article du monde : Nouvelle plainte contre OpenAI pour infraction au RGPD (archive : internet archive). On l'étudie selon le protocole établi pour l'article Un web bien bruyant.

fichier taille en octet
lemonde_nouvelle-plainte-contre-openai-pour-infraction-au-rgpd.txt 2 944
total 2 944
Étude de cas n°2 : contenu brut extrait.

Quant à la page complète, elle possède des scripts qui chargent à intervalle régulier toute une nouvelle série de publicités. Techniquement cela produit une taille infinie. Pour les besoins de l'étude on va s'arréter au premier cycle.

Et voici pour ce qui aura été téléchargé. On enregistre le contenu du moniteur web en HAR puis on le requête avec jq (jq -r '[.log.entries[]|{method: .request.method, mimetype: .response.content.mimeType, size: .response.content.size}]|group_by(.method, .mimetype)|map(.[0] + {"nombre": length, "total": (map(.size)|add)})[]|[.method, .mimetype, .nombre, .total]|@tsv') :

MéthodeType MIMENombreTaille
GET7
GETapplication/javascript301 500 271
GETapplication/javascript; charset=UTF-82232 379
GETapplication/javascript; charset=utf-85385 815
GETapplication/json313 950
GETapplication/json; charset=UTF-8216 115
GETapplication/json; charset=utf-82750 566
GETapplication/x-javascript221 490 014
GETapplication/x-javascript; charset=utf-84323 460
GETfont/woff212457 325
GETimage/gif60101 998
GETimage/jpeg116 553
GETimage/png32 230
GETimage/svg+xml5122 109
GETimage/x-icon1362
GETtext/css41 095 774
GETtext/html25482 451
GETtext/html; charset=ISO-8859-14258
GETtext/html; charset=UTF-88363 046
GETtext/html; charset=utf-81923 166
GETtext/javascript7878 010
GETtext/javascript; charset=ISO-8859-11218 938
GETtext/javascript; charset=UTF-8151 376 914
GETtext/javascript; charset=utf-8321 9947
GETtext/javascript; charset=utf82109 200
GETtext/plain230
GETtext/plain; charset=UTF-81292 284
GETtext/xml10
HEADapplication/javascript10
OPTIONSapplication/json; charset=utf-81122
OPTIONStext/plain30
POSTapplication/json841 492
POSTapplication/json; charset=UTF-8714 076
POSTapplication/json; charset=utf-8233 816
POSTtext/html; charset=utf-817
POSTtext/plain150
POSTtext/xml40
Total3819 632 548
Étude de cas n°2 : fichiers téléchargés.

Ce qui nous amène au rapport « signal / bruit » : 2 944 / 963 2548 = 0,0003.