Si vous avez vous aussi enfilé vos habits de chercheur d’or de l’API de Google, on pourrait avancer plus vite en se partageant le boulot d’investigation et d’interprétation. Pour collaborer, contactez-moi.

Analyse des documents fuités de la Google Leak | Dans l’antre de la pieuvre mondiale

La pieuvre Google
5
(1)

Oups, 2500 documents internes publiés…

Contexte et enjeux

2024 est l’année d’une révolution : pour la première fois dans l’histoire de la pieuvre mondiale qu’est devenue Google en un quart de siècle, le grand-public a accès aux entrailles du monstre.

Jusqu’ici, le SEO n’était qu’une fausse science très largement spéculative, une chaîne de téléphone arabe basée sur des croyances et des rumeurs. Devant l’obscurité presque totale de la boîte noire que sont les algorithmes de Google, j’ai défendu l’idée que la seule approche sérieuse et scientifique consistait à tester les facteurs de référencement potentiels.

La fuite de documents internes de mars à mai 2024 change la donne et permet dorénavant aux référenceurs, au grand-public, mais aussi au législateur et aux juges (car vous verrez, je pense qu’il y a un enjeu légal), de voir par transparence à travers le ventre de la Bête.

Le groupe Alphabet dont fait partie Google est une entreprise qui va bien. Elle fait partie de l’élite des entreprises les plus riches du monde. Ses fondateurs sont multimilliardaires. Elle contrôle des dizaines de services – Google, Youtube, Gmail, Google Cloud, Chrome, Drive, Android, etc etc – utilisés par des milliards d’utilisateurs.

C’est aussi une entreprise-voyou, condamnée de multiples fois dans de nombreux pays pour des délits économiques graves tels qu’abus de position dominante, concurrence déloyale, violation de la confidentialité des données de millions d’utilisateurs, etc etc. C’est une entreprise qui a déjà menti à de très nombreuses reprises – bien que sa devise initiale ait été « Don’t be evil », ne soyez pas mauvais – et comme on va le voir, la fuite de document révèle de nouveaux mensonges, et s’accompagne d’un grave perte de crédibilité de ses « porte-parole de la recherche en ligne » que sont Matt Cutts, Gary Ilyes, John Mueller, qu’on peut donc avec une quasi-certitude qualifier de menteurs professionnels, chargés de désinformer – voire de diffamer – la communauté du SEO et le grand-public.

Google Leak SEO

J’ai parlé plus haut d’un aspect légal et pénal de la fuite, car en révélant que des employés haut placés de Google ont menti ouvertement sur le fonctionnement de Google, ils révèlent aussi que les dénonciations de certains chercheurs SEO comme Rand Fishkin, qui avaient découvert ses petits secrets, par des employés de Google, constituaient en fait une forme de diffamation, et une pratique déloyale, une fois de plus. Google prétendait que des SEO célèbres racontaient n’importe quoi, tout en sachant qu’ils disaient vrai. L’Empire de la recherche en ligne est également celui de l’hypocrisie.

L’autre aspect légal concerne la révélation que Google instrumentalise la suprématie de son navigateur « gratuit » Google Chrome, utilisé par 63% des internautes du monde, pour effectuer une analyse universelle et permanente du comportement des internautes sur Google et sur le web, et ce, à l’insu des utilisateurs. Menteur et fraudeur, le géant de la recherche en ligne fait ses petits trucs en douce à l’échelle mondiale : comment les législateurs du monde vont-ils réagir ?

La fuite

Le 27 mai 2024, l’ex référenceur SEO Rand Fishkin, fondateur de l’entreprise de SEO Moz, publie un article qui révèle une fuite massive de documents à usage interne concernant la recherche Google.

2500 documents en provenance d’un « Content API Warehouse » (entrepôt d’API de contenu) ont été déposés sur Github, du 27 mars au 7 mai – en lien avec une source d’abord anonyme puis qui a révélé son identité : Erfan Azimi. Cette source a contacté Rand Fishkin le 5 mai pour lui faire connaître la fuite.

Je n’ai aucune info sur comment Erfan Azimi aurait eu accès à ces documents de Google, et l’article de Fishkin n’attribue d’ailleurs pas très clairement à Azimi le fait d’avoir publié ou découvert ces documents sur Github. Toujours est-il que renseignements pris auprès d’employés de Google, les documents semblent authentiques ; après révélation de la fuite, Google a officiellement réagi en disant que les documents fuités « manquaient de contexte », ce qui revient à reconnaitre leur authenticité.

Exploration de la documentation

Ces documents – qu’on peut consulter ici – font l’effet d’une bombe dans la communauté SEO. Pour la première fois, on a accès à une collection massive de documents pertinents qui nous montrent comment fonctionne Google. Et ces documents listent 14 000 paramètres susceptibles d’influencer le classement des pages web, des images, des vidéos, bref, du web. (Un vieux mythe du SEO parlait de 200 facteurs, on constate qu’on en est bien loin.)

La Google Leak une mine d’or, mais très obscure et incomplète. Difficile à lire, cette littérature technique s’avère aussi fortement structurée que remplie de jargon indéchiffrable.

Voici un exemple pour vous montrer à quoi ressemble cet étrange charabia googlesque :

image

Comprenne qui pourra !

Même s’il s’avère impossible de comprendre à 100% ce que signifie cette documentation absconse, conçue par et pour des experts de chez Google, elle révèle néanmoins l’existence de nombreux concepts dont la communauté SEO n’avaient aucune idée, comme : NavBoost, Twiddlers, Geostore, etc etc.

Malheureusement, ces concepts disséminés dans des dizaines de documents ne révèlent à chaque fois que d’infimes fragments de l’immense puzzle algorithmique.

Pour chercher à comprendre ce que ce labyrinthe de termes techniques signifie, j’ai donné un fichier .xlsx comme référence à un GPT personnalisé, ce qui permet de laisser l’IA faire une partie du boulot de recherche d’information et d’interprétation. Pour creuser, je me sers des 3 sources : les deux sources primaires que sont la liste de documents fuites et la liste des 14000 paramètres qui en sont extraits, et la source secondaire qu’est le chatbot nourri avec la liste des paramètres.

Je vais maintenant me livrer à un fastidieux travail : creuser la mine d’or à la pioche, et voir quelles pépites il en sort. Je vous tiens au courant !

Qu'avez-vous pensé de cet article ?

Cliquez sur une étoile pour donner votre avis

Avis moyen 5 / 5. Nombre d'avis donnés 1

Soyez le premier à donner votre avis

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Besoin d’un hébergeur ?

Convivial, sympa, fiable, et pas cher,
O2Switch me semble être la meilleure offre actuellement sur le marché français.
C’est pourquoi j’y héberge tous mes sites.

Hébergement O2Switch
Hébergement O2Switch

Théories non-vérifiées, affirmations gratuites, croyances sans fondement :
saurez-vous remettre en cause votre approche du référencement ?

Panier
Retour en haut