🔥 Numéro spécial Google : apocalypse en vue ?

[Hors-série #09] Vous aimez Google ? Alors on va en causer en long, en large et par devers

juin 11, 2024

Impossible que vous l’ayez loupé ces dernières semaines :

Google vient de subir l'une des plus grosses fuites de documents de son histoire.

Et quand on lit ce que ça donne dans le détail, c'est plutôt riche d'enseignements.

Petit récap si vous l'avez loupé : le 5 mai dernier, Rand Fishkin (le mec qui a créé Moz entre autres) reçoit un mail d'une source anonyme qui lui dit grosso modo :

Salut jeune entrepreneur, j’ai accès à tout un tas de docs internes de chez Google. Répond “intéressé” si tu les veux dans tes DM.

Un truc comme ça, quoi.

Le mail précisait également que ces documents étaient confirmés comme authentiques par d'anciens employés de Google.

Et on parle pas d'une petite fuite, attention.

Là, on parle de 2500 pages de documentation de la division de recherche de Google.

Bref, du lourd. Du titane. De l’osmium.

Là, vous vous posez peut-être une question : est-ce que c'est un vrai leak, avec des vrais documents, et pas juste une intox à deux sesterces pour faire le buzz ?

Fishkin s'est posé la même question.

Après pas mal de vérifications en sondant notamment des contacts qu'il a chez Google, il semblerait que oui, ces documents sont véridiques.

Alors, forcément, dans ces documents, y'a tout un tas de trucs croustillants, et je vous invite à lire le petit résumé plus loin dans cette newsletter pour en avoir un aperçu.

Moi, je retiens surtout deux choses :

1) La marque est le facteur le plus important pour le classement organique, qui surpasserait a priori souvent les liens et le contenu. Ce qui ferait dire que les facteurs E-E-A-T peuvent ne pas être aussi influents qu'on le pensait.

2) Que le SEO est principalement un jeu entre des grandes marques bien établies, mais ça clairement c'est pas une surprise en soi, ceux qui touchent un peu au domaine le constatent depuis longtemps.

Et puis, surtout : les créateurs de contenu doivent se concentrer sur la construction d'une marque notable et reconnue en dehors de Google pour améliorer leur classement.

Et je sais pas vous, mais moi je trouve que ça, ce constat, c'est une DÉFLAGARATION.

Parce que pendant des années, tout un tas de boîtes ont commis des textes dégueulasses pour ranker dans les résultats de recherche, et là on apprend quoi ?

Que pour performer à l'organique, ou du moins pour rivaliser avec les grandes marques, bah c'est pas suffisant.

Ou du moins, ça ne l’est plus en 2024.

Si ça, ça n’incite pas les entreprises à mettre le paquet sur leur branding, je ne comprends pas.

Je laisse le mot de la fin à Fishkin, qui écrit dans sa conclusion :

"Pour la plupart des petites et moyennes entreprises et des nouveaux créateurs/éditeurs, le SEO est susceptible d'être peu rentable tant que vous n'avez pas établi votre crédibilité et une solide réputation auprès d'un public assez large."

Alléluia.

💬 Qu’est-ce que vous en pensez, de ce leak ? Ce qui a été révélé était une surprise pour vous, ou alors paaaas du tout ?

Sur ce :

# La veille :

🗞️ P’tit résumé des analyses de Fishkin & King

🤖 En 2024, les IA de Google vont vous résumer le Web, que vous le vouliez ou non

🔪 L’histoire de l’homme qui a détruit Google

😵 Le PDG de Google ne sait pas quand son IA cessera d'halluciner

👌 Google nettoie les saloperies de Gemini à la main

🏭 Certaines industries sont inquiètes face aux règles du DMA

# La boîte aux lettres :

“Quels sont tes outils de veille ?”

🗞️ P’tit résumé des analyses de Fishkin & King

La flemme de lire le gros retex de Fishkin ? Idem pour le gros pavé de Mike King, que Fishkin désigne comme l’un des plus gros techos SEO au monde ?

Petite synthèse très succincte pour que vous ayez quand même les grandes lignes de leurs analyses :

1. Sur les pratiques internes de Google

Les documents leakés montrent une grande variété de fonctionnalités et de modules utilisés par Google pour classer et indexer le contenu.
Ces modules couvrent des aspects comme YouTube, Assistant, Books, et l'infrastructure de crawl.
Les fonctionnalités incluent des signaux de qualité, des scores de promotion/déclassement de pages, et des mesures de la qualité des pages UGC (pour rappel, “contenu généré par l'utilisateur”).
Les documents contiennent des informations sur l'utilisation par Google des données de clics pour améliorer et/ou ajuster la qualité des résultats de recherche.
Un système appelé "NavBoost" utilise les données de clics pour évaluer la qualité des sites et influencer les classements.
Google utilise notamment l'historique des cookies & les données des utilisateurs connectés à Chrome pour lutter contre le spam de clics (cf. en dessous).
Les liens internes et externes, ainsi que leur qualité, jouent toujours un rôle significatif dans le classement des pages.

2. Utilisation des données des utilisateurs de Chrome

Google utilise des datas récoltées via Chrome pour déterminer les URL les plus populaires sur un site, ce qui influence également les fonctionnalités comme les sitelinks.
Les documents révèlent des métriques basées sur les vues via Chrome liées aux pages individuelles et aux domaines.
Note : le RGPD en PLS ?

3. Listes blanches pour les sujets sensibles

Google emploie des whitelists pour les sites dans des secteurs comme les voyages, la COVID-19, et les élections (pas trop de surprise, ce système existe déjà dans d’autres domaines).
Ces listes blanches garantissent que des sources fiables apparaissent en haut des résultats de recherche pour des sujets potentiellement controversés.

4. Feedback des évaluateurs de qualité

Google utilise les remontées des évaluateurs de qualité (EWOK) dans ses systèmes de recherche pour évaluer la pertinence des documents.
Les scores et les données générées par ces évaluateurs sont directement impliqués dans le système de recherche de Google.

5. Utilisation des données de clics pour pondérer les liens

Google classe les index de liens en trois catégories (basse, moyenne, haute qualité) en fonction des données de clics.
Les liens dans l'index de haute qualité peuvent transmettre des signaux de classement, tandis que ceux dans l'index de basse qualité sont ignorés.
Les intentions utilisateurs et les modèles de clics sont des facteurs déterminants dans les classements.

6. Mesures de l'originalité et des dates de contenu

Google évalue l'originalité du contenu, surtout pour les contenus courts, à travers un score spécifique.
Les dates, qu'elles soient explicites, sémantiques ou extraites de l'URL, sont cruciales pour évaluer la fraîcheur et la pertinence des pages.
Les sites où plus de 50 % des pages contiennent des vidéos sont traités différemment.

7. Facteurs de déclassement algorithmique

Plusieurs facteurs peuvent entraîner le déclassement d'une page, tels que les mismatchs d'ancres ou une navigation jugée “pauvre”.
Les documents mentionnent des systèmes comme Panda (tiens tiens) et NavBoost, qui sont utilisés pour ajuster les classements en fonction de la qualité perçue des pages et des sites.

🤖 En 2024, les IA de Google vont vous résumer le Web, que vous le vouliez ou non

Vous voulez lire un mec qui a le seum, le vrai, celui qui est aussi salé que la Mer Morte ? Encore plus que moi avec mon “Comment Google a bousillé la créa' de contenus” ?

Dans ce cas, filez lire la chronique de Thibault Prévost, Apocalypse Google, que j’ai trouvée à la fois drôle, intéressante et terriblement pertinente, autant dans ses observations que ses conclusions.

Prévost commence par quelques rappels, à commencer par l’intégration prochaine de Gemini au sein de Google afin de résumer le web automatiquement.

On sait déjà ce que ça donne avec les exemples qui se sont multipliés ces dernières semaines, et c’est un désastre. À un moment donné, faut correctement nommer les poneys.

En cause : les IA génératives, comme Gemini, ont des taux d'erreur significatifs - les fameuses hallucinations dont je parle juste après - ce qui les rend peu fiables pour fournir des informations exactes… Ce qui fait dire à Prévost que les IA génératives dégradent la qualité de l'information et créent une marée noire informationnelle qui englue tout ce qu'elle touche. Il a pas tort.

Cette évolution s’inscrit en tout cas dans un projet de longue date, puisque cela fait quelques années que Google cherche à devenir un moteur de réponse : un portail informationnel dont on ne sort pas, et qui répond aux questions directement sur sa plateforme sans rediriger les utilisateurs vers d'autres sources d’informations.

Ce qui non seulement renforce la domination de Google sur le Web, mais place ce dernier dans un état très périlleux, qui n’a d’ailleurs pas grand-chose à voir avec la vision originelle de Tim Berners-Lee.

Bref, ça pue franchement du derche.

🔪 L’histoire de l’homme qui a détruit Google

Vous reprendrez bien une dose de seum ?

Dans son article The Man Who Killed Google Search, Edward Zitron ne se contente pas de tirer à boulets rouge, mais à coups d’ogives thermonucléaires sur Prabhakar Raghavan et Sundar Pichai.

Zitron décrit notamment comment la pression pour augmenter le flouze généré avec le Search a conduit à des décisions débiles qui ont détérioré sa qualité.

Ainsi, en février 2019, un "code jaune" a été déclenchée par des dirigeants de Google en raison d'une baisse des revenus de recherche, et quand on sait à quel point ça brasse de la thune, on comprend leur inquiétude.

D’ailleurs, leur code jaune, contrairement à ce que l’on peut croire, c’est l’équivalent d’un DEFCON 1. Ça déconnait vraiment pas.

Ben Gomes, le responsable de la recherche chez Google, exprimait alors certaines inquiétudes : selon lui, la boîte aimait un peu trop le pognon et déplorait le fait que le moteur ne pensait qu’à la croissance.

Comme d’habitude dans ces cas-là, cet objecteur de conscience a été débarqué par Prabhakar Raghavan en mai 2019. Objectif : tout pour le flouze.

Le truc, c’est que Raghavan, ancien boss de la recherche chez Yahoo, a un lourd passif de décisions controversées (Zitron l’accuse carrément d’avoir coulé Yahoo).

Sous sa direction, Google Search est devenu moins fiable et plus orienté vers la pub’, et lui et Sundar Pichai ont été accusés de sacrifier la qualité pour des gains financiers à court terme ; et au vu des mails internes révélés lors du procès antitrust de Google, il semblerait qu’il y ait bien eu des bidouilles du moteur pour répondre aux besoins de l'équipe publicitaire.

Notez que Google a répondu à cet article (classe) auquel Zitron a apporté une nouvelle réponse cinglante. N’oubliez pas d’enfiler casque et gilet pare-balles avant de cliquer sur le lien, ça tire à balles numériques réelles.

😵 Le PDG de Google ne sait pas quand son IA cessera d'halluciner

J’imagine que vous êtes au courant : les IA génératives, comme celles de Google, ont tendance à "halluciner". Dit autrement, elle balance des faits aussi honteux qu’incorrects (comme quand Google annonce sans sourciller qu’il faut manger au moins un caillou par jour).

Eh bien, histoire de rajouter de l’huile sur le brasero, Sundar Pichai (PDG de Google) a admis à The Verge que les hallucinations restent à ce jour un problème non résolu.

Mieux encore : il décrit carrément ces erreurs comme une "caractéristique inhérente" des modèles de langage (LLM).

Il souligne que la créativité des LLM permet des réalisations aussi impressionnantes que créatives, mais que cette créativité entraîne justement des erreurs factuelles - et pis qu’au fond, c’est pas bien grave, car malgré ces erreurs, les LLM sont très utiles (lol).

Pour un peu, il va bientôt balancer que c’est une feature belle et bien prévue par les devs.

Pour rappel, Meta a lancé en 2022 une IA appelée Galactica qui a dû être retirée peu après son lancement car elle conseillait entre autres aux gens de manger du verre.

💬 On prend les paris ? À votre avis, combien de temps va durer Gemini ? 🙃

👌 Google nettoie les saloperies de Gemini à la main

On vient de le voir, Gemini délire comme un Pierre Palmade dans ses heures les plus folasses.

Dans cet article, The Verge montre à quel point Google commence à flipper sa race et s'efforce de supprimer manuellement les réponses loufoques de l'IA dans ses résultats de recherches.

L'entreprise a ainsi confirmé qu'elle “prenait des mesures rapides” pour supprimer certaines des réponses de Gemini.

Enfin, “certaines”… AI Overview, lancé en bêta en mai 2023, a quand même traité plus d'un milliard de requêtes en un an (!). Et dans le lot, comme on l’a vu, on se retrouve avec des tas de conneries…

… Lesquelles sont, sans aucun doute possible, traitées à la main pour réduire les hallucinations de Gemini.

(remember : c’était déjà le cas pour ChatGPT)

L’origine du problème, c’est que les modèles de langage actuels ne peuvent pas vérifier la cohérence de leur propre travail, et c’est justement cette incapacité à vérifier l'exactitude d’une information qui est aujourd’hui LE problème majeur pour l'industrie de l'IA.

Comme le pointe un observateur en commentaire : la recherche et la suppression manuelles des réponses incorrectes est l'admission directe du fait que les LLM et l'IA peuvent atteindre un certain niveau de précision mais ne peuvent jamais continuer à s'améliorer au-delà.

Ça rejoint ce que dit Yann LeCun : selon lui, les modèles actuels comme Gemini et GPT-4 ne créeront pas l'AGI. Bon, on s’en doutait.

Ayons quand même une petite pensée pour les escl… sous-traitants dans les pays en voie de développement qui doivent cruncher comme des malades avant la release fatidique pour nettoyer les saloperies de Gemini.

🏭 Certaines industries sont inquiètes face aux règles du DMA

Rien à voir avec l’IA générative, mais ça concerne quand même Google : les compagnies aériennes, les hôtels et les détaillants craignent d'être marginalisés par les nouvelles règles du Digital Markets Act (DMA) de l'UE, lequel impose sa street law aux géants de la tech comme Google pour offrir plus de choix aux utilisateurs et permettre davantage de concurrence.

Du coup, fâchés, plusieurs groupes de lobbying représentant ces industries ont exprimé leurs préoccupations aux régulateurs de l'UE : ils craignent que les ajustements nécessaires pour se conformer au DMA augmentent la discrimination contre leurs malheureux petits sites.

Les modifications pourraient en effet réduire sévèrement leurs ventes directes, car les industries concernées estiment (sans doute avec raison) que cette tendance donne un traitement préférentiel aux puissants agrégateurs en ligne.

D’ailleurs, Google a reconnu dans un article en mars dernier que les changements pourraient effectivement diriger plus de trafic vers les grands intermédiaires et moins vers les hôtels, compagnies aériennes, commerçants et restaurants locaux.

Entre ça et Gemini, ça va pas être triste le nouveau Google.

📨 La boîte aux lettres

Ma question de lectrice : comment réalises-tu ta veille ? As-tu des outils dédiés ? - Christine

C’est top secret. Allez salut !

Bon, plus sérieusement : ma veille, je l’effectue au fil de l’eau chaque semaine, puisque je commence en général mon lundi par prendre 30 minutes (1h max) pour faire le tour de mes canaux habituels :

LinkedIn, vous connaissez bien, je vais pas m’étendre là-dessus. J’y suis même tous les jours.
Du Substack pour voir ce que font les copains / copines, ou des gens que j’apprécie.
Mon board Feedly, où j’ai ajouté l’ensemble de mes sources pour ma veille “content marketing”. C’est donc ici que réside le nerf de la guerre.
Assez rarement, du Reddit pour les trucs qui sortent un peu du “contenu” pur et dur.

Dès que je tombe sur un truc intéressant, je consulte la source en détail et, si c’est validé, je la note dans un coin pour l’ajouter à une prochaine édition. That’s all !

💬 Vous avez une question ? Ask Me Anything (comme on dit sur Reddit) en commentaire pour que j’y réponde dans la prochaine édition.

🫠 C’est déjà fini ?!

Hélas oui, à l’heure où vous recevrez cette newsletter, je serai encore en vacances en Dordogne à recharger tranquilou les batteries (du moins autant que se peut, des vacances avec un bambin, c’est pas vraiment des vacances).

Du coup, j’ai été contraint de préparer cette édition un peu en urgence avant mon départ, mais promis, on reviendra sur un imbuvable pavé très rapidement.

Sur ces entrefaites, je vous laisse : j’ai un bébé à qui j’apprends à marcher.

Christine

Jun 11, 2024

C'est carrément la fin d'un monde, quoi...

La communication par les réseaux sociaux va devenir encore plus cruciale pour mettre en place cette fameuse réputation dont tu parles ! Et ce n'est que sur le web... Ça veut dire que les pros vont devoir se sortir les doigts pour rayonner autour d'eux dans la vraie vie. Retour en arrière avec 25 ans de promesses du web. Franchement, j'ai les boules.

Bonne fin de vacances, tu seras pas reposé mais au moins tu auras profité de ce que c'est que la vraie vie organique, charnelle, incarnée : être avec les gens qu'on aime. À côté de ça, qu'est ce que vaut google ? Pas grand-chose. Même si lui au moins ne nous empêche pas dormir...

La vache, elle est dense celle-ci... Je n'ai pas grand-chose à dire, si ce n'est que ce que font actuellement les Peyronnet pourrait t'intéresser à propos des leaks de Google (et j'pense que s'il y a des personnes à qui faire confiance, c'est bien eux...).

Et franchement : bravo pour ton travail et de veille et de restitution. C'est hyper impressionnant :o

7 commentaires supplémentaires...

Content Machine - La newsletter

Discussion à propos de ce post

Tout à fait prêt. Qu'avez-vous pour moi ?