Influence IA — quels bots IA peuvent vous explorer et quels produits IA vous envoient du trafic

Q: « Je bloque GPTBot dans robots.txt mais le tableau de bord dit 'Autorisé'. Pourquoi ? »?

La cause la plus fréquente : vous utilisez la **Managed robots.txt de Cloudflare**, qui ajoute un bloc géré interdisant les bots IA — mais un groupe personnalisé *ultérieur* dans le même fichier en ré-autorise certains. Selon RFC 9309, tous les groupes `User-agent` pour un bot sont **combinés** et le résultat effectif est ce qu'un vrai crawler respecte. Zenovay rapporte cet accès effectif — donc un bot ré-autorisé dans un groupe ultérieur affiche correctement **Autorisé**. Ouvrez **Voir la source brute** dans l'onglet Aperçu pour voir les règles exactes. Sinon : confirmez que `https://yourdomain.com/robots.txt` est accessible avec un bloc littéral `User-agent: GPTBot` / `Disallow: /`, puis cliquez sur **Revérifier maintenant**.

Qu'est-ce qu'Influence IA ?

Influence IA montre comment les surfaces IA interagissent avec votre site. Elle couvre deux choses que vous pouvez réellement mesurer :

Accès des crawlers IA — lesquels des 29 bots IA suivis vos déclarations robots.txt, llms.txt et Content-Signal autorisent ou bloquent.
Référents IA — quels produits IA (ChatGPT, Claude, Perplexity, Gemini, Copilot, DeepSeek et 20+ autres) vous envoient des visiteurs humains.

Ouvrez le tableau de bord de votre site et sélectionnez l'onglet Influence IA (dans le groupe Behavior de la barre latérale gauche). Elle est gratuite sur tous les plans. Il y a trois onglets : Aperçu, Crawlers, et Métriques.

L'onglet Aperçu

Un Résumé compact (combien des 29 bots peuvent vous explorer, combien sont bloqués, visites humaines IA) plus une carte Robots & Signaux qui vous permet de vérifier le verdict vous-même :

Les liens Voir la source brute ouvrent vos véritables robots.txt et llms.txt.
La déclaration Content-Signal est analysée et affichée sous forme de puces.
La liste exacte des bots bloqués à la racine est listée par nom.

Qu'est-ce que Content-Signal ?

Content-Signal est une directive (émise par la « Managed robots.txt » de Cloudflare et un nombre croissant de sites) qui énonce l'intention d'usage IA séparément de l'accès au crawl :

search — votre contenu peut-il construire un index de recherche ?
ai-input — peut-il être utilisé comme entrée en direct d'une réponse générative ?
ai-train — peut-il être utilisé pour entraîner un modèle IA ?

Chacune s'affiche comme yes, no, ou unset.

L'onglet Crawlers

Un tableau en lecture seule des 29 crawlers IA suivis et de l'accès de chaque bot sur votre site. Ce n'est pas un panneau de contrôle — Zenovay lit robots.txt, il ne bloque pas les bots côté edge. Recherchez, triez et filtrez par catégorie (Assistants IA en direct, Entraînement de modèles, Agents navigateurs IA, Scrapers commerciaux, Recherche avec surcouches IA).

Ce que signifie chaque verdict

La seule question qui compte est « ce bot peut-il atteindre mon contenu ? », donc le verdict est en trois états :

Autorisé (vert) — permis à la racine de votre site. Cela inclut les bots autorisés à la racine mais exclus des chemins d'infrastructure génériques comme /api ou /_next — ces exclusions sont affichées comme une note, pas un avertissement, car elles ne restreignent pas votre contenu.
Bloqué (rouge) — interdit à la racine du site par robots.txt.
Inconnu (gris) — nous n'avons pas pu lire votre robots.txt, ou le site n'a pas encore eu sa première vérification (dans les 24 heures suivant son ajout).

Revérifier à la demande

Le bouton Revérifier maintenant re-récupère vos robots.txt + llms.txt, réévalue les 29 bots, et exécute 5 sondes HTTP HEAD en direct (une par catégorie) pour attraper les blocages Cloudflare WAF / anti-bot CDN qui ne sont pas visibles dans robots.txt. Limité à une fois par minute par site.

L'onglet Métriques

L'analyse des référents IA — les visiteurs humains arrivés depuis des produits IA. Chaque source IA détectée est listée avec visiteurs, part, conversion et (si activé) revenu, plus une Distribution des méthodes de détection qui se réconcilie avec la liste des sources.

Comment nous identifions les référents IA

Quatre signaux, par ordre de priorité :

Correspondance de référent — document.referrer correspond à un hôte IA connu (chat.openai.com, claude.ai, perplexity.ai, gemini.google.com, …).
Correspondance UTM — l'URL de campagne porte utm_source=chatgpt, etc.
Correspondance d'User-Agent — la visite provient du navigateur in-app d'un produit IA.
Heuristique comportementale (IA noire) — visites en trafic direct dont le motif correspond aux empreintes d'arrivée IA.

Qu'est-ce que « l'IA noire » ?

Une grande partie du trafic arrivé par IA ne porte aucun référent — l'utilisateur a collé votre lien depuis une fenêtre de chat, ou la surface IA a supprimé le référent. Une heuristique quotidienne l'attrape : atterrissage sur du contenu profond (URL longue-traîne, pas /), lecture focalisée de 30–300 s avec > 70 % de défilement, visiteur primo-arrivant avec faible interaction, arrivée pendant les heures d'ouverture. Un score ≥ 60 le marque comme originaire d'IA via behavioral_heuristic avec une confiance de 0,5–0,95.

Questions fréquentes

« Je bloque GPTBot dans robots.txt mais le tableau de bord dit 'Autorisé'. Pourquoi ? »

La cause la plus fréquente : vous utilisez la Managed robots.txt de Cloudflare, qui ajoute un bloc géré interdisant les bots IA — mais un groupe personnalisé ultérieur dans le même fichier en ré-autorise certains. Selon RFC 9309, tous les groupes User-agent pour un bot sont combinés et le résultat effectif est ce qu'un vrai crawler respecte. Zenovay rapporte cet accès effectif — donc un bot ré-autorisé dans un groupe ultérieur affiche correctement Autorisé. Ouvrez Voir la source brute dans l'onglet Aperçu pour voir les règles exactes. Sinon : confirmez que https://yourdomain.com/robots.txt est accessible avec un bloc littéral User-agent: GPTBot / Disallow: /, puis cliquez sur Revérifier maintenant.

« Bloquer les bots IA dans robots.txt les arrêtera-t-il vraiment ? »

Les crawlers réputés (OpenAI, Anthropic, Google, Perplexity, Microsoft, Apple) honorent robots.txt. Les moins réputés l'ignorent. Pour l'application vous avez besoin de règles Cloudflare AI-Bot, d'une règle WAF/rate-limit correspondant à l'User-Agent (→ 403), ou d'une balise côté serveur (Zenovay V1.5 — mesure les vrais événements de crawl, pas seulement l'accès configuré).

« Pourquoi Citation et Assist sont marqués 'À venir en V2' ? »

Nous pourrions livrer des chiffres vanité aujourd'hui, mais nous ne voulons pas vous induire en erreur. Citation (où votre marque apparaît dans les réponses IA) nécessite un fournisseur de prompt-monitoring ou notre propre crawler. Assist (montée en aval après exposition IA) est trop bruyant à faible volume. Quand V2 sera livré, chaque métrique portera une étiquette mesuré vs. inféré.

« Influence IA suit-elle les visiteurs individuels ? »

Non. Influence IA lit les mêmes données de visiteurs que le reste de votre tableau de bord, donc elle hérite de la posture de suivi de Zenovay : mode sans cookies pris en charge, IP hachées avec un sel rotatif quotidien (jamais en clair), et elle n'ajoute aucun nouveau script ni cookie. Elle rapporte les sources IA et les motifs agrégés, pas les individus nommés.

Disponibilité par plan

Gratuit sur tous les plans. La visibilité du trafic IA est un signal d'acquisition de base que chaque client Zenovay devrait avoir.