Devo permettere o bloccare i crawler AI nel mio robots.txt?

In quasi tutti i casi dovresti permetterli. Bloccare i crawler AI significa essere invisibile alle risposte di ChatGPT, Perplexity e Google AI Overviews. L'unico motivo valido per bloccarli è se non vuoi che i tuoi contenuti vengano usati per addestrare modelli AI — nel qual caso puoi bloccare selettivamente i bot di training (CCBot, Common Crawl) mantenendo aperti quelli di retrieval (GPTBot, PerplexityBot).

Qual è la differenza tra crawler AI di retrieval e di training?

I crawler di retrieval (GPTBot con browsing, PerplexityBot, ClaudeBot) crawlano il web in tempo reale per rispondere alle query degli utenti. I crawler di training (CCBot, Common Crawl) raccolgono dati per addestrare i modelli AI. Se vuoi apparire nelle risposte AI senza contribuire al training, puoi bloccare CCBot/Common Crawl e permettere gli altri.

Come verifico se sto bloccando accidentalmente i crawler AI?

Controlla il tuo robots.txt su https://tuodominio.it/robots.txt. Se trovi 'Disallow: /' sotto 'User-agent: *', stai bloccando tutto — inclusi i crawler AI. Usa il tool 'robots.txt Tester' in Google Search Console per verificare se un bot specifico è bloccato, inserendo il suo user-agent string.

Se blocco GPTBot, il mio sito non appare su ChatGPT?

Dipende. GPTBot con la funzione browsing usa il tuo robots.txt come guida. Se lo blocchi, ChatGPT non accederà al tuo sito in tempo reale per rispondere alle query. Per i contenuti già nel training data del modello, l'accesso è indipendente da robots.txt. La raccomandazione è: permettere GPTBot per massimizzare la visibilità nelle risposte in tempo reale.

Quanto spesso devo aggiornare la lista dei crawler AI?

La lista cambia con l'emergere di nuovi servizi AI. Nel 2025-2026 sono stati aggiunti Gemini-Web, Amazonbot e Applebot-Extended. La raccomandazione pratica: controlla la lista ogni 6 mesi oppure quando lanci un nuovo servizio AI che vuoi supportare. Tieni la configurazione permissiva di default (allow all) e blocca selettivamente solo ciò che non ti serve.

GPTBot, ClaudeBot, PerplexityBot: la lista completa dei crawler AI e come configurarli in robots.txt (2026)

I crawler AI usano user-agent specifici per identificarsi in robots.txt. Bloccarli per errore — spesso con un Disallow generico — è uno degli errori GEO più comuni e più costosi: significa essere invisibili a ChatGPT, Perplexity e Google AI Overviews. Questa guida elenca tutti i principali crawler AI attivi nel 2026 con la configurazione robots.txt consigliata per ciascuno.

Perché i crawler AI sono diversi dai crawler tradizionali

Un crawler SEO tradizionale come Googlebot legge il tuo sito per indicizzarlo nei risultati organici. I crawler AI fanno qualcosa di diverso: leggono il tuo sito per rispondere alle domande degli utenti in tempo reale, o per costruire il modello su cui si basano quelle risposte.

Se blocchi Googlebot, esci dall’indice Google. Se blocchi GPTBot, esci dalle risposte di ChatGPT. Se blocchi PerplexityBot, esci dalle risposte di Perplexity. L’effetto è analogo, ma invisibile: il tuo sito continua a funzionare, i tuoi clienti continuano a trovare il tuo sito su Google, ma quando chiedono a ChatGPT “qual è il miglior [tuo prodotto]” il tuo brand non appare.

Il problema è che molti webmaster configurano Disallow: / per User-agent: * (blocco universale) e poi aggiungono eccezioni solo per Googlebot e Bingbot. Tutti gli altri bot — inclusi tutti i crawler AI — vengono bloccati per default.

La lista completa dei crawler AI 2026

Crawler	Servizio	User-agent	Tipo
GPTBot	OpenAI (ChatGPT browsing)	`GPTBot`	Retrieval
ChatGPT-User	OpenAI (browsing plugin)	`ChatGPT-User`	Retrieval
ClaudeBot	Anthropic (Claude.ai)	`ClaudeBot`	Retrieval
anthropic-ai	Anthropic (training)	`anthropic-ai`	Training
PerplexityBot	Perplexity AI	`PerplexityBot`	Retrieval
Google-Extended	Google (Bard/Gemini training)	`Google-Extended`	Training
Gemini-Web	Google (Gemini retrieval)	`Gemini-Web`	Retrieval
Applebot-Extended	Apple (AI features)	`Applebot-Extended`	Retrieval
Bytespider	ByteDance / TikTok AI	`Bytespider`	Misto
FacebookBot	Meta AI	`FacebookBot`	Misto
Amazonbot	Amazon AI	`Amazonbot`	Retrieval
CCBot	Common Crawl (training)	`CCBot`	Training
Diffbot	Diffbot knowledge graph	`Diffbot`	Retrieval
Timpibot	Timpi (search AI)	`Timpibot`	Retrieval

Tipo Retrieval = usato per rispondere alle query in tempo reale
Tipo Training = usato per addestrare i modelli AI
Tipo Misto = usato per entrambi gli scopi

Le tre configurazioni robots.txt

Configurazione 1: Massima visibilità AI (consigliata per la maggior parte dei siti)

Permetti tutto per default e blocca solo le sezioni riservate del tuo sito.

# Permetti tutti i crawler (inclusi i crawler AI)
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /dashboard/
Disallow: /*.json$

# Sitemap
Sitemap: https://tuodominio.it/sitemap.xml

Con questa configurazione, tutti i crawler AI hanno accesso al tuo contenuto pubblico.

Configurazione 2: Retrieval sì, training no

Permetti i crawler usati per le risposte in tempo reale, blocca quelli usati solo per il training dei modelli. Questa è la scelta di chi vuole la visibilità AI ma non vuole contribuire al training dei modelli.

# Permetti crawler di retrieval AI
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Gemini-Web
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Amazonbot
Allow: /

# Blocca crawler di training puro
User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Default: permetti tutto il resto
User-agent: *
Disallow: /admin/
Disallow: /api/

Configurazione 3: Blocco totale dei crawler AI

Sconsigliata per qualsiasi sito che vuole visibilità AI. Documentata qui solo per completezza.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /
# [... e tutti gli altri]

Se il tuo sito ha questa configurazione oggi, stai lasciando zero opportunità ai motori AI.

Blocco parziale: proteggi le sezioni riservate

Puoi permettere l’accesso alla maggior parte del sito e bloccare sezioni specifiche. Utile se hai contenuti premium o riservati:

User-agent: GPTBot
Allow: /blog/
Allow: /prodotti/
Disallow: /area-clienti/
Disallow: /checkout/

Questo approccio è ragionevole: lasci che ChatGPT legga il tuo contenuto informativo e commerciale, ma proteggi l’area riservata.

Come verificare la configurazione attuale

Metodo rapido: apri https://tuodominio.it/robots.txt nel browser. Cerca righe con Disallow: / che si applicano a User-agent: * o ai bot AI specifici.

Metodo approfondito: Google Search Console → Impostazioni → robots.txt tester. Inserisci il nome del bot (es. GPTBot) e l’URL che vuoi testare. Lo strumento ti dice se quell’agente è bloccato su quella pagina.

Test live: usa curl per simulare una richiesta da un bot specifico:

curl -A "GPTBot" https://tuodominio.it/robots.txt

Questo restituisce il robots.txt come lo vede GPTBot.

Errori comuni e come evitarli

Errore 1: Disallow universale che blocca tutto

# SBAGLIATO
User-agent: *
Disallow: /

Questo blocca tutti i crawler, inclusi quelli AI. Spesso viene inserito durante lo sviluppo e dimenticato in produzione. Controlla sempre prima del lancio.

Errore 2: Regex non intenzionale

# Attenzione — questa riga blocca tutti i file .json
Disallow: /*.json$

Se i tuoi dati strutturati o le tue API sono in file .json, potresti stare bloccando l’accesso dei crawler a informazioni utili.

Errore 3: Blocco di GPTBot senza verificare le conseguenze

Alcune guide consigliano di bloccare GPTBot per “proteggere il contenuto”. Il risultato reale è sparire dalle risposte di ChatGPT con browsing attivo. Valuta bene prima di farlo.

robots.txt e llms.txt: la differenza

robots.txt controlla l’accesso — chi può crawlare il sito e cosa.

llms.txt guida la comprensione — spiega all’AI cosa sei e come descriverti. Non controlla l’accesso, ma migliora la qualità con cui l’AI rappresenta il tuo brand nelle risposte.

Sono due strumenti complementari: robots.txt apre la porta, llms.txt dice all’AI cosa trova quando entra.