Meta tag robots

Meta tag robots: cos’è e perché si usa

Il meta tag robots è un’istruzione inserita nel codice HTML che indica ai crawler (Googlebot, Bingbot, ecc.) come trattare una pagina: se indicizzarla, se seguire i link, se mostrare/snippettare il testo o le anteprime di immagini e video. È utile quando vuoi gestire l’indicizzazione di aree specifiche del sito senza intervenire lato server.

La sintassi tipica è all’interno dell’elemento <head> e definisce una o più directive, ad esempio noindex o nofollow. In assenza di istruzioni, l’interpretazione implicita è “index, follow”.

Meta robots, X-Robots-Tag e robots.txt: differenze operative

Meta robots agisce a livello di pagina e si inserisce nel markup HTML. X-Robots-Tag è l’equivalente inviato via header HTTP, utile per file non HTML (PDF, immagini) o per applicare regole lato server. Il file robots.txt invece regola la scansione (crawl) consentendo o meno il passaggio dei bot su percorsi, ma non garantisce di per sé l’esclusione dall’indice.

In sintesi: se vuoi evitare che una pagina finisca in SERP, usa noindex (meta o header). Se vuoi evitare la scansione di un’area non pubblica, valuta robots.txt. Se devi controllare asset non HTML (es. PDF) o applicare regole massivamente, preferisci X-Robots-Tag.

Direttive supportate e significato (panoramica rapida)

  • index / noindex: consente o impedisce l’inclusione della pagina nell’indice.
  • follow / nofollow: dice ai crawler se seguire i link in uscita. Oggi nofollow viene trattato come segnale; può essere ignorato in alcuni casi.
  • noarchive: evita la cache della pagina nei risultati.
  • nosnippet: impedisce di mostrare descrizioni/anteprime; può rimuovere anche i rich snippet testuali.
  • max-snippet:[n]: limita la lunghezza (in caratteri) dello snippet testuale.
  • max-image-preview:[none|standard|large]: controlla la dimensione delle anteprime immagine.
  • max-video-preview:[n]: limita la durata (in secondi) dell’anteprima video.
  • noimageindex: chiede di non indicizzare le immagini della pagina nei motori di ricerca immagini.
  • notranslate: disabilita l’offerta di traduzione automatica nei risultati.
  • unavailable_after:[RFC-2822 date]: indica dopo quale data/ora la pagina non dovrebbe più comparire in SERP.

Esempi HTML: come scrivere il meta tag robots

Inserisci le direttive nel <head> della pagina. Alcuni casi reali:

<!-- Impostazione esplicita (default) -->
<meta class="nospacetag" name="robots" content="index, follow">

<!-- Escludere la pagina dall'indice, ma consentire la scansione dei link -->
<meta class="nospacetag" name="robots" content="noindex, follow">

<!-- Non mostrare snippet né cache -->
<meta class="nospacetag" name="robots" content="nosnippet, noarchive">

<!-- Controllo anteprime -->
<meta class="nospacetag" name="robots" content="max-snippet:160, max-image-preview:standard, max-video-preview:10">

<!-- Direttiva per un bot specifico (Googlebot) -->
<meta class="nospacetag" name="googlebot" content="noindex, follow">

Le direttive per user-agent specifici sovrascrivono quelle generiche quando esistono conflitti. Mantieni coerenza tra impostazioni generali e bot specifici per evitare ambiguità.

X-Robots-Tag via header HTTP: quando preferirlo

X-Robots-Tag consente di applicare regole a file non HTML (es. PDF) o a intere cartelle, direttamente a livello server/CDN. È utile quando il contenuto non permette di modificare l’HTML, oppure vuoi gestire direttive in modo centralizzato.

# Apache (.htaccess) - Noindex a tutti i PDF di una cartella
<FilesMatch "\.pdf$">
  Header set X-Robots-Tag "noindex, noarchive"
</FilesMatch>

# Nginx - Noindex a immagini in /private-media/
location /private-media/ {
  add_header X-Robots-Tag "noindex, noimageindex" always;
}

# PHP - Inviare header per un singolo asset dinamico
header('X-Robots-Tag: noindex, noarchive');

Quando applichi regole ampie via header, documenta eccezioni e verifica con uno crawl di controllo che le risposte HTTP includano davvero l’intestazione attesa.

Casi d’uso tipici: dove il meta robots fa la differenza

Pagine di filtro/faceted navigation con combinazioni sottili: meglio noindex, follow se non esiste un valore di ricerca unico. Accompagna con logiche di canonical e routing pulito.

Paginazioni e archivi generici (tag molto ampi, ordina per prezzo, ecc.): se non portano valore in SERP, valuta noindex e sposta il focus su pagine categoria ottimizzate.

Staging e ambienti di test: imposta noindex e protezione con credenziali. Non affidarti solo al robots.txt, che non impedisce l’indicizzazione se l’URL è noto.

PDF e materiali non aggiornati: via X-Robots-Tag puoi escludere documenti datati e indirizzare gli utenti verso versioni correnti.

Varianti duplicate (tracking parameter, stampabile): usa noindex sulle varianti e reindirizzamenti 301 o canonical per concentrare i segnali sulla pagina principale.

Impatto su indicizzazione, snippet e link

noindex è il segnale più chiaro per rimuovere una pagina dall’indice. I bot possono continuare a scansionare l’URL se trovano link interni/esterni; la combinazione noindex, follow consente comunque il passaggio di segnali ai link in pagina.

nofollow viene trattato come hint: i motori possono decidere di ignorarlo in specifici scenari. Mantieni coerenza con gli attributi dei link (rel="nofollow ugc sponsored" dove opportuno) e con le policy di link esterni.

nosnippet, max-snippet e affini gestiscono la resa in SERP: possono ridurre la visibilità del testo mostrato e, in alcuni casi, l’idoneità a risultati arricchiti. Testa l’effetto prima di estendere la regola a larga scala.

Come testare: sorgente pagina, header, Search Console

Controlla la presenza del meta nel codice (View Source) e la risposta HTTP con DevTools o cURL:

curl -I https://www.esempio.it/pagina
HTTP/2 200
x-robots-tag: noindex, noarchive

In Google Search Console usa “Controllo URL” per vedere come il crawler interpreta l’asset e se rileva direttive di noindex. Monitora i report “Pagine” e “Miglioramenti” per eventuali variazioni post rilascio.

Errori ricorrenti (e come evitarli)

Bloccare via robots.txt e pretendere la de-indicizzazione
Il robots.txt impedisce la scansione, non l’indicizzazione se l’URL è noto. Per rimuovere una pagina usa noindex o la rimozione temporanea in Search Console.

Aggiungere noindex su template globali per errore
Un noindex ereditato può coinvolgere sezioni intere. Versiona i template e prevedi alert automatici su modifiche al <head>.

Contraddizioni tra meta robots e header
Evita conflitti: la stessa pagina non dovrebbe inviare direttive divergenti tra HTML e header.

Usare nosnippet su pagine che puntano a snippet arricchiti
Rischi di perdere anteprime utili. Valuta max-snippet prima di rimuovere del tutto.

Checklist operativa (prima del rilascio)

  • Mappa le pagine/asset e definisci dove applicare noindex, nofollow o anteprime limitate.
  • Scegli lo strumento: meta robots per HTML, X-Robots-Tag per PDF/immagini e regole massive.
  • Allinea sitemap XML, link interni e canonical alla strategia scelta.
  • Versiona i template e predisponi test automatizzati su meta/header.
  • Esegui un crawl pre e post rilascio per verificare direttive e status code.
  • Annota le modifiche in Search Console e monitora copertura/CTR.

Domande frequenti sul meta tag robots

Meglio usare “noindex, follow” o “noindex, nofollow”?

Nella maggior parte dei casi noindex, follow è preferibile: la pagina non compare in SERP ma i bot possono seguire i link, mantenendo la rete interna utile. nofollow ha senso su pagine senza valore di passaggio o aree che non vuoi far esplorare.

Posso applicare noindex solo a Googlebot e non agli altri bot?

Sì: usa un meta con name="googlebot". Tieni presente che scelte molto differenziate tra bot possono creare comportamenti inattesi: valuta pro e contro prima di implementare regole asimmetriche.

Come escludo dall’indice un PDF già indicizzato?

Invia un header X-Robots-Tag: noindex sul PDF, aggiorna interlinking e sostituisci con una pagina HTML equivalente quando possibile. Richiedi la nuova scansione dell’URL in Search Console.

“nosnippet” influisce sui risultati arricchiti?

Può ridurre o rimuovere le anteprime testuali e in alcuni casi l’idoneità a snippet più ricchi. Se vuoi solo accorciare la descrizione, imposta max-snippet con un limite adeguato.

Cosa succede se rimuovo “noindex” dopo mesi?

La pagina può tornare in indice dopo la nuova scansione. Velocizza il processo con “Controllo URL” in Search Console e assicurati che la pagina sia collegata da altre risorse del sito.

Risorse utili per approfondire e verificare

Consulta la guida ufficiale alle direttive in Google Search Central e, per testare la resa, usa il Test dei risultati avanzati. Per il monitoraggio continuo, imposta annotazioni ed eventi in Search Console.