Robots.txt in WordPress: come configurarlo

Cos'è la seo

Indice dei contenuti

File Robots.txt in WordPress: Configurazione, ottimizzazione e test

Il file robots.txt è uno degli strumenti più potenti e sottovalutati per la gestione di un sito WordPress. Questo piccolo file di testo, posizionato nella root del tuo sito, agisce come una mappa per i crawler dei motori di ricerca, indicando loro quali pagine o directory possono essere scansionate e quali devono essere evitate. Sebbene spesso trascurato, il file robots.txt gioca un ruolo cruciale nell’ottimizzazione SEO, nella gestione del budget di scansione e nella protezione di risorse sensibili. In questa guida avanzata, esploreremo tutto ciò che devi sapere per configurare, ottimizzare e testare il tuo file robots.txt, con un focus su best practice, caratteri speciali, strumenti di test e molto altro. Scopri come sfruttare al massimo questo strumento per migliorare il posizionamento e la sicurezza del tuo sito WordPress.

Cos’è il file Robots.txt e qual è il suo ruolo?

Il file robots.txt è un protocollo di esclusione che comunica con i crawler dei motori di ricerca. Non è uno strumento di sicurezza (non blocca l’accesso ai contenuti), ma una linea guida che i bot rispettano volontariamente. Il suo ruolo principale è:

  • Ottimizzare il budget di scansione: evitare che i crawler sprechino risorse su pagine non rilevanti.
  • Proteggere aree sensibili: impedire l’indicizzazione di pagine di login, cartelle di backup o directory di sviluppo.
  • Guidare l’indicizzazione: indirizzare i motori di ricerca verso le pagine più importanti del tuo sito.

Come configurare il file robots.txt in WP

WordPress genera automaticamente un file robots.txt di base, ma per sfruttarne appieno il potenziale, è necessario personalizzarlo. Ecco come fare:

Accesso e modifica del file robots.txt

Puoi visualizzare il file robots.txt digitando https://iltuosito.it/robots.txt nel browser. Se non è presente, WordPress ne genera uno virtuale. Per crearne uno personalizzato:

  • Usa un plugin SEO: strumenti come Yoast SEO o Rank Math permettono di modificare il file direttamente dal pannello di controllo.
  • Modifica manuale: crea un file di testo chiamato robots.txt e caricalo nella root del tuo sito via FTP.

Cosa deve contenere un robots.txt ottimizzato

Un file robots.txt ben configurato deve includere:

  • User-agent: specifica i crawler a cui si applicano le regole (es. * per tutti i bot).
  • Disallow: indica le directory o pagine che i bot non devono scansionare (es. /wp-admin/).
  • Allow: consente l’accesso a specifiche risorse all’interno di una directory bloccata.
  • Sitemap: include il link alla sitemap XML per facilitare l’indicizzazione.

Regole specifiche per crawler diversi

Oltre alle regole generali per tutti i crawler (utilizzando User-agent: *), è possibile definire istruzioni specifiche per bot di motori di ricerca particolari, come Googlebot, Bingbot o altri. Questo è utile quando vuoi che determinati crawler si comportino in modo diverso rispetto agli altri. Ecco come fare:

Esempi di user-agent specifici

Ogni motore di ricerca ha il proprio crawler, identificato da un nome univoco. Ecco alcuni esempi di User-agent comuni:

  • Googlebot: il crawler di Google per la ricerca organica.
  • Googlebot-Image: il crawler di Google specifico per le immagini.
  • Bingbot: il crawler di Bing.
  • YandexBot: il crawler di Yandex.
  • DuckDuckBot: il crawler di DuckDuckGo.

Come configurare regole per crawler specifici

Per applicare regole diverse a crawler specifici, devi utilizzare il loro User-agent. Ecco un esempio di configurazione:

 User-agent: Googlebot Disallow: /private/ Allow: /public/

User-agent: Bingbot
Disallow: /temp/
Allow: /public/images/

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

In questo esempio:

  • Googlebot non può accedere alla directory /private/ ma può scansionare /public/.
  • Bingbot non può accedere a /temp/ ma può scansionare /public/images/.
  • Tutti gli altri crawler (User-agent: *) non possono accedere a /wp-admin/ e /wp-includes/.

Quando usare regole specifiche

Ecco alcuni scenari in cui potrebbe essere utile configurare regole specifiche per crawler diversi:

  • Ottimizzazione per Google Images: bloccare Googlebot-Image da directory non rilevanti per le immagini.
  • Protezione di contenuti sensibili: impedire a Bingbot di accedere a pagine riservate, mentre Googlebot può farlo.
  • Gestione del budget di scansione: limitare l’accesso di crawler meno importanti (es. Yandex) a pagine non critiche.

Attenzione alle regole contraddittorie

Quando utilizzi regole specifiche per crawler diversi, assicurati che non ci siano conflitti con le regole generali (User-agent: *). I crawler seguono sempre le istruzioni più specifiche per il loro User-agent. Ad esempio, se Googlebot ha una regola Allow per una directory, ma c’è una regola Disallow generale per tutti i bot, Googlebot seguirà la regola specifica.

Esempio di Configurazione Avanzata

Ecco un esempio di file robots.txt ottimizzato per un sito WordPress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/
Sitemap: https://iltuosito.it/sitemap_index.xml

Questo esempio blocca l’accesso a directory sensibili ma permette la scansione delle immagini caricate (/wp-content/uploads/).

Caratteri speciali e regole avanzate

Il file robots.txt supporta caratteri speciali per regole più flessibili:

  • *: wildcard che rappresenta qualsiasi sequenza di caratteri (es. Disallow: /wp-*/ blocca tutte le directory che iniziano con wp-).
  • $: indica la fine di una stringa (es. Disallow: /*.php$ blocca tutti i file PHP).

Strumenti per testare il file robots.txt

Dopo aver configurato il file, è essenziale testarlo per assicurarsi che funzioni correttamente. Ecco alcuni strumenti utili:

  • Google Search Console: lo strumento “Tester robots.txt” permette di verificare errori e problemi.
  • Screaming Frog SEO Spider: analizza il file e simula il comportamento dei crawler.
  • Online robots.txt tester: strumenti online come quello offerto da Logeix.

Cosa lasciare aperto e cosa bloccare

Ecco alcune best practice su cosa includere o escludere nel file robots.txt:

  • Blocca: directory di sistema (/wp-admin/, /wp-includes/), plugin, temi e pagine di login.
  • Lascia aperto: contenuti pubblici, immagini, file CSS/JS e la sitemap XML.

Errori comuni da evitare

Ecco alcuni errori frequenti che possono compromettere l’efficacia del file robots.txt:

  • Bloccare troppe risorse: impedire ai crawler di accedere a contenuti importanti può danneggiare il posizionamento.
  • Dimenticare la sitemap: includere il link alla sitemap è fondamentale per l’indicizzazione.
  • Usare regole contraddittorie: assicurati che le regole Allow e Disallow non si sovrappongano in modo incoerente.

Conclusioni

Il file robots.txt è uno strumento potente per ottimizzare la scansione e l’indicizzazione del tuo sito WordPress. Configurarlo correttamente richiede attenzione ai dettagli, ma i benefici in termini di SEO e gestione dei crawler sono significativi. Utilizza gli strumenti di test e segui le best practice per garantire che il tuo file sia sempre ottimizzato e funzionale.

Picture of Andrea Bodria

Andrea Bodria

Indice dei contenuti

Potrebbe interessarti anche

Serve un supporto tecnico?

My Agile Privacy

Questo sito utilizza cookie tecnici e di profilazione. 

Puoi accettare, rifiutare o personalizzare i cookie premendo i pulsanti desiderati. 

Chiudendo questa informativa continuerai senza accettare.