
La sitemap XML è un elenco strutturato degli URL che vuoi far scoprire ai motori di ricerca. Aiuta i crawler a individuare rapidamente le pagine importanti, ma non garantisce né crawling né indicizzazione. È un segnale di scoperta, non un pass per la SERP. La specifica è disponibile qui: sitemaps.org e la guida ufficiale di Google qui: Search Central.
Prima di costruirla chiediti: gli URL sono accessibili, abbiano contenuti unici, restituiscono 200 e sono coerenti con la tua canonizzazione? Se la base non è solida, la sitemap amplifica il rumore, non la scoperta.
Gli URL in 301/302, 4xx o 5xx rallentano la scoperta e sprecano crawl. La sitemap deve elencare solo canoniche raggiungibili in 200. Dopo migrazioni o pulizie periodiche, aggiorna l’elenco: vecchie path lasciate nella sitemap confondono la copertura in Google Search Console.
Varianti con parametri di tracking, id di sessione, filtri e ordinamenti generano duplicazioni. La sitemap deve proporre la versione canonica di ogni risorsa. Vedi le linee guida su consolidamento delle duplicazioni: Google: consolidare URL duplicati.
noindex o bloccati dal robots.txtSegnalare nella sitemap URL marcati noindex o bloccati dal robots.txt è un’incoerenza che può generare avvisi. La sitemap deve contenere solo URL indicizzabili e scansionabili. Ricorda: il robots.txt influenza la scansione, non rimuove dall’indice; per l’indice serve noindex o rimozione.
La specifica richiede URL assoluti. Evita mix http/https o www/non-www. Scegli uno schema e un host canonico e mantienili coerenti. Errori qui portano a duplicazioni e spreco di crawl.
<lastmod>, <changefreq> e <priority><lastmod> va aggiornato solo quando il contenuto cambia in modo sostanziale, non ad ogni deploy. <changefreq> e <priority> sono hint spesso ignorati dai motori: usarli con valori fittizi non porta benefici. Meglio ometterli che compilarli a caso.
Ogni file ha limiti: 50.000 URL o 50MB non compressi. Per siti ampi crea più file e un <sitemapindex>. Comprimi con GZIP. Strutturare per sezioni (es. prodotti, articoli, pagine) rende più facile il debug.
Non tutto merita la sitemap. Escludi pagine sottili, duplicati, tag/archivi inutili, varianti quasi identiche. Inserisci le pagine che vuoi far crescere in SERP: categorie, guide, schede complete, landing utili.
Se una pagina è nella sitemap ma resta orfana (zero link interni), la scoperta si complica. La sitemap non sostituisce l’interlinking. Collega ogni URL importante da menu, breadcrumb e link contestuali.
Cambio struttura URL, 301, nuove tassonomie: la sitemap va riscritta e ripubblicata. Lasciare vecchie path genera errori 404 e “URL inviato non trovato (404)” in Search Console. Dopo il go-live invia la nuova sitemap e rimuovi quelle obsolete.
E-commerce e listing con faccette generano migliaia di combinazioni. Nella sitemap inserisci solo combinazioni che intercettano ricerche reali; per il resto usa canonical verso la categoria base o escludi via noindex e routing chiaro.
Il file deve trovarsi su un percorso accessibile. Evita blocchi via server o CDN, redirect inconsapevoli o IP whitelisting. Ricorda: una sitemap può elencare solo URL dello stesso host o dei suoi sottodomini, a meno di proprietà verificate specifiche.
Feed e sitemap hanno scopi diversi. I feed aiutano utenti e aggregatori, la sitemap aiuta i crawler. Alcuni siti pubblicano feed come se fossero sitemaps: non è equivalente. Se vuoi usare i feed per la discovery, aggiungili, ma non sostituiscono la sitemap.
Il root corretto è simile a questo:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xhtml="http://www.w3.org/1999/xhtml">
<url>
<loc>https://www.esempio.it/percorso-canonico/</loc>
<lastmod>2025-08-20</lastmod>
</url>
</urlset>
Manca il namespace? Tag fuori ordine? Caratteri non escapati? Il parser fallisce e i motori ignorano il file. Valida il codice prima del rilascio.
lastmod fittizio per “forzare” il crawlAggiornare lastmod ogni notte senza modifiche reali è controproducente: invii segnali incoerenti. Indica la data reale del cambio contenuto/markup. Google ha chiarito i limiti della sitemap anche qui: “A cosa non serve una sitemap XML”.
Per siti multilingua puoi inserire relazioni hreflang direttamente nella sitemap con xhtml:link. Le coppie devono essere reciproche e coerenti; includi anche l’eventuale x-default. Riferimento: versioni localizzate.
Per contenuti visuali usa le estensioni image:image e video:video con URL raggiungibili. Per siti news, la News sitemap include solo gli articoli recenti (finestra temporale ridotta). Pubblicare tutto in un unico file “onnicomprensivo” è meno chiaro del separare per tipologia.
File molto grandi non compressi appesantiscono il trasferimento. Abilita GZIP e imposta un caching con scadenza sensata. Se generi la sitemap a runtime, evita query lente e stabilizza l’output.
Oltre all’invio in Search Console, aggiungi nel robots.txt una riga come questa:
Sitemap: https://www.esempio.it/sitemap.xml
Non è obbligatorio, ma aiuta i crawler a trovarla in modo affidabile.
La sezione “Sitemap” in Search Console mostra stato, URL processati, scarti e warning. Ignorare questi segnali allunga i tempi di diagnosi. Annota i rilasci e confronta i periodi pre/post per capire l’impatto.
Molti generatori CMS includono URL bozza, pagine di test o endpoint privati. Prima della messa online, esegui una validazione strutturale e un campionamento delle URL (status code, canonical, noindex, robots).
Mappa le sezioni del sito e definisci quali URL hanno valore di ricerca. Normalizza host e protocollo, verifica i 200 e la coerenza dei canonical. Genera sitemap per sezioni (articoli, categorie, pagine, prodotti) e raccoglile in un indice. Compila lastmod solo quando cambia davvero il contenuto. Pubblica i file su percorsi stabili, dichiara la sitemap nel robots.txt, inviala in Search Console. Infine, programma controlli periodici per rimuovere URL eliminate e aggiungere nuove risorse.
200, senza redirect o errori; host e protocollo coerenti.lastmod realistico; niente compilazioni automatiche quotidiane senza modifiche reali.noindex o bloccato da robots; allineamento con interlinking e canonical.robots.txt e invio/monitoraggio in Search Console.lastmod.Snippet ok con lastmod reale:
<url>
<loc>https://www.esempio.it/guida-sitemap/</loc>
<lastmod>2025-08-15</lastmod>
</url>
Anti-pattern: URL in redirect e lastmod finto quotidiano:
<url>
<loc>http://www.esempio.it/guida-sitemap</loc> <!-- redirect a https://... -->
<lastmod>2025-08-23</lastmod> <!-- aggiornato ogni notte senza reali modifiche -->
</url>
La sitemap accelera la scoperta di nuove pagine o sezioni profonde, ma Google decide comunque cosa e quando scansionare. Una sitemap coerente, leggera e allineata con l’architettura del sito aiuta a ridurre sprechi e tempi di attesa, specialmente su progetti grandi.
Errori comuni nel report “Sitemap”: “URL inviato contrassegnato come ‘noindex’”, “URL inviato non trovato (404)”, “Impossibile recuperare la sitemap”, “Sitemap troppo grande”. Per ognuno, verifica la pagina, lo status code, eventuali 301/302, il meta robots e allinea l’elenco. Dopo la correzione, richiedi una nuova scansione della sitemap dall’interfaccia.
Il trio funziona se comunica lo stesso messaggio: la sitemap elenca ciò che vuoi far scoprire, il robots.txt non blocca quelle aree e i canonical non puntano altrove. Se uno dei tre smentisce gli altri, i crawler scelgono la strada più prudente e la copertura si complica.
Aiuta la scoperta, non garantisce l’indicizzazione. Se la pagina è di qualità e il sito è affidabile, la sitemap riduce la latenza di crawling. Senza interlinking e segnali utili, l’effetto è limitato.
No. Inserisci le URL che desideri vedere in SERP e che offrono valore: evita pagine sottili, filtri, parametri, archivi inutili. Meno rumore = diagnosi più semplice e crawling più efficace.
Sì, anzi è consigliabile per siti medi e grandi. Suddividi per tipologia (prodotti, articoli, pagine) e raccogli in un sitemapindex. Così monitori problemi per sezione e risolvi più in fretta.
lastmod?Solo quando cambia davvero il contenuto o il markup con impatto per l’utente. Aggiornamenti fittizi o schedulati senza modifiche riducono l’affidabilità del segnale.
Fai entrambe le cose: dichiararla nel robots.txt aiuta la scoperta automatica; inviarla in Search Console sblocca il monitoraggio, i warning e le statistiche sul processamento.
Una sitemap XML ben costruita non è lunga: è pulita, coerente con la gerarchia informativa e aggiornata quando serve. Elenca risorse che meritano la SERP, parla la stessa lingua di canonical e robots.txt, tiene traccia dei cambi reali via lastmod e facilita il debug grazie alla suddivisione in file tematici. Con questa impostazione riduci sprechi di crawl, accorci i tempi di scoperta e ottieni un reporting chiaro in Search Console. È così che un semplice file XML diventa un acceleratore di visibilità, non un contenitore di errori.
Questo sito utilizza cookie tecnici e di profilazione.
Puoi accettare, rifiutare o personalizzare i cookie premendo i pulsanti desiderati.
Chiudendo questa informativa continuerai senza accettare.
Impostazioni privacy
Questo sito utilizza i cookie per migliorare la tua esperienza di navigazione su questo sito.
Visualizza la Cookie Policy Visualizza l'Informativa Privacy