File Robots.txt: guida completa
Guida completa al file Robots.txt: cos’è e come utilizzare questo file strategico per la SEO, le direttive principali ed esempi per ogni CMS.
Robots.txt: cosa devi sapere
Il file Robots.txt è un semplice file di testo che però è di fondamentale importanza nell’ambito di una consulenza SEO che voglia dirsi qualificata. Esso contiene, infatti, le direttive attraverso le quali indicare ai bot dei motori di ricerca quali parti di un qualsiasi sito internet scansionare o meno.
Una corretta impostazione del robots.txt permette, in primis, di ottimizzare il crawl budget e di indirizzare, conseguentemente, i bot verso quelle che sono le risorse principali del sito internet da scansionare.
Guida al file robots.txt
In questa guida definitiva al corretto uso del file robots.txt vedremo la sintassi, la location del file stesso, gli user agent e loro gestione, direttive e i commenti e, infine, ti forniremo esempi per i principali CMS attualmente presenti sul mercato, quali: SalesForse, Shopify, Adobe Commerce (precedentemente Magento) e WordPress.
Cos’è il file Robots.txt
Come accennato precedentemente, si tratta di un file di testo che rappresenta il, cosiddetto, protocollo di esclusione robot, ossia contiene le direttive su cosa e non cosa un bot debba scansionare all’interno del sito internet. Si tratta del primo file al quale accendo gli user-agent dei vari motori di ricerca e degli altri strumenti che operano online e quindi è di fondamentale importanza che sia presente, in altre parole, qualora mancasse, i bot scansionerebbero, indistintamente, l’intero sito web.
Location Robots.txt
Sì, fin qui tutto chiaro, ma dove si trova il file Robots.txt? Deve essere posizionato nella radice, o root, del tuo sito web. Questo significa che deve essere accessibile tramite un URL del tipo [PROTOCOLLO]//www.[DOMAIN].[EXT]/robots.txt, nel caso del sito Reelevate, avremo: https://www.reelevate.it/robots.txt
I file Robots.txt controllano solo il comportamento di scansione sul sottodominio in cui sono contenuti.
Quindi, se vuoi controllare la scansione su un altro sottodominio, hai bisogno di un file robots.txt separato, caricato sempre nella root.
User-Agent
Per user-agent si intende il nome del crawler che è interessato a scansionare il nostro sito, è un identificativo univoco grazie al quale, volendolo, si posso indicare specifiche direttive per, ad esempio, far scansionare una parte del sito a uno sì e a un altro no. Esempi di user-agent noti sono: Googlebot-Mobile di Google o Bingbot di Bing o, ancora SemrushBot di SemRush, uno dei tool per il marketing online più conosciuti.
Sintassi e Direttive
La sintassi del robots.txt è semplice: ogni riga del file contiene una direttiva che specifica un comportamento che gli user-agent devono seguire. Le direttive sono composte da due parti principali: il nome e il valore associato separati, solitamente, dai due punti (:).
Le direttive nel file robots.txt vanno a definire quale debba essere il comportamento dei crawler. Le due direttive principali sono: Disallow (blocca) e, meno usata, Allow (consenti). Si ricorda, infatti, che il robots.txt è stato ideato per bloccare, quindi le direttive allow sono da considerare delle eccezioni all’interno del file per andare a gestire casi particolari come, ad esempio, consentire la scansioni di alcuni elementi all’interno di una directory (cartella) bloccata.
Fra le altre, molto importante è quella Sitemap: [URL MAPPA XML] che permette, come suggeriscono nome e valore, di indicare all’interno del file robots.txt quale sia l’indirizzo della mappa XML che ogni sito internet dovrebbe avere e che in questo modo verrà immediatamente scansionata, al di là della sottomissione tramite Search Console della stessa; in questo modo i bot dei motori di ricerca troveranno subito le pagine principali del sito internet.
O, ancora, crawl-delay che serve a definire l’attesa, in secondi, che i vari crawl devono rispettare fra una scansione e l’altra. NB: questa direttiva Google non la considera più.
Esempio
User-agent: * Crawl-delay: 5
La direttive di cui sopra si riferiscono a tutti gli user-agent in quanto il nome (user-agent) è valorizzato ad asterisco (*), carattere jolly nella sintassi del file robots.txt. Nello specifico accade che, come detto, i bot di Google non la considerano, quelli di Yahoo! e Bing aspetteranno 5 secondi tra una scansione e la successiva, mentre i bot di Yandex accederanno al sito solo una volta ogni 5 secondi.
I commenti: a cosa servono
I commenti sono parti del file robots.txt che vengono ignorate dai crawler. Permetto di inserire note o spiegazioni sulle direttive presenti. I commenti iniziano con il carattere cancelletto (#) o il doppio slash (//), meno in uso.
Esempio
# Questo è un commento User-agent: * # Elenco directory da non far scansionare Disallow: /private/ Disallow: /nome-cartella/
Creare, Modificare e Scrivere il file robots.txt
Difficile che al giorno d’oggi un file Robots.txt non sia presente nei pacchetti di installazione dei migliori CMS presenti sul mercato ma può capitare, per qualsiasi motivo, che manchi.
Vediamo ora come crearlo in autonomia qualora ne notassimo l’assenza.
Per creare un file robots.txt, basta aprire un editor di testo e salvare il file come robots.txt. Assicurati che il file venga salvato in formato di testo puro senza alcuna estensione o formato speciale.
Per modificarlo, è possibile aprire il file in un editor di testo, apportare le modifiche necessarie e salvarlo nuovamente.
Per scrivere le direttive nel file robots.txt, segui la sintassi e le linee guida descritte in precedenza. Assicurati di rispettare la sintassi corretta per evitare errori di interpretazione da parte dei crawler.
Alla fine delle operazioni sopra descritte il file così generato va caricato nella root o directory principale del sito, ad esempio tramite client o moduli delle piattaforme CMS. Questi ultimi consentono di gestire il contenuto del file robots.txt direttamente dal backend del sito.
A prescindere che sia nativo o creato ad hoc, è sempre bene verificare le direttive inserite attraverso il tester dei file robots.txt messo a disposizione da Google.
Gestione dei filtri in un e-commerce
Uno degli aspetti cruciali nell’ottimizzazione SEO di un e-commerce è la corretta gestione dei filtri, che consentono ai visitatori di raffinare la loro ricerca e trovare i prodotti desiderati in modo più efficiente. L’implementazione della corretta gestione dei filtri nel file robots.txt può contribuire a migliorare l’esperienza dell’utente e l’indicizzazione dei prodotti da parte dei motori di ricerca.
Quando si tratta di gestire i filtri in un e-commerce nel file robots.txt, è importante considerare le seguenti direttive:
- Disallow: Questa direttiva viene utilizzata per impedire ai motori di ricerca di accedere a determinate pagine o directory che contengono filtri.Ad esempio, se le URL dei filtri contengono parametri relativi a colore (es. “?color=red”), taglia (es. “?size=large”), o ordering di vario genere (es. per prezzo, ?pmax=), è consigliabile disabilitare l’accesso a queste URL specifiche per evitare duplicazioni di contenuti e possibili problemi di indicizzazione.
- Allow: Se alcuni filtri sono importanti per l’esperienza dell’utente e desideri che siano indicizzati, puoi utilizzare la direttiva “Allow” per consentire l’accesso a determinate URL di filtro. Ad esempio, se hai una categoria di prodotti chiamata “Scarpe” e desideri che i filtri per la dimensione siano indicizzati, puoi utilizzare la seguente direttiva:
Esempio
User-agent: * Disallow: /category/shoes/?size= Allow: /category/shoes/
In questo esempio, i filtri per la dimensione delle scarpe saranno disabilitati (Disallow), ma la categoria generale delle scarpe sarà consentita (Allow).
La gestione dei filtri nel file robots.txt dipende dalle specifiche del tuo sito e-commerce. È fondamentale analizzare attentamente le URL dei filtri e decidere quali devono essere indicizzate e quali no, al fine di fornire una migliore esperienza all’utente e ottimizzare la presenza del tuo negozio online nei risultati di ricerca.
A titolo puramente esplicativo e come spunti o punti di partenza per capire meglio le logiche della creazione del file robots.txt, forniamo ora degli esempi tra alcuni dei CMS più diffusi.
Partiamo da CMS lato e-commerce come Adobe Commerce, Salesforce Commerce Cloud e Shopify, per poi mostrare esempi relativi a WordPress.
È sempre importante personalizzare il file robots.txt in base alle esigenze specifiche del sito oggetto, con una attenta e approfondita scansione, e sempre riportando in fondo informazioni relative alle sitemap xml.
Inoltre, i seguenti esempi si basano su URL standard che si può far decidere di erogare o meno, a seconda delle più differenti esigenze lato commerciale/utente o esigenze tecniche di sviluppo.
Esempio file robots.txt per Adobe Commerce/Magento
Ecco un esempio di file robots.txt per un sito su piattaforma Adobe Commerce/Magento:
User-agent: * Disallow: /admin/ Disallow: /app/ Disallow: /downloader/ Disallow: /errors/ Disallow: /checkout/ Disallow: /customer/ Disallow: /wishlist/ Disallow: /catalogsearch/
In questo esempio abbiamo utilizzato la direttiva “Disallow” per impedire l’accesso a diverse directory sensibili e cartelle che non dovrebbero essere indicizzate dai motori di ricerca. Queste includono la directory di amministrazione (“/admin/”), dell’applicazione (“/app/”), del downloader (“/downloader/”), degli errori (“/errors/”), e altre directory/folder interne del sistema, a meno di esigenze particolari specifiche dell’e-commerce.
Inoltre, abbiamo specificato alcune pagine che dovrebbero essere disabilitate, come la pagina di checkout (“/checkout/”), l’area cliente (“/customer/”), la lista dei desideri (“/wishlist/”), e altre pagine di funzionalità specifiche come le pagine di ricerca (“/catalogsearch/”)
Esempio di file robots.txt per Salesforce Commerce Cloud
Ecco un esempio di file robots.txt per un sito su piattaforma Salesforce Commerce Cloud:
User-agent: * Disallow: /search/ Disallow: /cart/ Disallow: /checkout/ Disallow: /Search-Show/ Disallow: /account/ Disallow: /wishlist/ Disallow: /on/demandware.store/ Disallow: /s/ Disallow: /dw/ Disallow: /IS/
In questo esempio abbiamo utilizzato la direttiva “Disallow” per impedire l’accesso a pagine di ricerca (“/search/”, “/Search-Show/”), carrello/login utente (“/cart/”, /checkout/”, “/account/”, “/wishlist/”). Si può valutare se utilizzare la direttiva “Disallow” anche per impedire l’accesso a directory come “/on/demandware.store”, “/s/”, “/dw”, “/IS/ in quanto contengono elementi dinamici e pagine di amministrazione, ma occorre considerare se siano rilevanti per visualizzazione delle pagine o per altre motivazioni.
Esempio di file robots.txt per Shopify
Ecco un esempio di file robots.txt per un sito su piattaforma Shopify:
User-agent: * Disallow: /admin/ Disallow: /cart/ Disallow: /checkout/ Allow: /products/ Allow: /collections/ Disallow: /search Disallow: /account/ Disallow: /account/login Disallow: /account/register Disallow: /account/forgot_password
In questo esempio con la direttiva “Disallow” impediamo l’accesso a pagine come l’amministrazione del negozio, il carrello, il checkout e le pagine di account. La direttiva “Allow” è stata utilizzata per consentire l’accesso alle pagine “target” lato SEO, relative a prodotti e collezioni.
Inoltre, abbiamo incluso ulteriori direttive “Disallow” per impedire l’accesso a determinate pagine di account come il login, la registrazione e il recupero della password. La direttiva “Disallow” è stata anche utilizzata per impedire l’accesso alla pagina di ricerca del negozio.
Esempio di file robots.txt per WordPress
Ecco un esempio di file robots.txt per un sito WordPress:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Allow: /wp-content/plugins/ Allow: /wp-content/themes/ Disallow: /readme.html
In questo esempio, l’esclusione attraverso la direttiva “Disallow” riguarda file di sistema e di amministrazione del sito, si consente con “Allow” l’accesso alle directory dei plugin (“/wp-content/plugins/”) e dei temi (“/wp-content/themes/”). Questo è utile se si desidera che i contenuti dei plugin e dei temi siano accessibili ai motori di ricerca.
Infine, si è escluso l’accesso al file “readme.html”, che contiene informazioni sensibili sulle versioni di WordPress e potrebbe essere utilizzato da potenziali attacchi per scoprire vulnerabilità nel sistema.
Conclusioni
Il robots.txt è una linea guida per i crawler ed è un file molto potente che, se utilizzato in modo non corretto, può avere un effetto molto negativo sulla SEO di un e-commerce.
Hai bisogno di supporto nell’analisi e ottimizzazione SEO del tuo e-commerce?
Il nostro approccio alla SEO è un processo continuativo e circolare (analisi, strategia, implementazione, monitoraggio) volto a far crescere il tuo business, offrendoti expertise e consulenza di alto livello.
Contattaci
Vuoi (re) elevare il tuo business online? Parliamone insieme.