Se bazzichi nel mondo del web o hai a che fare con WordPress avrai sicuramente sentito nominare il file robots.txt ma, di preciso, cos’è questo file?

“Un file robots.txt fa capire ai crawler dei motori di ricerca quali pagine o file possono o non possono richiedere dal tuo sito. Viene usato principalmente per evitare di sovraccaricare di richieste il sito; non è un meccanismo che permette di escludere una pagina web da Google. Per escludere una pagina web da Google, devi usare istruzioni noindex oppure proteggere tramite password la pagina.” (Questa la spiegazione tecnica di Google)

Per fartela breve, il file robots.txt contiene le istruzioni per i motori di ricerca su cosa devono leggere e indicizzare quando scansionano un sito web.

Ok Federica ma…chi sono questi crawler che leggono il file robots.txt?  Il”Crawler“, che è che un termine generico, è un qualsiasi programma (robot o spider) che viene usato per la scansione automatica dei siti web. Il crawler principale di Google è Googlebot.

File robots.txt : è davvero importante?

Personalmente la prima volta che ho sentito nominare il file robots.txt  è stata quando, controllando su Google Webmaster Tool, ho trovato tantissimi errori 404, errori che a Mister G proprio non piacciono. Cosa era successo e perchè avevo tutti quei 404?

Praticamente i crowler non riuscivano a raggiungere molti link di pagine, media e contenuti….perchè li avevo completamente rimossi dal sito ma loro non lo potevano sapere e continuavano, quando scansionavano il sito a cercarli.

E’ un pò come succede in casa…tua mamma una mattina si alza e decide di buttare via la tua felpa preferita ma non ti avvisa. Tu che l’hai utilizzata fino al giorno prima inizierai a cercarla come un pazzo e continuerai a farlo fino al momento in cui qualcuno ti avviserà che ormai si trova in qualche inceneritore (imprecazioni a parte è la stessa cosa che succede all’Crowler con i tuoi link corrotti).

Creare un file robots.txt per WordPress

Creare un file robots.txt per WordPress è estremamente importante così come è fondamentale mantenerlo aggiornato e usare le funzioni di “redirect 301” per i link rimossi. Per creare un file robots.txt per WordPress ti basta usare notepad o un semplice altro editor..la cosa fondamentale è salvare il file con estensione .TXT e salvarlo con il nome esatto robots.txt

In alternativa, come abbiamo visto nel tutorial di Yoast SEO puoi crearlo e gestirlo dagli strumenti di Yoast.

Se scegli di creare il file robots.txt per Worpress senza usare il plugin di SEO dovrai, una volta salvato, caricalo nella root (dove sono presenti tutte le cartelle principali wp-content/wp-admin/wp-includes e gli altri file tipo index.php/wp-config.php etc)  del tuo sito attraverso FTP.

Come creare il file robots.txt per WordPress

Fai attenzione a non inserire “/ ” in disallow perchè cosi facendo bloccherai l’indicizzazione di tutti i contenuti:

Se è il primo file robots.txt che stai creando per il tuo sito puoi usare una stringa come questa che consente il libero accesso a tutti gli elementi del tuo sito

Leggi anche:  Inserire Cookie Policy Wordpress

Se invece vuoi usare da subito, cosa che consiglio, un file robots.txt personalizzato e realizzato secondo le linee guida  allora puoi usare questo codec già pronto all’uso

Tieni presente che se stai utilizzando un plug-in come Yoast SEO potrebbe non essere necessario aggiungere la sezione Sitemap, poiché il plugin tenta di farlo automaticamente. Se fallisce, puoi aggiungerlo manualmente come nell’esempio sopra.

Cosa non devi aggiungere al file robots.txt

Google Webmaster ha redatto delle linee guida su come devono essere relizzati i file robots.txt e ha chiaramente indicato che non devono essere utilizzati per nascondere contenuti di bassa qualità.  Pertanto se pensi di utilizzare il file robots.txt per impedire l’accesso a Google a categorie obsolete o pagine di archivio…non è una buona scelta.

La funzione del file robots.txt è di istruire gli user agent su cosa fare con il contenuto che trovano sul tuo sito….non impedisce loro di effettuare la scansione del tuo sito o parti di esso..per quello esiste il noindex.

Inoltre non è necessario aggiungere la pagina wp-admin, la directory di amministrazione o la pagina di registrazione di WordPress al file robots.txt poichè questi contenuti sono registrati con il tag noindex e non vengono quindi scansionate. Quello che ti consiglio è di impostare in disallow il file readme.html perchè questo file potrebbe essere ricercato da qualche utente malintenzionato per capire quale versione di WordPress stai utilizzando e compiere qualche attacco dannoso.

Per migliorare la sicurezza ti consiglio anche di impostare in disallow la directory dei plugin così chiunque cerchi uno specifico plugin vulnerabile da sfruttare non ne avrebbe accesso.

Come inviare il file robots.txt a Google

Dopo aver aggiornato o creato il tuo file robots.txt puoi inviarlo a Google utilizzando Google Search Console. Prima di re-inviarlo ti consiglio di effettuare un test utilizzando lo strumento di test robots.txt di Google .



I prodotti che ti consiglio
Post recenti

Leave a Comment

Contact Us

We're not around right now. But you can send us an email and we'll get back to you, asap.

Illeggibile? Cambia il testo. captcha txt

Inizia a digitare e premi Enter per effettuare una ricerca