Come aggiungere il file Robots.txt per WordPress

Pubblicato: 2019-06-21
wordpress robots.txt
Segui @Cloudways

Non basta creare un sito web. Essere inseriti nei motori di ricerca è l'obiettivo essenziale di tutti i proprietari di siti Web affinché un sito Web diventi visibile in SERP per determinate parole chiave. Questo elenco di un sito Web e la visibilità dei contenuti più recenti sono dovuti principalmente ai robot dei motori di ricerca che eseguono la scansione e l'indicizzazione dei siti Web. I webmaster possono controllare il modo in cui questi robot analizzano i siti web inserendo le istruzioni in un file speciale chiamato robots.txt.

In questo articolo, ti dirò come impostare un file WordPress robots.txt per il miglior sito web SEO. Tieni presente che diverse pagine di un sito Web WordPress non devono essere indicizzate dai motori di ricerca.

  • Che cos'è un file Robots.txt?
  • Perché creare Robots.txt per WordPress?
  • Come creare Robots.txt per WordPress?
  • Advanced Robots.txt per WordPress
  • Cosa includere in Robots.txt per WordPress?
  • Domande frequenti (FAQ)

Che cos'è un file Robots.txt?

Un robots.txt è un file di testo situato nella radice del tuo sito web che indica ai crawler dei motori di ricerca di non eseguire la scansione di parti del tuo sito web. È anche noto come Robots Exclusion Protocol che impedisce ai motori di ricerca di indicizzare determinati contenuti inutili e/o specifici (ad es. la pagina di accesso e i file sensibili).

In breve, robots.txt dice ai bot dei motori di ricerca cosa non dovrebbero eseguire la scansione sul tuo sito web.

Ecco come funziona! Quando un bot di un motore di ricerca sta per eseguire la scansione di un URL del tuo sito Web (ovvero, eseguirà la scansione e recupererà le informazioni in modo che possano essere indicizzate), cercherà prima il tuo file robots.txt.

wordpress con robot txt

Perché creare Robots.txt per WordPress?

Di solito non è necessario aggiungere il file robots.txt per i siti Web WordPress. I motori di ricerca indicizzano l'intero sito WordPress per impostazione predefinita. Tuttavia, per una migliore SEO, puoi aggiungere un file robots.txt alla tua directory principale per impedire in modo specifico ai motori di ricerca di accedere ad aree specifiche del tuo sito Web WordPress.

IdeaBox – Caso di studio

Leggi come Cloudways ha aiutato un'agenzia WordPress a creare prodotti migliori.

Ottieni il caso di studio ora!

Grazie

Il tuo ebook sta arrivando nella tua casella di posta.

Come creare Robots.txt per WordPress?

Accedi alla dashboard dell'hosting web WordPress gestito. Nel mio esempio, sto utilizzando Cloudways – piattaforma di Managed Cloud Hosting.

Vai alla scheda Server dalla barra dei menu in alto e ottieni il tuo accesso SSH/SFTP da Gestione server → Credenziali principali .

accesso al server wordpress

Utilizza qualsiasi applicazione server FTP per accedere ai file del database di WordPress. Sto usando FileZilla per questo tutorial. Avvialo e connettiti al tuo server utilizzando Master Credentials .

accesso ftp wordpress

Una volta connesso, vai alla cartella /applicazioni dei file del database di WordPress. Vedrai diverse cartelle lì.

file di database wordpress

Ora torna alla piattaforma Cloudways e dalla barra in alto a sinistra, vai su Applicazioni . Seleziona l'applicazione per la quale desideri aggiungere il file robots.txt:

accedi all'applicazione wordpress

Dal riquadro di sinistra, vai su Gestione applicazioni → Impostazioni applicazione → Generale . Troverai il nome della cartella della tua applicazione.

cartella dell'applicazione wordpress

Torna a FileZilla e poi vai a /applications/[FOLDER NAME]/public_html . Crea qui un nuovo file di testo e chiamalo robots.txt .

file txt di wordpress robot

Fare clic con il pulsante destro del mouse sul file robots.txt e fare clic su Visualizza/Modifica per aprirlo in un editor di testo (il Blocco note è un'opzione utile).

modifica il file txt di wordpress robot

Advanced Robots.txt per WordPress

I motori di ricerca come Google e Bing supportano l'uso di caratteri jolly nel file robots.txt. Questi caratteri jolly possono essere utilizzati per consentire/non consentire tipi di file specifici in tutto il sito Web di WordPress.

Un asterisco (*) può essere utilizzato per gestire un'ampia gamma di opzioni/selezioni.

 Agente utente: *
Non consentire: /images/image*.jpg

Qui, "*" significa che tutte le immagini che iniziano con "image" e con estensione "jpg" non verranno indicizzate dai motori di ricerca. Ecco alcuni esempi di WordPress robots.txt.

Esempio: image1.jpg, image2.jpg, imagexyz.jpg non verranno indicizzati dai motori di ricerca.

Il potere di * non è limitato alle sole immagini. Puoi anche disabilitare tutti i file con una particolare estensione.

 Agente utente: *
Non consentire: /downloads/*.pdf
Non consentire: /downloads/*.png

Le dichiarazioni di cui sopra chiederanno a tutti i motori di ricerca di disabilitare tutti i file con estensioni "pdf" e "png" trovati nella cartella dei download.

Puoi anche disabilitare le directory principali di WordPress usando *.

 Agente utente: *
Non consentire: /wp-*/

La riga precedente chiede ai motori di ricerca di non eseguire la scansione delle directory che iniziano con "wp-".

Esempio: wp-includes, wp-content, ecc. non verranno indicizzati dai motori di ricerca.

Un altro simbolo jolly utilizzato nel file robots.txt di WordPress è il simbolo del dollaro ($).

 Agente utente: *
Non consentire: referral.php

La dichiarazione di cui sopra chiederà ai motori di ricerca di non indicizzare referral.php e anche referral.php?id=123 e così via.

Ma cosa succede se vuoi bloccare solo referral.php? Devi solo includere il simbolo $ subito dopo il referral.php.

Il simbolo $ assicura che solo referral.php sia bloccato ma non referral.php?id=123.

 Agente utente: *
Non consentire: referral.php$

Puoi usare $ anche per le directory.

 Agente utente: *
Non consentire: /wp-content/

In questo modo i motori di ricerca non consentiranno la cartella wp-content e tutte le directory che si trovano all'interno di wp-content. Se vuoi disabilitare solo il contenuto wp invece di tutte le sottocartelle, dovresti usare il simbolo $. Per esempio:

 Agente utente: *
Non consentire: /wp-content/$

Il simbolo $ garantisce che solo il contenuto wp sia disabilitato. Tutte le directory in questa cartella sono ancora accessibili.

Di seguito è riportato il file robots.txt per il blog di Cloudways.

 Agente utente: *
Non consentire: /admin/
Non consentire: /admin/*?*
Non consentire: /admin/*?
Non consentire: /blog/*?*
Non consentire: /blog/*?

La prima riga indica lo User-agent. Si riferisce al motore di ricerca a cui è consentito accedere e indicizzare il sito web. Un elenco completo di tutti i bot dei motori di ricerca è disponibile qui .

 Agente utente: *

Dove * indica tutti i motori di ricerca. Puoi specificare ciascun motore di ricerca separatamente.

 Non consentire: /admin/
Non consentire: /admin/*?*
Non consentire: /admin/*?

Ciò non consentirà ai motori di ricerca di eseguire la scansione della directory "admin". Spesso non è necessario che i motori di ricerca indicizzino queste directory.

 Non consentire: /blog/*?*
Non consentire: /blog/*?

Se il tuo sito WordPress è un sito di blog, è buona norma limitare i bot dei motori di ricerca a non eseguire la scansione delle query di ricerca.

Se il tuo sito ha una mappa del sito. L'aggiunta del suo URL aiuta i bot dei motori di ricerca a trovare il file della mappa del sito. Ciò si traduce in un'indicizzazione più rapida delle pagine.

 mappa del sito: http://www.yoursite.com/sitemap.xml

Cosa includere in Robots.txt per WordPress?

Sei tu a decidere quali parti del sito WordPress desideri includere nella SERP. Ognuno ha le proprie opinioni sull'impostazione del file robots.txt di WordPress. Alcuni consigliano di non aggiungere un file robots.txt in WordPress. Mentre secondo me si dovrebbe aggiungere e disabilitare la cartella /wp-admin/. Il file Robots.txt è pubblico. Puoi trovare un file robots.txt di qualsiasi sito web visitando www.example.com/robots.txt.

Abbiamo finito con un file robots.txt in WordPress. Se hai domande sull'impostazione del file robots.txt, non esitare a chiedere nella sezione commenti qui sotto.

Avvolgendo!

Come puoi vedere, il file robots.txt è uno strumento interessante per il tuo SEO. Consente di indicare ai robot dei motori di ricerca cosa indicizzare e cosa non indicizzare. Ma va maneggiato con cura. Una configurazione errata può portare a una totale deindicizzazione del tuo sito web (esempio: se usi Disallow: /). Perciò stai attento!

Ora è il tuo turno. Dimmi se usi questo tipo di file e come lo configuri. Condividimi i tuoi commenti e feedback nei commenti.

Q1. Che cos'è robots.txt?

Il robots.txt è un file di testo posizionato nella radice del tuo sito web. Questo file ha lo scopo di impedire ai robot dei motori di ricerca di indicizzare determinate aree del tuo sito web. Il file robots.txt è uno dei primi file scansionati dagli spider (robot).

Q2. Perché viene utilizzato un file robots.txt?

Il file robots.txt fornisce istruzioni ai robot dei motori di ricerca che analizzano il tuo sito web, è un protocollo di esclusione per i robot. Grazie a questo file, puoi vietare l'esplorazione e l'indicizzazione del tuo sito ad alcuni robot (chiamati anche "crawler" o "spider").