Robots.txt per SEO (Nozioni di base sulla SEO)

Pubblicato: 2022-04-09

I file Robots.txt sono elementi sui tuoi siti Web che non vuoi eliminare. Consentono e bloccano l'ingresso ai visitatori di bot indesiderati che cercano di "curiosare" attraverso i contenuti del tuo sito web.

Questo è più o meno un modo semplice per definire i file robots.txt.

In questo post, entrerò nel robots.txt per le nozioni di base sulla SEO .

Imparerai:

Quando dovresti usarli
Come implementarli
Errori da evitare

I bot utilizzati dai motori di ricerca sono spider che eseguono la scansione del Web per indicizzare i contenuti del sito Web da tutto Internet. Queste informazioni consentono ai motori di ricerca di conoscere il contenuto delle pagine Web in modo che possano essere recuperate quando necessario.

Una volta compreso il processo di scansione del web, capirai anche perché i file robots.txt sono utili per il tuo sito web. Sono qui per proteggerti dai visitatori che curiosano. Forniranno solo le informazioni che desideri mostrare sul tuo sito.

Per comprendere meglio i file robots.txt, diamo un'occhiata più da vicino a cosa sono e come si fondono insieme.

Cosa sono i file Robots.txt?

Robot.txt. i file, noti anche come Robots Exclusion Protocol, sono file letti dai motori di ricerca che contengono regole per concedere o negare l'accesso a tutte o alcune parti del tuo sito web. I motori di ricerca come Google o Bing inviano web crawler per accedere al tuo sito web e raccogliere informazioni che possono utilizzare in modo che i tuoi contenuti possano apparire nei risultati di ricerca.

Per immaginare come funzionano i file robot.txt, prova a immaginare bot o piccoli ragni che strisciano nel tuo sito Web in cerca di informazioni. Rifletti su quei film di fantascienza quando un milione di ragni robot strisciano per il posto e curiosano per trovare anche la minima prova possibile della presenza dell'impostore.

tramite GIPHY

Questi semplici file di testo vengono utilizzati per la SEO inviando comandi ai motori di ricerca che indicizzano i bot di una pagina che potrebbe essere scansionata o meno. I file Robots.txt vengono utilizzati principalmente per gestire il budget dei web crawler e sono utili quando non desideri che questi crawler accedano a una parte del tuo sito.

Robot.txt. i file sono molto importanti perché consentono ai motori di ricerca di sapere dove possono eseguire la scansione. Fondamentalmente, quello che fanno è bloccare il tuo sito Web parzialmente o completamente o indicizzare il tuo sito Web. In altre parole, è un modo per consentire al tuo sito web di essere scoperto dai motori di ricerca.

Il processo di scansione al lavoro

Il processo di scansione dei siti Web per il contenuto è noto come spidering. Il compito principale dei motori di ricerca è eseguire la scansione del Web per scoprire e indicizzare i contenuti seguendo milioni di collegamenti. Quando un robot accede a un sito, la prima cosa che fa è cercare i file robots.txt per ottenere informazioni su quanto "ficcanaso" può fare.

I motori di ricerca rispettano le regole impostate nei file robots.txt. Se non è presente alcun file robot.txt o se il sito Web non ha attività vietate, i robot eseguiranno la scansione di tutte le informazioni. Tuttavia, alcuni motori di ricerca come Google non supportano tutte le direttive fornite e lo elaboreremo più avanti.

Perché usare i file Robots.txt?

I file Robots.txt consentono ai siti Web di fare diverse cose come:

Blocca l'accesso all'intero sito
Blocca l'accesso a una parte del sito
Blocca l'accesso a un URL o a parametri URL specifici
Blocca l'accesso a un'intera directory
Consente l'impostazione di caratteri jolly

I file Robots.txt controllano l'attività del crawler sul tuo sito consentendo loro di accedere a determinate aree. Ci sono sempre ragioni per cui non concederesti a Google o ad altri motori di ricerca l'accesso a determinate parti del tuo sito web. Uno potrebbe essere che stai ancora sviluppando il tuo sito web o desideri proteggere le informazioni riservate.

Sebbene i siti Web possano funzionare senza un file robots.txt, è importante ricordare alcuni vantaggi del loro utilizzo:

Impedisci ai motori di ricerca di eseguire la scansione di cartelle o sottodomini privati
Impedisci la scansione di contenuti duplicati e la visita di pagine che consideri insignificanti
Impedisci l'indicizzazione di alcune immagini sul tuo sito
Prevenire e gestire il sovraccarico del server
Prevenire il rallentamento del sito web

Tieni presente che dire ai bot di non eseguire la scansione di una pagina non significa che non verrà indicizzata. L'URL apparirà nel motore di ricerca, ma apparirà senza una meta descrizione.

Come trovare, creare e testare file Robots.txt?

Il robots.txt si trova sempre nel dominio principale del sito web. Ad esempio, puoi trovarlo come https://www.example.com/robots.txt. Se desideri modificarlo, puoi accedere al File Manager nel CPanel dell'host.

Se il tuo sito web non ha un file robots.txt, crearne uno è piuttosto semplice perché è un file di testo di base creato in un editor di testo. Apri semplicemente un documento .txt vuoto e inserisci le tue direttive. Quando hai finito, salva il file come "robots.txt" e il gioco è fatto.

Se in genere commetti molti errori di digitazione, forse è saggio utilizzare un generatore di robots.txt per evitare disastri SEO e ridurre al minimo gli errori di sintassi. Ricorda che anche il minimo errore di perdere o aggiungere una lettera o un numero può causare problemi.

Una volta creato il file robots.txt, inseriscilo nella directory principale del dominio appropriata. Assicurati di testare il file prima di andare online per assicurarti che sia valido. Per fare ciò, devi andare alla pagina di supporto di Google e fare clic sul pulsante "apri robots.txt tester". Sfortunatamente, questa opzione di test è disponibile solo sulla vecchia versione di Google Search Console.

Seleziona la proprietà che desideri testare, rimuovi tutto ciò che potrebbe essere nella casella e incolla il tuo file robots.txt. Se il tuo file riceve l'OK, allora hai un file robots.txt completamente funzionante. In caso contrario, devi tornare indietro e cercare l'errore.

Implementazione delle direttive di scansione

Ogni file robots.txt è composto da direttive che consentono ai motori di ricerca di accedere alle informazioni. Ciascuna direttiva inizia specificando lo user-agent e quindi impostando le regole per tale user-agent. Di seguito abbiamo compilato due elenchi; uno contiene le direttive supportate e l'altro le direttive non supportate dagli user-agent.

Direttive supportate

User-agent : una direttiva utilizzata per indirizzare determinati bot. I motori di ricerca cercano user agent e blocchi ad essi applicabili. Ogni motore di ricerca ha un marchio user-agent. A causa della distinzione tra maiuscole e minuscole, assicurati di inserire la forma corretta degli agenti utente.

Per esempio:
User-agent: Googlebot
User-agent: Bingbot

Non consentire : utilizzare questa direttiva se si desidera impedire ai motori di ricerca di eseguire la scansione di determinate aree del sito Web. Puoi fare quanto segue:

bloccare l'accesso a una directory nel suo insieme per tutti gli agenti utente:
agente utente: *
Non consentire: /
Blocca una determinata directory in particolare per tutti gli user-agent
agente utente: *
Non consentire: /portafoglio
Blocca l'accesso a PDF o qualsiasi altro file per tutti i programmi utente. Basta usare l'estensione di file appropriata.
agente utente: *
Non consentire: *.pdf$

Consenti : questa direttiva consente ai motori di ricerca di eseguire la scansione della pagina o della directory. Una buona nota da ricordare è che puoi ignorare una direttiva non consentita. Diciamo che non vuoi che i motori di ricerca eseguano la scansione di una directory di portfolio, ma consenti loro di accedere a una specifica.

agente utente: *
Non consentire: /portafoglio
Consenti: /portfolio/allowed-portfolio

Mappa del sito: fornire ai motori di ricerca la posizione della mappa del sito semplifica la scansione.

Direttive non supportate

Crawl Delay : questa è una buona direttiva da utilizzare quando si desidera che i bot rallentino e ritardino tra le scansioni per non sovraccaricare i server. Questa direttiva è molto utile per i piccoli siti web piuttosto che per quelli grandi. Solo una nota che la direttiva sul ritardo di scansione non è più supportata da Google e Baidu, ma Yandex e Bing la supportano ancora.
Noindex : una direttiva utilizzata per escludere un sito Web o un file dai motori di ricerca. Questo comando non è mai stato supportato da Google. Quindi, se vuoi evitare i motori di ricerca, devi usare x-robots HTTP header o robot meta tag.
Nofollow - un'altra direttiva mai supportata da Google e utilizzata per comandare ai motori di ricerca di non seguire i collegamenti nelle pagine. Usa x-robots header o meta tag robots per usare la direttiva nofollow su tutti i link.
Direttiva host : viene utilizzata per decidere se si desidera mostrare www. prima di un URL ( esempio.com o www.esempio.com ). Questa direttiva è attualmente supportata solo da Yandex, quindi si consiglia di non fare affidamento su di essa.

Uso dei caratteri jolly

I caratteri jolly sono caratteri utilizzati per semplificare le istruzioni di robots.txt. I caratteri jolly possono essere utilizzati per indirizzare e applicare direttive a tutti gli user agent o per indirizzare specifici user agent individualmente. Ecco i caratteri jolly comunemente usati:

Asterix (*) - nelle direttive, corrisponde a "si applica a tutti gli user-agent". Può anche essere utilizzato per corrispondere a "match pattern URL o qualsiasi sequenza di caratteri". Se hai URL che seguono lo stesso schema, questo ti semplificherà la vita.
Un simbolo del dollaro ($) - viene utilizzato per contrassegnare la fine di un URL.

Vediamo come apparirà in un esempio. Se decidi che tutti i motori di ricerca non dovrebbero avere accesso ai tuoi file PDF, il file robots.txt dovrebbe apparire così:
agente utente: *
Non consentire: /*.pdf$

Quindi gli URL che terminano con .pdf non saranno accessibili. Ma tieni presente che se il tuo URL ha testo aggiuntivo dopo il finale .pdf, quell'URL sarà accessibile. Pertanto, quando scrivi i tuoi file robots.txt, assicurati di aver considerato tutti gli aspetti.

Errori da evitare

L'uso dei file robot.txt è utile e ci sono molti modi per utilizzarli. Ma andiamo più a fondo e analizziamo gli errori che devono essere evitati quando si utilizza il file robots.txt.

I vantaggi sono immensi, ma ci sono anche molti danni che potrebbero essere causati se i file robot.txt non vengono utilizzati nel modo giusto.

Nuova riga : usa una nuova riga per ogni direttiva per non confondere i motori di ricerca
Presta attenzione alla distinzione tra maiuscole e minuscole : crea i file robots.txt correttamente poiché fanno distinzione tra maiuscole e minuscole. Presta molta attenzione a questo o non funzioneranno
Evita di bloccare i contenuti : assicurati di esaminare più volte i tag disallow e noindex perché potrebbero danneggiare i risultati SEO. Fai attenzione a non bloccare buoni contenuti che dovrebbero essere presentati pubblicamente
Proteggi i dati privati : per proteggere le informazioni private, è consigliabile chiedere ai visitatori di accedere. In questo modo sarai sicuro che i PDF o altri file saranno al sicuro
Uso eccessivo del ritardo di scansione : un buon consiglio è di non abusare di alcuna direttiva, in particolare del ritardo di scansione. Se gestisci un sito Web di grandi dimensioni, l'uso di questa direttiva potrebbe essere controproducente. Limiterai la scansione dei bot al numero massimo di URL al giorno, il che non è consigliabile.

Contenuto duplicato

Ci sono diversi motivi per cui il tuo sito potrebbe contenere contenuti duplicati. Può essere una versione stampabile, una pagina accessibile da più URL o pagine diverse con contenuti simili. I motori di ricerca non sono in grado di riconoscere se si tratta di una versione duplicata o meno.

In casi come questi, l'utente deve contrassegnare l'URL come canonico. Questo tag viene utilizzato per informare il motore di ricerca quale è la posizione originale del duplicato. Se l'utente non lo fa, lo user-agent sceglierà quale è canonico o, peggio ancora, potrebbe etichettare entrambi i contenuti come canonici. Un altro modo per evitarlo è riscrivere il contenuto.

Lascia che l'indice degli occhi striscianti

Quando i motori di ricerca eseguono il web crawling o lo spidering del tuo sito Web, esaminano tutto il contenuto del sito Web per indicizzarlo. Questo processo consente ai siti Web sottoposti a scansione di apparire nella sezione dei risultati dei motori di ricerca.

Usando robots.txt, dici ai motori di ricerca dove hanno o non hanno accesso. Fondamentalmente li stai limitando impostando regole appropriate. L'uso di robots.txt è piuttosto semplice e utile. Una volta apprese le regole di assegnazione delle direttive, ci sono molte cose che puoi fare con il tuo sito web.

Ti consigliamo di tenere d'occhio i tuoi file robots.txt per assicurarti che siano impostati correttamente e funzionino come codificato. Se noti un malfunzionamento, reagisci rapidamente per evitare disastri.

Considera i file robots.txt come uno strumento essenziale per controllare con successo l'indicizzazione del tuo sito web.