10 passaggi per aumentare la scansione e l'indicizzazione del tuo sito

Pubblicato: 2022-11-04

Parole chiave e contenuti possono essere i due pilastri su cui si basa la maggior parte delle strategie di ottimizzazione dei motori di ricerca, ma sono tutt'altro che gli unici che contano.

Meno discusso ma ugualmente importante, non solo per gli utenti ma per i bot di ricerca, è la rilevabilità del tuo sito web.

Ci sono circa 50 miliardi di pagine web su 1,93 miliardi di siti web su Internet. Sono troppi per essere esplorati da qualsiasi squadra umana, quindi questi robot, chiamati anche ragni, svolgono un ruolo significativo.

Questi bot determinano il contenuto di ogni pagina seguendo i collegamenti da sito Web a sito Web e da pagina a pagina. Queste informazioni vengono raccolte in un vasto database, o indice, di URL, che vengono quindi inseriti nell'algoritmo del motore di ricerca per il ranking.

Questo processo in due fasi di navigazione e comprensione del tuo sito è chiamato scansione e indicizzazione.

Come professionista SEO, senza dubbio hai già sentito questi termini, ma definiamoli solo per motivi di chiarezza:

  • La scansione si riferisce a quanto bene questi bot dei motori di ricerca possono scansionare e indicizzare le tue pagine web.
  • L'indicizzazione misura la capacità del motore di ricerca di analizzare le tue pagine web e aggiungerle al suo indice.

Come probabilmente puoi immaginare, queste sono entrambe parti essenziali della SEO.

Se il tuo sito soffre di scarsa crawlability, ad esempio molti link interrotti e vicoli ciechi, i crawler dei motori di ricerca non saranno in grado di accedere a tutti i tuoi contenuti, il che lo escluderà dall'indice.

L'indicizzazione, d'altra parte, è fondamentale perché le pagine non indicizzate non verranno visualizzate nei risultati di ricerca. Come può Google classificare una pagina che non ha incluso nel suo database?

Il processo di scansione e indicizzazione è un po' più complicato di quanto abbiamo discusso qui, ma questa è la panoramica di base.

Se stai cercando una discussione più approfondita su come funzionano, Dave Davies ha un ottimo pezzo sulla scansione e l'indicizzazione.

Come migliorare la scansione e l'indicizzazione

Ora che abbiamo spiegato quanto siano importanti questi due processi, esaminiamo alcuni elementi del tuo sito Web che influiscono sulla scansione e sull'indicizzazione e discutiamo i modi per ottimizzare il tuo sito per loro.

1. Migliora la velocità di caricamento della pagina

Con miliardi di pagine web da catalogare, i web spider non hanno tutto il giorno per aspettare che i tuoi link vengano caricati. Questo è a volte indicato come un crawl budget.

Se il tuo sito non viene caricato entro il periodo di tempo specificato, lasceranno il tuo sito, il che significa che rimarrai non scansionato e non indicizzato. E come puoi immaginare, questo non va bene per scopi SEO.

Pertanto, è una buona idea valutare regolarmente la velocità della tua pagina e migliorarla ogni volta che puoi.

Puoi utilizzare Google Search Console o strumenti come Screaming Frog per controllare la velocità del tuo sito web.

Se il tuo sito è lento, prendi le misure per alleviare il problema. Ciò potrebbe includere l'aggiornamento del server o della piattaforma di hosting, l'abilitazione della compressione, la riduzione di CSS, JavaScript e HTML e l'eliminazione o la riduzione dei reindirizzamenti.

Scopri cosa sta rallentando il tuo tempo di caricamento controllando il tuo rapporto Core Web Vitals. Se desideri informazioni più dettagliate sui tuoi obiettivi, in particolare da una vista incentrata sull'utente, Google Lighthouse è uno strumento open source che potresti trovare molto utile.

2. Rafforzare la struttura dei collegamenti interni

Una buona struttura del sito e collegamenti interni sono elementi fondamentali di una strategia SEO di successo. Un sito Web disorganizzato è difficile da scansionare per i motori di ricerca, il che rende il collegamento interno una delle cose più importanti che un sito Web può fare.

Ma non crederci sulla parola. Ecco cosa ha detto al riguardo John Mueller, sostenitore della ricerca di Google:

“Il collegamento interno è estremamente critico per la SEO. Penso che sia una delle cose più grandi che puoi fare su un sito web per guidare Google e guidare i visitatori verso le pagine che ritieni importanti".

Se i tuoi collegamenti interni sono scarsi, rischi anche le pagine orfane o quelle pagine che non si collegano a nessun'altra parte del tuo sito web. Poiché nulla è indirizzato a queste pagine, l'unico modo per i motori di ricerca di trovarle è dalla tua mappa del sito.

Per eliminare questo problema e altri causati da una struttura scadente, crea una struttura interna logica per il tuo sito.

La tua home page dovrebbe collegarsi a sottopagine supportate da pagine più in basso nella piramide. Queste sottopagine dovrebbero quindi avere collegamenti contestuali dove sembra naturale.

Un'altra cosa da tenere d'occhio sono i collegamenti interrotti, compresi quelli con errori di battitura nell'URL. Questo, ovviamente, porta a un collegamento interrotto, che porterà al temuto errore 404. In altre parole, pagina non trovata.

Il problema è che i collegamenti interrotti non aiutano e danneggiano la tua crawlability.

Ricontrolla i tuoi URL, in particolare se hai subito di recente una migrazione del sito, un'eliminazione in blocco o una modifica della struttura. E assicurati di non collegarti a URL vecchi o eliminati.

Altre buone pratiche per i collegamenti interni includono avere una buona quantità di contenuto collegabile (il contenuto è sempre il re), utilizzare anchor text invece di immagini collegate e utilizzare un "numero ragionevole" di collegamenti su una pagina (qualunque cosa significhi).

Oh sì, e assicurati di utilizzare i link segui per i link interni.

3. Invia la tua mappa del sito a Google

Dato abbastanza tempo e supponendo che tu non gli abbia detto di non farlo, Google eseguirà la scansione del tuo sito. Ed è fantastico, ma non aiuta il tuo posizionamento nei risultati di ricerca mentre aspetti.

Se di recente hai apportato modifiche ai tuoi contenuti e desideri che Google ne venga a conoscenza immediatamente, è una buona idea inviare una mappa del sito a Google Search Console.

Una mappa del sito è un altro file che risiede nella tua directory principale. Serve come tabella di marcia per i motori di ricerca con collegamenti diretti a ogni pagina del tuo sito.

Ciò è vantaggioso per l'indicizzazione perché consente a Google di conoscere più pagine contemporaneamente. Mentre un crawler potrebbe dover seguire cinque collegamenti interni per scoprire una pagina profonda, inviando una mappa del sito XML, può trovare tutte le tue pagine con una singola visita al file della mappa del sito.

Inviare la tua mappa del sito a Google è particolarmente utile se hai un sito web profondo, aggiungi spesso nuove pagine o contenuti o il tuo sito non ha un buon collegamento interno.

4. Aggiorna i file Robots.txt

Probabilmente vorrai avere un file robots.txt per il tuo sito web. Sebbene non sia richiesto, il 99% dei siti Web lo utilizza come regola pratica. Se non hai familiarità con questo, è un file di testo normale nella directory principale del tuo sito web.

Dice ai crawler dei motori di ricerca come vorresti che scansionassero il tuo sito. Il suo utilizzo principale è gestire il traffico dei bot e impedire che il tuo sito venga sovraccaricato di richieste.

Laddove questo torna utile in termini di scansionabilità è limitare le pagine che Google scansiona e indicizza. Ad esempio, probabilmente non desideri pagine come directory, carrelli della spesa e tag nella directory di Google.

Naturalmente, questo utile file di testo può anche avere un impatto negativo sulla tua scansionabilità. Vale la pena guardare il tuo file robots.txt (o farlo fare a un esperto se non sei sicuro delle tue capacità) per vedere se stai bloccando inavvertitamente l'accesso del crawler alle tue pagine.

Alcuni errori comuni nei file robots.text includono:

  • Robots.txt non è nella directory principale.
  • Uso scarso dei caratteri jolly.
  • Noindex in robots.txt.
  • Script, fogli di stile e immagini bloccati.
  • Nessun URL della mappa del sito.

Per un esame approfondito di ciascuno di questi problemi e suggerimenti per risolverli, leggi questo articolo.

5. Controlla la tua canonizzazione

I tag canonici consolidano i segnali di più URL in un unico URL canonico. Questo può essere un modo utile per dire a Google di indicizzare le pagine desiderate saltando i duplicati e le versioni obsolete.

Ma questo apre la porta ai tag canonici canaglia. Questi si riferiscono a versioni precedenti di una pagina che non esiste più, portando i motori di ricerca a indicizzare le pagine sbagliate e lasciare invisibili le tue pagine preferite.

Per eliminare questo problema, utilizza uno strumento di ispezione degli URL per cercare tag non autorizzati e rimuoverli.

Se il tuo sito web è orientato al traffico internazionale, cioè se indirizzi utenti di paesi diversi a pagine canoniche diverse, devi avere tag canonici per ogni lingua. Ciò garantisce che le tue pagine vengano indicizzate in ogni lingua utilizzata dal tuo sito.

6. Eseguire un audit del sito

Ora che hai eseguito tutti questi altri passaggi, c'è ancora un'ultima cosa che devi fare per assicurarti che il tuo sito sia ottimizzato per la scansione e l'indicizzazione: un controllo del sito. E questo inizia controllando la percentuale di pagine che Google ha indicizzato per il tuo sito.

Controlla il tuo tasso di indicizzazione

Il tuo tasso di indicizzazione è il numero di pagine nell'indice di Google diviso per il numero di pagine del nostro sito web.

Puoi scoprire quante pagine ci sono nell'indice di google dall'indice di Google Search Console andando alla scheda "Pagine" e controllando il numero di pagine sul sito Web dal pannello di amministrazione di CMS.

Ci sono buone probabilità che il tuo sito abbia alcune pagine che non desideri indicizzare, quindi questo numero probabilmente non sarà del 100%. Ma se il tasso di indicizzazione è inferiore al 90%, allora hai problemi che devono essere esaminati.

Puoi ottenere i tuoi URL non indicizzati da Search Console ed eseguire un controllo per essi. Questo potrebbe aiutarti a capire cosa sta causando il problema.

Un altro utile strumento di controllo del sito incluso in Google Search Console è lo Strumento di controllo degli URL. Ciò ti consente di vedere ciò che vedono gli spider di Google, che puoi quindi confrontare con pagine Web reali per capire ciò che Google non è in grado di visualizzare.

Controlla le pagine appena pubblicate

Ogni volta che pubblichi nuove pagine sul tuo sito web o aggiorni le tue pagine più importanti, dovresti assicurarti che vengano indicizzate. Accedi a Google Search Console e assicurati che vengano visualizzati tutti.

Se hai ancora problemi, un audit può anche darti informazioni su quali altre parti della tua strategia SEO non sono all'altezza, quindi è una doppia vittoria. Ridimensiona il tuo processo di audit con strumenti gratuiti come:

  1. Rana urlante
  2. Semrush
  3. cerniera lampo
  4. A gattonare
  5. Luma

7. Verificare la presenza di contenuti di bassa qualità o duplicati

Se Google non considera i tuoi contenuti preziosi per gli utenti, potrebbe decidere che non è degno di essere indicizzati. Questo contenuto sottile, come è noto, potrebbe essere contenuto scritto male (ad esempio, pieno di errori grammaticali e di ortografia), contenuto standard che non è unico per il tuo sito o contenuto senza segnali esterni sul suo valore e autorità.

Per trovarlo, determina quali pagine del tuo sito non vengono indicizzate, quindi esamina le query di destinazione per esse. Stanno fornendo risposte di alta qualità alle domande dei ricercatori? In caso contrario, sostituirli o aggiornarli.

Il contenuto duplicato è un altro motivo per cui i bot possono rimanere bloccati durante la scansione del tuo sito. Fondamentalmente, quello che succede è che la tua struttura di codifica l'ha confusa e non sa quale versione indicizzare. Ciò potrebbe essere causato da cose come ID di sessione, elementi di contenuto ridondanti e problemi di paginazione.

A volte, questo attiverà un avviso in Google Search Console, dicendoti che Google sta incontrando più URL di quanto pensa che dovrebbe. Se non ne hai ricevuto uno, controlla i risultati della scansione per elementi come tag duplicati o mancanti o URL con caratteri extra che potrebbero creare lavoro extra per i bot.

Correggi questi problemi correggendo i tag, rimuovendo le pagine o modificando l'accesso di Google.

8. Elimina le catene di reindirizzamento e i reindirizzamenti interni

Con l'evolversi dei siti Web, i reindirizzamenti sono un sottoprodotto naturale, indirizzando i visitatori da una pagina a una più recente o più pertinente. Ma mentre sono comuni sulla maggior parte dei siti, se li stai gestendo male, potresti inavvertitamente sabotare la tua stessa indicizzazione.

Ci sono diversi errori che puoi fare durante la creazione di reindirizzamenti, ma uno dei più comuni sono le catene di reindirizzamento. Questi si verificano quando c'è più di un reindirizzamento tra il collegamento su cui si è fatto clic e la destinazione. Google non considera questo un segnale positivo.

In casi più estremi, puoi avviare un ciclo di reindirizzamento, in cui una pagina reindirizza a un'altra pagina, che indirizza a un'altra pagina, e così via, finché alla fine non si collega alla prima pagina. In altre parole, hai creato un ciclo infinito che non va da nessuna parte.

Controlla i reindirizzamenti del tuo sito utilizzando Screaming Frog, Redirect-Checker.org o uno strumento simile.

9. Correggi i collegamenti interrotti

Allo stesso modo, i collegamenti interrotti possono devastare la scansione del tuo sito. Dovresti controllare regolarmente il tuo sito per assicurarti di non avere collegamenti interrotti, poiché ciò non solo danneggerà i tuoi risultati SEO, ma frustrerà gli utenti umani.

Esistono diversi modi per trovare collegamenti interrotti sul tuo sito, inclusa la valutazione manuale di ogni singolo collegamento sul tuo sito (intestazione, piè di pagina, navigazione, nel testo, ecc.), oppure puoi utilizzare Google Search Console, Analytics o Screaming Frog per trovare 404 errori.

Una volta trovati i collegamenti interrotti, hai tre opzioni per risolverli: reindirizzarli (vedi la sezione sopra per avvertimenti), aggiornarli o rimuoverli.

10. IndexNow

IndexNow è un protocollo relativamente nuovo che consente l'invio simultaneo di URL tra motori di ricerca tramite un'API. Funziona come una versione super carica dell'invio di una mappa del sito XML avvisando i motori di ricerca di nuovi URL e modifiche al tuo sito web.

Fondamentalmente, ciò che fa è fornire ai crawler una roadmap per il tuo sito in anticipo. Entrano nel tuo sito con le informazioni di cui hanno bisogno, quindi non è necessario ricontrollare costantemente la mappa del sito. E a differenza delle mappe dei siti XML, ti consente di informare i motori di ricerca su pagine di codici di stato diverse da 200.

L'implementazione è semplice e richiede solo la generazione di una chiave API, l'hosting nella directory o in un'altra posizione e l'invio degli URL nel formato consigliato.

Avvolgendo

A questo punto, dovresti avere una buona comprensione dell'indicizzazione e della scansione del tuo sito web. Dovresti anche capire quanto siano importanti questi due fattori per le tue classifiche di ricerca.

Se gli spider di Google possono eseguire la scansione e l'indicizzazione del tuo sito, non importa quante parole chiave, backlink e tag utilizzi: non apparirai nei risultati di ricerca.

Ed ecco perché è essenziale controllare regolarmente il tuo sito per tutto ciò che potrebbe essere bot intraprendenti, fuorvianti o indirizzati in modo errato.

Quindi, procurati un buon set di strumenti e inizia. Sii diligente e attento ai dettagli e presto avrai i ragni di Google che brulicano sul tuo sito come ragni.

Altre risorse:

  • 11 suggerimenti e trucchi SEO per migliorare l'indicizzazione della ricerca
  • Come i motori di ricerca scansionano e indicizzano: tutto ciò che devi sapere
  • Come fare un audit SEO: la checklist definitiva

Immagine in primo piano: Roman Samborskyi/Shutterstock