10 pași pentru a crește capacitatea de accesare cu crawlere și indexare a site-ului dvs

Publicat: 2022-11-04

Cuvintele cheie și conținutul pot fi pilonii gemeni pe care sunt construite majoritatea strategiilor de optimizare a motoarelor de căutare, dar sunt departe de a fi singurii care contează.

Mai puțin discutată, dar la fel de importantă – nu doar pentru utilizatori, ci și pentru roboții de căutare – este posibilitatea de a descoperi site-ul dvs.

Există aproximativ 50 de miliarde de pagini web pe 1,93 miliarde de site-uri pe internet. Acestea sunt mult prea multe pentru ca orice echipă umană să le exploreze, așa că acești roboți, numiți și păianjeni, joacă un rol semnificativ.

Acești roboți determină conținutul fiecărei pagini urmând link-uri de la un site la altul și de la o pagină la alta. Aceste informații sunt compilate într-o bază de date vastă, sau index, de adrese URL, care sunt apoi trecute prin algoritmul motorului de căutare pentru clasare.

Acest proces în doi pași de navigare și înțelegere a site-ului dvs. se numește accesare cu crawlere și indexare.

În calitate de profesionist SEO, fără îndoială ați mai auzit acești termeni, dar să-i definim doar pentru claritate:

  • Capacitatea de accesare cu crawlere se referă la cât de bine pot scana și indexa paginile dvs. web acești motoarele de căutare.
  • Indexabilitatea măsoară capacitatea motorului de căutare de a analiza paginile dvs. web și de a le adăuga la indexul său.

După cum probabil vă puteți imagina, acestea sunt ambele părți esențiale ale SEO.

În cazul în care site-ul dvs. suferă de accesare slabă cu crawlere, de exemplu, multe link-uri întrerupte și puncte mortuare, crawlerele motoarelor de căutare nu vor putea accesa tot conținutul dvs., ceea ce îl va exclude din index.

Indexabilitatea, pe de altă parte, este vitală deoarece paginile care nu sunt indexate nu vor apărea în rezultatele căutării. Cum poate Google să claseze o pagină pe care nu a inclus-o în baza de date?

Procesul de crawling și indexare este puțin mai complicat decât am discutat aici, dar aceasta este prezentarea generală de bază.

Dacă sunteți în căutarea unei discuții mai aprofundate despre modul în care funcționează, Dave Davies are un articol excelent despre crawling și indexare.

Cum să îmbunătățiți accesarea cu crawlere și indexarea

Acum că am discutat cât de importante sunt aceste două procese, să ne uităm la câteva elemente ale site-ului dvs. care afectează accesarea cu crawlere și indexarea - și să discutăm modalități de optimizare a site-ului dvs. pentru acestea.

1. Îmbunătățiți viteza de încărcare a paginii

Cu miliarde de pagini web de catalogat, păianjenii web nu au toată ziua să aștepte ca linkurile tale să se încarce. Acesta este uneori denumit buget de accesare cu crawlere.

Dacă site-ul dvs. nu se încarcă în intervalul de timp specificat, acesta va părăsi site-ul dvs., ceea ce înseamnă că veți rămâne necrawlat și neindexat. Și după cum vă puteți imagina, acest lucru nu este bun pentru scopuri SEO.

Prin urmare, este o idee bună să evaluați în mod regulat viteza paginii dvs. și să o îmbunătățiți oriunde puteți.

Puteți utiliza Google Search Console sau instrumente precum Screaming Frog pentru a verifica viteza site-ului dvs. web.

Dacă site-ul dvs. funcționează lent, luați măsuri pentru a atenua problema. Aceasta ar putea include actualizarea serverului sau a platformei de găzduire, activarea compresiei, minimizarea CSS, JavaScript și HTML și eliminarea sau reducerea redirecționărilor.

Aflați ce vă încetinește timpul de încărcare verificând raportul Core Web Vitals. Dacă doriți informații mai rafinate despre obiectivele dvs., în special dintr-o viziune centrată pe utilizator, Google Lighthouse este un instrument open-source pe care îl puteți găsi foarte util.

2. Consolidarea structurii legăturii interne

O structură bună a site-ului și legăturile interne sunt elementele fundamentale ale unei strategii SEO de succes. Un site web dezorganizat este dificil de accesat cu crawlere pentru motoarele de căutare, ceea ce face ca linkurile interne să fie unul dintre cele mai importante lucruri pe care le poate face un site web.

Dar nu ne credeți pe cuvânt. Iată ce a spus avocatul pentru căutări Google, John Mueller:

„Legăturile interne sunt extrem de critice pentru SEO. Cred că este unul dintre cele mai mari lucruri pe care le puteți face pe un site web pentru a ghida Google și a ghida vizitatorii către paginile pe care le considerați importante.”

Dacă linkurile interne sunt slabe, riscați, de asemenea, pagini orfane sau acele pagini care nu trimit către nicio altă parte a site-ului dvs. Deoarece nimic nu este direcționat către aceste pagini, singura modalitate prin care motoarele de căutare le pot găsi este din harta dvs. de site.

Pentru a elimina această problemă și altele cauzate de o structură slabă, creați o structură internă logică pentru site-ul dvs.

Pagina de pornire ar trebui să trimită către subpagini susținute de pagini aflate mai jos în piramidă. Aceste subpagini ar trebui apoi să aibă legături contextuale unde se simte natural.

Un alt lucru pe care trebuie să-l urmăriți sunt linkurile rupte, inclusiv cele cu greșeli de scriere în adresa URL. Acest lucru, desigur, duce la o legătură întreruptă, ceea ce va duce la temuta eroare 404. Cu alte cuvinte, pagina nu a fost găsită.

Problema cu aceasta este că link-urile rupte nu ajută și vă dăunează accesului cu crawlere.

Verificați din nou adresele URL, mai ales dacă ați suferit recent o migrare a site-ului, o ștergere în bloc sau o modificare a structurii. Și asigură-te că nu faci linkuri către adrese URL vechi sau șterse.

Alte bune practici pentru legăturile interne includ a avea o cantitate bună de conținut care poate fi legat (conținutul este întotdeauna rege), utilizarea textului de ancorare în loc de imagini legate și utilizarea unui „număr rezonabil” de link-uri pe o pagină (indiferent ce înseamnă asta).

Da, și asigură-te că folosești link-uri de urmărire pentru link-uri interne.

3. Trimiteți Sitemap-ul dvs. la Google

Având suficient timp și presupunând că nu ați spus, Google vă va accesa cu crawlere site-ul. Și asta este grozav, dar nu vă ajută la clasarea căutării în timp ce așteptați.

Dacă ați făcut recent modificări conținutului dvs. și doriți ca Google să afle imediat despre acesta, este o idee bună să trimiteți un sitemap la Google Search Console.

Un sitemap este un alt fișier care se află în directorul rădăcină. Acesta servește ca o foaie de parcurs pentru motoarele de căutare cu link-uri directe către fiecare pagină de pe site-ul dvs.

Acest lucru este benefic pentru indexabilitate, deoarece permite Google să învețe despre mai multe pagini simultan. În timp ce un crawler poate fi nevoit să urmeze cinci link-uri interne pentru a descoperi o pagină profundă, prin trimiterea unui sitemap XML, poate găsi toate paginile dvs. cu o singură vizită la fișierul sitemap.

Trimiterea sitemap-ului dvs. la Google este deosebit de utilă dacă aveți un site web profund, adăugați frecvent pagini sau conținut noi sau site-ul dvs. nu are legături interne bune.

4. Actualizați fișierele Robots.txt

Probabil că doriți să aveți un fișier robots.txt pentru site-ul dvs. web. Deși nu este obligatoriu, 99% dintre site-uri web îl folosesc ca regulă generală. Dacă nu sunteți familiarizat cu acest lucru, este un fișier text simplu în directorul rădăcină al site-ului dvs. web.

Le spune crawlerilor motoarelor de căutare cum ați dori ca aceștia să acceseze cu crawlere site-ul dvs. Utilizarea sa principală este de a gestiona traficul bot și de a preveni supraîncărcarea site-ului cu solicitări.

Unde este util în ceea ce privește accesul cu crawlere este limitarea paginilor pe care Google le accesează cu crawlere și indexează. De exemplu, probabil că nu doriți pagini precum directoare, coșuri de cumpărături și etichete în directorul Google.

Desigur, acest fișier text util poate avea un impact negativ și asupra posibilității de accesare cu crawlere. Merită să vă uitați la fișierul robots.txt (sau să solicitați un expert să o facă dacă nu aveți încredere în abilitățile dvs.) pentru a vedea dacă blocați din neatenție accesul crawler-ului la paginile dvs.

Unele greșeli comune în fișierele robots.text includ:

  • Robots.txt nu se află în directorul rădăcină.
  • Utilizarea slabă a wildcard-urilor.
  • Noindex în robots.txt.
  • Scripturi, foi de stil și imagini blocate.
  • Nicio adresă URL a sitemapului.

Pentru o examinare aprofundată a fiecăreia dintre aceste probleme – și sfaturi pentru rezolvarea lor, citiți acest articol.

5. Verificați-vă canonizarea

Etichetele canonice consolidează semnalele de la mai multe adrese URL într-o singură adresă URL canonică. Aceasta poate fi o modalitate utilă de a-i spune lui Google să indexeze paginile pe care le doriți, în timp ce omite duplicatele și versiunile învechite.

Dar asta deschide ușa etichetelor canonice necinstite. Acestea se referă la versiuni mai vechi ale unei pagini care nu mai există, ceea ce duce la motoarele de căutare să indexeze paginile greșite și să lase paginile preferate invizibile.

Pentru a elimina această problemă, utilizați un instrument de inspecție URL pentru a scana etichetele necinstite și pentru a le elimina.

Dacă site-ul dvs. este orientat către trafic internațional, adică dacă direcționați utilizatori din țări diferite către pagini canonice diferite, trebuie să aveți etichete canonice pentru fiecare limbă. Acest lucru vă asigură că paginile dvs. sunt indexate în fiecare limbă pe care o folosește site-ul dvs.

6. Efectuați un audit al site-ului

Acum că ați efectuat toți acești ceilalți pași, mai trebuie să faceți un ultim lucru pentru a vă asigura că site-ul dvs. este optimizat pentru accesare cu crawlere și indexare: un audit al site-ului. Și asta începe cu verificarea procentului de pagini pe care Google le-a indexat pentru site-ul tău.

Verificați rata de indexabilitate

Rata dvs. de indexabilitate este numărul de pagini din indexul Google împărțit la numărul de pagini de pe site-ul nostru.

Puteți afla câte pagini sunt în indexul Google din Indexul Google Search Console accesând fila „Pagini” și verificând numărul de pagini de pe site din panoul de administrare CMS.

Există șanse mari ca site-ul dvs. să aibă unele pagini pe care nu doriți să le fie indexate, astfel încât acest număr probabil să nu fie 100%. Dar dacă rata de indexabilitate este sub 90%, atunci aveți probleme care trebuie investigate.

Puteți obține adresele URL fără indexare din Search Console și puteți efectua un audit pentru ele. Acest lucru vă poate ajuta să înțelegeți care este cauza problemei.

Un alt instrument util de auditare a site-ului inclus în Google Search Console este Instrumentul de inspecție URL. Acest lucru vă permite să vedeți ce văd păianjenii Google, pe care apoi să le comparați cu pagini web reale pentru a înțelege ce nu poate reda Google.

Auditarea paginilor recent publicate

De fiecare dată când publicați pagini noi pe site-ul dvs. web sau vă actualizați cele mai importante pagini, trebuie să vă asigurați că acestea sunt indexate. Accesați Google Search Console și asigurați-vă că toate apar.

Dacă întâmpinați în continuare probleme, un audit vă poate oferi, de asemenea, o perspectivă asupra celorlalte părți ale strategiei dvs. SEO nu sunt insuficiente, deci este un câștig dublu. Scalați-vă procesul de audit cu instrumente gratuite precum:

  1. Broasca care tipa
  2. Semrush
  3. Ziptie
  4. Oncrawl
  5. Lumar

7. Verificați conținutul de calitate scăzută sau duplicat

Dacă Google nu vede conținutul dvs. ca fiind valoros pentru cei care caută, poate decide că nu este demn de indexat. Acest conținut subțire, așa cum este cunoscut, ar putea fi conținut scris prost (de exemplu, plin de greșeli gramaticale și greșeli de ortografie), conținut general care nu este unic pentru site-ul dvs. sau conținut fără semnale externe despre valoarea și autoritatea acestuia.

Pentru a găsi acest lucru, determinați ce pagini de pe site-ul dvs. nu sunt indexate, apoi examinați interogările țintă pentru acestea. Oferă răspunsuri de înaltă calitate la întrebările celor care caută? Dacă nu, înlocuiți-le sau reîmprospătați-le.

Conținutul duplicat este un alt motiv pentru care roboții pot fi blocați în timp ce vă accesează cu crawlere site-ul. Practic, ceea ce se întâmplă este că structura ta de codare a confundat-o și nu știe ce versiune să indexeze. Acest lucru ar putea fi cauzat de lucruri precum ID-urile de sesiune, elementele de conținut redundante și problemele de paginare.

Uneori, acest lucru va declanșa o alertă în Google Search Console, care vă va spune că Google întâlnește mai multe adrese URL decât crede că ar trebui. Dacă nu ați primit unul, verificați rezultatele accesării cu crawlere pentru lucruri precum etichete duplicate sau lipsă sau adrese URL cu caractere suplimentare care ar putea crea muncă suplimentară pentru roboți.

Corectați aceste probleme prin remedierea etichetelor, eliminând pagini sau ajustând accesul Google.

8. Eliminați lanțurile de redirecționare și redirecționările interne

Pe măsură ce site-urile web evoluează, redirecționările sunt un produs secundar natural, direcționând vizitatorii de la o pagină la una mai nouă sau mai relevantă. Dar, deși sunt obișnuite pe majoritatea site-urilor, dacă le gestionați greșit, ați putea să vă sabotați din neatenție propria indexare.

Există mai multe greșeli pe care le puteți face atunci când creați redirecționări, dar una dintre cele mai comune este lanțurile de redirecționare. Acestea apar atunci când există mai multe redirecționări între linkul pe care s-a făcut clic și destinație. Google nu consideră acest lucru ca pe un semnal pozitiv.

În cazuri mai extreme, puteți iniția o buclă de redirecționare, în care o pagină redirecționează către o altă pagină, care direcționează către o altă pagină și așa mai departe, până când în cele din urmă se leagă înapoi la prima pagină. Cu alte cuvinte, ai creat o buclă fără sfârșit care nu duce nicăieri.

Verificați redirecționările site-ului dvs. folosind Screaming Frog, Redirect-Checker.org sau un instrument similar.

9. Remediați legăturile rupte

Într-o ordine similară, link-urile întrerupte pot face ravagii accesului la crawlere a site-ului dvs. Ar trebui să vă verificați în mod regulat site-ul pentru a vă asigura că nu aveți link-uri rupte, deoarece acest lucru nu numai că va afecta rezultatele SEO, dar va frustra utilizatorii umani.

Există o serie de moduri prin care puteți găsi linkuri întrerupte pe site-ul dvs., inclusiv evaluarea manuală a fiecărui link de pe site-ul dvs. (antet, subsol, navigare, în text etc.), sau puteți utiliza Google Search Console, Analytics sau Screaming Frog pentru a găsi erori 404.

Odată ce ați găsit linkuri rupte, aveți trei opțiuni pentru a le remedia: redirecționarea lor (consultați secțiunea de mai sus pentru avertismente), actualizarea lor sau eliminarea lor.

10. IndexNow

IndexNow este un protocol relativ nou care permite trimiterea simultană a adreselor URL între motoarele de căutare prin intermediul unui API. Funcționează ca o versiune super-încărcată a trimiterii unei hărți XML a site-ului, alertând motoarele de căutare despre noile adrese URL și modificările aduse site-ului dvs.

Practic, ceea ce face este să ofere crawlerilor o foaie de parcurs către site-ul dvs. în avans. Aceștia intră pe site-ul dvs. cu informațiile de care au nevoie, așa că nu este nevoie să verificați din nou harta site-ului. Și, spre deosebire de hărțile de site XML, vă permite să informați motoarele de căutare despre paginile cu coduri de stare non-200.

Implementarea acestuia este ușoară și necesită doar să generați o cheie API, să o găzduiți în directorul dvs. sau în altă locație și să trimiteți adresele URL în formatul recomandat.

Încheierea

Până acum, ar trebui să înțelegeți bine indexabilitatea și crawlerea site-ului dvs. De asemenea, ar trebui să înțelegeți cât de importanți sunt acești doi factori pentru clasamentul dvs. de căutare.

Dacă păianjenii Google pot accesa cu crawlere și indexa site-ul dvs., indiferent de câte cuvinte cheie, backlink-uri și etichete utilizați - nu veți apărea în rezultatele căutării.

Și de aceea este esențial să verificați în mod regulat site-ul dvs. pentru orice ar putea fi înșelătorie, înșelătoare sau direcționați greșit roboții.

Așadar, obțineți un set bun de instrumente și începeți. Fii sârguincios și atent la detalii și, în curând, vei avea păianjeni Google care roiesc site-ul tău ca niște păianjeni.

Mai multe resurse:

  • 11 sfaturi și trucuri SEO pentru a îmbunătăți indexarea căutărilor
  • Cum se accesează cu crawlere și indexează motoarele de căutare: tot ce trebuie să știți
  • Cum să faci un audit SEO: Lista de verificare finală

Imagine prezentată: Roman Samborskyi/Shutterstock