Ghid pentru crawler TechSEO360 – Hărți de site și audituri tehnice SEO

Publicat: 2019-05-21

De 10 ani încoace, crawler-ul pe care îl folosesc pentru auditurile tehnice de site-uri SEO pe care le fac la Search Engine People este ceea ce se numește în prezent TechSEO360. O bijuterie ascunsă; rentabil, eficient (explorează cu crawlere orice site de orice dimensiune), prospectiv (de exemplu: a avut suport AJAX înainte de alte asemenea instrumente de crawler). Am mai scris despre acest crawler de site-uri web înainte, dar am vrut să fac o postare mai cuprinzătoare, all-in-one.

TechSEO360 explicat

TechSEO360 este un crawler tehnic SEO, cu elementele importante fiind:

  • Software nativ pentru Windows și Mac.
  • Poate accesa cu crawlere site-uri web foarte mari de pe piață.
  • Configurație flexibilă a crawler-ului pentru cei care au nevoie.
  • Utilizați rapoarte încorporate sau personalizate pentru analiza datelor colectate de site-uri web (deși de obicei mă bazez pe exportul tuturor datelor în Excel și pe utilizarea filtrelor sale puternice, pivotarea, formatarea automată etc.).
  • Creați sitemap-uri XML pentru imagini, videoclipuri și hreflang pe lângă hărțile de site vizuale.

Cum este structurat acest ghid

Acest ghid va acoperi toate cele mai importante funcționalități SEO găsite în acest software.

  • Vom folosi site-ul demo https://Crawler.TechSEO360.com în toate exemplele noastre.
  • Toate capturile de ecran vor fi din versiunea Windows - dar versiunea pentru Mac conține aceleași caracteristici și instrumente.
  • Vom folosi TechSEO360 în modul său gratuit, care este starea la care se trece când se încheie perioada de încercare gratuită inițială complet funcțională de 30.
  • Vom folosi setările implicite pentru accesarea cu crawlere și analiza site-ului web, dacă nu se specifică altfel.
  • Vom începe prin a arăta cum să configurați accesarea cu crawlere a site-ului și apoi vom trece la SEO tehnic, rapoarte și hărți de site.

Configurarea și pornirea Crawl-ului

Majoritatea site-urilor se vor accesa cu crawlere bine când se folosesc setările implicite. Aceasta înseamnă că singura configurație necesară va fi, de obicei, să introduceți calea site-ului web pe care doriți să îl analizați - dacă acesta se află pe internet, pe server local sau pe disc local.
porniți crawlerul
Ca o alternativă ușoară la configurarea manuală, este, de asemenea, posibilă aplicarea diferitelor „presetări rapide” care configurează setările de bază. Exemple ar putea fi:

  • Știți că doriți să creați un sitemap video și doriți să vă asigurați că puteți genera cel mai bun posibil.
  • Utilizați un anumit CMS pentru site-ul web care generează multe adrese URL de conținut subțire care ar trebui excluse.

presetări de configurare a crawlerului
Pentru cei care doresc să se scufunde în setări, puteți afirma un control aproape complet al procesului de accesare cu crawlere, inclusiv:

Motor pe șenile

Aici vă puteți încurca cu elementele interne mai profunde ale modului în care sunt efectuate solicitările HTTP. Un lucru anume este modul în care puteți crește viteza de accesare cu crawlere: pur și simplu creșteți numărul de fire și conexiuni simultane - asigurați-vă doar că computerul și site-ul dvs. web pot face față sarcinii suplimentare.
configurația motorului pe șenile

Filtre pentru webmasteri

Controlați în ce măsură crawler-ul ar trebui să se supună noindex, nofollow, robots.txt și similar.
respectați instrucțiunile site-ului

Filtre de analiză

Configurați regulile pentru care adresele URL ar trebui să aibă conținutul analizat. Există mai multe opțiuni de filtrare „exclude” și „limită la” disponibile, inclusiv modele URL, extensii de fișiere și tipuri MIME.
filtre de analiză pe șenile

Filtre de ieșire

Similar cu „Scanați site-ul | Filtre de analiză” – dar este folosit în schimb pentru a controla ce adrese URL sunt „etichetate” pentru a fi eliminate când se termină accesarea cu crawlere a site-ului.
filtre de ieșire cu crawler
Adresele URL excluse de opțiunile găsite în „Scanați site-ul web | Filtre pentru webmasteri” și „Scanați site-ul web | Filtre de ieșire” pot fi încă păstrate și afișate după ce accesarea cu crawlere a site-ului web se oprește dacă opțiunea „Scanați site-ul web | Opțiuni crawler | Aplicați webmaster și filtre de ieșire după scanarea site-ului web se oprește” este nebifată. Cu această combinație:

  • Păstrați toate informațiile colectate de crawler, astfel încât să puteți inspecta totul.
  • Evitați totuși ca URL-urile să fie incluse atunci când creați sitemap-uri HTML și XML.
  • Obțineți în continuare „etichetarea” adecvată atunci când faceți rapoarte și exporturi.

Progresul accesării cu crawlere

În timpul accesării cu crawlere a site-ului, puteți vedea diverse statistici care arată câte adrese URL au fost analizate conținutul lor, câte au fost rezolvate linkurile și referințele și câte adrese URL mai așteaptă în cozi.
progresul scanării site-ului web

Prezentare generală a site-ului după accesare cu crawlere

După ce s-a terminat accesarea cu crawlere a site-ului, programul deschide o vizualizare cu coloane de date în stânga:
prezentare generală a adreselor URL găsite
Dacă selectați o adresă URL, puteți vedea mai multe detalii în partea dreaptă:
detalii despre anumite adrese URL
Iată o miniatură a modului în care poate arăta pe un ecran de dimensiune completă:
prezentare completă a rezultatelor scanării site-ului web

Partea stanga

Aici veți găsi adrese URL și datele asociate găsite în timpul scanării site-ului web. În mod implicit, sunt afișate doar câteva dintre cele mai importante coloane de date. Deasupra acestuia se află un panou format din cinci butoane și o casetă de text. Scopurile lor sunt:

#1
Meniu derulant cu „rapoarte rapide” predefinite. Acestea pot fi folosite pentru a configura rapid:

  • Ce coloane de date sunt vizibile.
  • Ce „opțiuni de filtrare rapidă” sunt activate.
  • „Textul de filtru rapid” activ pentru a limita și mai mult ceea ce este afișat.

selectați dintre rapoartele rapide predefinite

#2
Meniu derulant pentru a comuta între afișarea tuturor adreselor URL de pe site ca o „listă” plată față de „arborele”.
comutați între vizualizarea adreselor URL în format listă și arbore

#3
Meniu derulant pentru a configura ce coloane de date sunt vizibile.
controlați ce coloane de date sunt vizibile

#4
În comparație cu cele de mai sus, activarea vizibilității coloanei de date „Redirecționări către cale” arată astfel:
exemplu de vizibilitate a coloanei de date activată

#5
Meniu derulant pentru a configura ce „opțiuni de filtrare rapidă” sunt selectate.
opțiuni de filtrare rapidă

#6
Buton pornit/oprit pentru a activa/dezactiva toate funcționalitățile „filtre rapide”.

#7
Caseta care conține „textul de filtru rapid” care este folosit pentru a personaliza în continuare ceea ce este afișat.

Modul de utilizare a funcționalității „rapoarte rapide” și „filtre rapide” va fi explicat mai târziu cu exemple.

Partea dreapta

Aici puteți vedea detalii suplimentare ale adresei URL selectate în partea stângă. Aceasta include lista „Conectat de” cu detalii suplimentare, lista „Link-uri [internă]”, lista „Utilizat de”, „Rezumatul directorului” și multe altele.

Pentru a înțelege cum să utilizați acest lucru atunci când investigați detaliile, comparați următoarele două scenarii.

#1
În partea stângă, am selectat adresa URL http://crawler.techseo360.com/noindex-follow.html - putem vedea, de asemenea, că crawler-ul a etichetat-o "[noindex][follow]" în coloana de date „URL flags”:
noindex și urmăriți prezentarea generală a adreselor URL
În dreapta, în interiorul filei „Link-uri [interne]”, putem confirma că toate linkurile au fost urmate, inclusiv și vedem detalii suplimentare .
noindex și urmăriți detaliile URL

#2
În partea stângă, am selectat adresa URL http://crawler.techseo360.com/nofollow.html - putem vedea, de asemenea, că crawler-ul a etichetat-o "[index][nofollow]" în coloana de date „URL flags”.:
Prezentare generală a adreselor URL index și nofollow
În dreapta, în interiorul filei „Link-uri [interne]”, putem confirma că nu au fost urmărite linkuri .
index și detalii URL nofollow

Utilizarea rapoartelor rapide

După cum am spus, nu le folosesc adesea, preferând să afișez toate coloanele de date și apoi să export în Excel. Dar pentru cei cărora le plac acest tip de rapoarte integrate în alte instrumente, iată câteva dintre cele mai utilizate rapoarte rapide disponibile:

Toate tipurile de redirecționări

„Raportul rapid” încorporat pentru a afișa toate tipurile de redirecționări, inclusiv informațiile necesare pentru a urmări lanțurile de redirecționare:
Raportul de redirecționare a adreselor URL
În esență, aceasta are:

  1. S-a schimbat vizibilitatea coloanelor de date la cele mai potrivite.
  2. Setați textul filtrului la:
    [httpredirect|canonicalredirect|metarefreshredirect] -[noindex] 200 301 302 307
  3. Filtre activate:
    • Only show URLs with all [filter-text] found in "URL state flags" column
    • Only show URLs with any filter-text-number found in "response code" column

Cu aceasta, un URL trebuie să îndeplinească următoarele trei condiții pentru a fi afișat:

  1. Trebuie să trimită către o altă adresă URL fie prin redirecționare HTTP, fie prin instrucțiuni canonice, fie prin reîmprospătare meta „0 secundă”.
  2. Nu poate conține o instrucțiune „noindex”.
  3. Trebuie să aibă fie codul de răspuns 200, 301, 302 sau 307.

404 Nu a fost gasit

Dacă trebuie să identificați rapid link-urile și referințele URL întrerupte, acest raport este o alegere bună. Prin aceasta, coloanele de date „Linked.List” (de ex. eticheta „a”), „Used.List” (de exemplu, atributul „src”) și „Redirected.List” sunt făcute vizibile.
Raportul adrese URL nu au fost găsite

Noindex

Vedeți rapid toate paginile cu instrucțiunea „noindex”.
Raportul URL-uri noindex

Titluri duplicate #1

Vedeți rapid toate paginile cu titluri duplicate, inclusiv cele cu titluri goale duplicat.
Adresele URL implicite titluri duplicat raport

Titluri duplicate #2

Dacă nu este înlocuit de alte filtre, textul de filtrare se potrivește cu conținutul din toate coloanele de date vizibile. Aici am restrâns raportul de titluri duplicat la cele care conțin cuvântul „exemplu”.
Adresele URL filtrate titluri duplicate raport

Numărul de caractere din titlu

Limitați adresele URL afișate prin numărul de caractere de titlu. Puteți controla pragul și dacă este deasupra sau sub. Similar este disponibil pentru descrieri.
caracterele din titlu contează

Număr de pixeli pentru titlu

Limitați adresele URL afișate după numărul de pixeli din titlu. Puteți controla pragul și dacă este deasupra sau sub. Similar este disponibil pentru descrieri.
pixelii titlului numără

Imagini și text Alt/Anchor lipsă

Afișați numai adresele URL ale imaginilor care au fost fie folosite fără text alternativ, fie legate fără text de ancorare.
imagini cu referințe lipsesc alt sau text ancora

Alte instrumente

Analiză pe pagină

În mod implicit, se efectuează o analiză completă a textului pe toate paginile în timpul accesării cu crawlere a site-ului. Opțiunea găsită pentru aceasta se află în „Scanare site-ul | Colectare date”, care oferă rezultate ca acestea:
Prezentare generală a cuvintelor cheie și a analizei de conținut ale adreselor URL
Cu toate acestea, puteți analiza oricând pagini individuale fără a accesa cu crawlere întregul site web:
Adresa URL a cuvintelor cheie și detaliile analizei de conținut
Observați că puteți vedea ce cuvinte cheie și expresii sunt vizate pe un întreg site web dacă utilizați butonul „suma scorurile pentru paginile selectate”.

Liste de cuvinte cheie

Un generator flexibil de liste de cuvinte cheie care permite combinarea listelor de cuvinte cheie și efectuarea unei curățări complete.
liste de cuvinte cheie

Instrumente online terță parte

Dacă aveți nevoie de mai multe instrumente, puteți să le adăugați singur și chiar să decideți care ar trebui să fie accesibile prin file în loc de doar meniul drop-down.
Instrumente online terță parte
Software-ul va transmite automat URL-ul selectat sau similar instrumentului online selectat. Fiecare instrument online este configurat de un fișier text care definește ce date sunt transmise și cum se face.

Sitemaps

Tipuri de fișiere de hartă site

Cu 13 formate distincte de fișiere de hărți de site, sunt șansele să vă fie acoperite nevoile. Acestea includ sitemap-uri XML, sitemap-uri video și sitemap-uri imagine.
formate de fișiere sitemap acceptate

Sitemaps XML și Hreflang

Chiar dacă site-ul dvs. web nu include niciun marcaj hreflang, TechSEO360 va putea deseori să genereze sitemap XML cu informații hreflang alternative adecvate, dacă adresele URL conțin părți care includ o referință la cultura lingvistică sau țara.
hreflang în sitemap-uri XML

Sitemap-uri XML pentru imagini și videoclipuri

De obicei, vă puteți accelera configurația utilizând una dintre „Presetările rapide”:

  • Harta site-ului video Google
  • Harta site-ului video Google (site-ul web are videoclipuri găzduite extern)
  • Harta site-ului cu imagini Google
  • Harta site-ului cu imagini Google (site-ul web are imagini găzduite extern)

Dacă intenționați să creați atât sitemap-uri imagine, cât și video, utilizați una dintre opțiunile video, deoarece acestea includ, de asemenea, toată configurația optimă pentru sitemap-uri imagine.

TechSEO360 utilizează diferite metode pentru a calcula ce pagini, videoclipuri și imagini aparțin împreună în sitemap-urile XML generate - ceva care poate fi dificil dacă o imagine sau un videoclip este folosit în mai multe locuri.

Sitemap-uri HTML

Selectați dintre șabloanele HTML încorporate sau creați-vă propriul, inclusiv codul HTML/CSS/JS real și diferite opțiuni utilizate la construirea sitemap-urilor.
sitemap-uri HTML personalizate

Altă funcționalitate

Suport Javascript și AJAX

Puteți configura TechSEO360 să caute codul Javascript pentru referințe la fișiere și adrese URL, bifând opțiunea „Scanați site-ul | Opțiuni crawler | Încercați să căutați în Javascript”.

Dacă aveți de-a face cu un site web AJAX, puteți trece la o soluție activată AJAX în „Scanați site-ul | Motor cu crawler | Tip de cale implicită și handler”.

Căutare personalizată de text și cod

Poate fi adesea util să căutați text și cod pe un întreg site web - de exemplu, pentru a găsi pagini folosind vechiul cod Google Analytics sau similar.

Puteți configura căutări multiple în „Scanați site-ul | Colectarea datelor” | Căutați șiruri personalizate, coduri și modele de text”.

Rezultatele sunt afișate în coloana de date „Căutări personalizate în pagină” afișând un număr pentru fiecare căutare - opțional cu conținutul extras din potrivirea modelului.

Scorul de importanță calculat

TechSEO360 calculează importanța tuturor paginilor pe baza legăturilor interne și a redirecționărilor interne.

Puteți vedea acest lucru activând vizibilitatea coloanei de date „Scor de importanță scalat”.

Detectarea conținutului similar

Uneori paginile sunt similare, dar nu sunt duplicate exacte. Pentru a le găsi, puteți activa opțiunea „Scanați site-ul | Colectarea datelor | Urmărirea și stocarea datelor extinse | Efectuați o analiză a cuvintelor cheie pentru toate paginile” înainte de scanare.

La vizualizarea rezultatelor, activați vizibilitatea coloanei de date „Duplicate conținutul paginii (vizualizare vizuală)” și veți obține o reprezentare grafică a conținutului.

Interfață de linie de comandă (CLI)

Dacă utilizați versiunea de încercare sau cu plată, puteți utiliza linia de comandă - iată un exemplu:
"techseo.exe" -exit -scan -build ":my-project.ini" @override_rootpath=http://example.com@
Cele de mai sus trece un fișier de proiect cu toate opțiunile definite, suprascrie domeniul site-ului web și instruiește TechSEO360 să ruleze cu crawlere completă, să creeze hărți de site și să iasă.

Import de date

Funcționalitatea „Fișier | Import...” funcționează inteligent și poate fi utilizată pentru:

  • Importă liste de adrese URL. Dacă adresele URL importate provin din domenii mixte, TechSEO360 va determina dacă există un domeniu principal și va importa în mod corespunzător în filele „Intern” și „Extern”.
  • TechSEO360 poate detecta, de asemenea, diverse alte surse de date, conținut care va fi adăugat la datele existente:
    • Serverul Apache se înregistrează pentru a „eticheta” adresele URL vizitate de GoogleBot „[googlebot]” și detectează adresele URL care nu sunt legate/utilizate intern „[orfane]”.
    • Instrumentele Google pentru webmasteri exportă în „etichetare” adrese URL indexate de Google „[googleindexed]” și date pentru clicuri și afișări.
    • Exporturi CSV majestuoase pentru datele de scor pentru backlink.

    „[...]” de mai sus poate fi folosit de „textul filtrelor rapide” pentru a genera rapoarte personalizate suplimentare.

Exportarea datelor

Funcționalitatea „Fișier | Export...” poate exporta date în CSV, Excel, HTML și altele, în funcție de ceea ce exportați. A folosi:

  • Selectați controlul cu datele pe care doriți să le exportați.
  • Aplicați opțiuni astfel încât controlul să conțină numai datele pe care doriți să le exportați. (Acest lucru poate include, de exemplu, „coloane de date”, „opțiuni de filtrare rapidă” și „text de filtrare rapidă”)
  • Faceți clic pe butonul „Export” și acum aveți datele dorite în formatul dorit.

Prețuri TechSEO360

Există în esență trei stări diferite:

  1. Când descărcați pentru prima dată software-ul, obțineți o perioadă de încercare gratuită complet funcțională de 30 de zile .
  2. Când perioada de încercare expiră, aceasta continuă să funcționeze în modul gratuit, care permite accesarea cu crawlere a 500 de pagini pe site-uri web.
  3. La achiziționarea, prețul abonamentului anual este de 99 USD pentru o licență de utilizator unic care poate fi utilizată atât pe Windows, cât și pe Mac.

Puteți descărca versiunea de încercare pentru Windows și Mac de la https://TechSEO360.com .