Cum se adaugă fișierul Robots.txt pentru WordPress
Publicat: 2019-06-21
Nu este suficient doar crearea unui site web. Obținerea listării în motoarele de căutare este obiectivul esențial al tuturor proprietarilor de site-uri web, astfel încât un site web să devină vizibil în SERP pentru anumite cuvinte cheie. Această listare a unui site web și vizibilitatea celui mai nou conținut se datorează în principal roboților motoarelor de căutare care accesează cu crawlere și indexează site-urile web. Webmasterii pot controla modul în care acești roboți analizează site-urile web inserând instrucțiuni într-un fișier special numit robots.txt.
În acest articol, vă voi spune cum să configurați un fișier robots.txt WordPress pentru cel mai bun site SEO. Rețineți că mai multe pagini ale unui site web WordPress nu trebuie indexate de motoarele de căutare.
- Ce este un fișier Robots.txt?
- De ce să creați Robots.txt pentru WordPress?
- Cum se creează Robots.txt pentru WordPress?
- Advanced Robots.txt pentru WordPress
- Ce să includeți în Robots.txt pentru WordPress?
- Întrebări frecvente (FAQ)
Ce este un fișier Robots.txt?
Un robots.txt este un fișier text situat la rădăcina site-ului dvs. web, care le spune crawlerelor motoarelor de căutare să nu acceseze cu crawlere părți ale site-ului dvs. web. Este, de asemenea, cunoscut sub numele de Robots Exclusion Protocol care împiedică motoarele de căutare să indexeze anumite conținuturi inutile și / sau specifice (de exemplu, pagina dvs. de autentificare și fișierele sensibile).
Pe scurt, robots.txt le spune roboților motoarelor de căutare ce nu ar trebui să acceseze cu crawlere pe site-ul dvs. web.
Iată cum funcționează! Când un robot de căutare este pe cale să acceseze cu crawlere o adresă URL a site-ului dvs. web (adică va accesa cu crawlere și va prelua informații pentru a putea fi indexate), va căuta mai întâi fișierul dvs. robots.txt.

De ce să creați Robots.txt pentru WordPress?
De obicei nu este nevoie să adăugați fișierul robots.txt pentru site-urile web WordPress. Motoarele de căutare indexează integral site-urile WordPress în mod implicit. Cu toate acestea, pentru un SEO mai bun, puteți adăuga un fișier robots.txt în directorul rădăcină pentru a interzice în mod specific motoarelor de căutare să acceseze anumite zone ale site-ului dvs. WordPress.

IdeaBox - Studiu de caz
Citiți cum Cloudways a ajutat o agenție WordPress să creeze produse mai bune.
Mulțumesc
Cartea dvs. electronică este în drum spre Mesaje primite.
Cum se creează Robots.txt pentru WordPress?
Conectați- vă la tabloul de bord pentru găzduirea web WordPress. În exemplul meu, folosesc Cloudways - platforma Cloud Hosting gestionat.
Accesați fila Servere din bara de meniu de sus și obțineți accesul SSH / SFTP din Server Management → Master Credentials .

Utilizați orice aplicație de server FTP pentru a accesa fișierele bazei de date WordPress. Folosesc FileZilla pentru acest tutorial. Lansați-l și conectați-vă la server utilizând acreditările principale .

Odată conectat, accesați / folderul applications al fișierelor bazei de date WordPress. Veți vedea diferite foldere acolo.

Acum reveniți la platforma Cloudways și, din bara din stânga sus, accesați Aplicații . Selectați aplicația pentru care doriți să adăugați fișierul robots.txt:

Din panoul din stânga, accesați Managementul aplicației → Setări aplicație → Generalități . Veți găsi numele folderului aplicației dvs.

Reveniți la FileZilla și apoi navigați la / applications / [FOLDER NAME] / public_html . Creați aici un fișier text nou și denumiți-l robots.txt .

Faceți clic dreapta pe fișierul robots.txt și faceți clic pe Vizualizare / Editare pentru a-l deschide într-un editor de text (Notepad este o opțiune utilă).


Advanced Robots.txt pentru WordPress
Motoarele de căutare precum Google și Bing acceptă utilizarea comodinelor în fișierul robots.txt. Aceste metacaractere pot fi folosite pentru a permite / interzice anumite tipuri de fișiere pe tot site-ul WordPress.
Un asterisc (*) poate fi utilizat pentru a gestiona o gamă largă de opțiuni / selecții.
Agent utilizator: * Nu permiteți: /images/image*.jpg
Aici, „*” înseamnă că toate imaginile care încep cu „imagine” și cu extensia „jpg” nu vor fi indexate de motoarele de căutare. Iată câteva exemple de robots.txt WordPress.
Exemplu: image1.jpg, image2.jpg, imagexyz.jpg nu vor fi indexate de motoarele de căutare.
Puterea * nu se limitează doar la imagini. Puteți chiar să interziceți toate fișierele cu o anumită extensie.
Agent utilizator: * Nu permiteți: /downloads/*.pdf Nu permiteți: /downloads/*.png
Afirmațiile de mai sus vor solicita tuturor motoarelor de căutare să interzică toate fișierele cu extensiile „pdf” și „png” găsite în folderul de descărcări.
Puteți chiar să interziceți directorii de bază WordPress utilizând *.
Agent utilizator: * Nu permiteți: / wp - * /
Linia de mai sus solicită motoarelor de căutare să nu acceseze cu crawlere directoare începând cu „wp-”.
Exemplu: wp-includes, wp-content, etc nu vor fi indexate de motoarele de căutare.
Un alt simbol wildcard folosit în fișierul robots.txt WordPress este simbolul dolar ($).
Agent utilizator: * Nu permiteți: referral.php
Afirmația de mai sus va cere motoarelor de căutare să nu indexeze referral.php și, de asemenea, referral.php? Id = 123 și așa mai departe.
Dar dacă doriți să blocați numai referral.php? Trebuie să includeți simbolul $ doar după referral.php.
Simbolul $ asigură faptul că numai referral.php este blocat, dar nu referral.php? Id = 123.
Agent utilizator: * Nu permiteți: referral.php $
Puteți utiliza și $ pentru directoare.
Agent utilizator: * Nu permiteți: / wp-content /
Aceasta va instrui motoarele de căutare să interzică dosarul wp-content plus toate directoarele care se află în interiorul wp-content. Dacă doriți să dezactivați numai conținutul wp, mai degrabă decât toate sub-dosarele, ar trebui să utilizați simbolul $. De exemplu:
Agent utilizator: * Nu permiteți: / wp-content / $
Simbolul $ asigură că numai conținutul wp este interzis. Toate directoarele din acest folder sunt încă accesibile.
Mai jos este fișierul robots.txt pentru blogul Cloudways.
Agent utilizator: * Nu permiteți: / admin / Nu permiteți: / admin / *? * Nu permiteți: / admin / *? Nu permiteți: / blog / *? * Nu permiteți: / blog / *?
Prima linie indică User-agent. Aceasta se referă la motorul de căutare care are permisiunea de a accesa și indexa site-ul web. O listă completă a tuturor motoarelor de căutare este disponibilă aici .
Agent utilizator: *
Unde * înseamnă toate motoarele de căutare. Puteți specifica fiecare motor de căutare separat.
Nu permiteți: / admin / Nu permiteți: / admin / *? * Nu permiteți: / admin / *?
Acest lucru nu va permite motoarelor de căutare să acceseze cu crawlere directorul „admin”. De multe ori nu este necesar ca motoarele de căutare să indexeze aceste directoare.
Nu permiteți: / blog / *? * Nu permiteți: / blog / *?
Dacă site-ul dvs. WordPress este un site de blog, este cea mai bună practică de a restricționa roboții motoarelor de căutare pentru a nu accesa interogările de căutare.
Dacă site-ul dvs. are un sitemap. Adăugarea URL-ului său ajută roboții motoarelor de căutare în găsirea fișierului sitemap. Acest lucru are ca rezultat o indexare mai rapidă a paginilor.
sitemap: http://www.yoursite.com/sitemap.xml
Ce să includeți în Robots.txt pentru WordPress?
Tu decideți ce părți ale site-ului WordPress doriți să fie incluse în SERP. Toată lumea are propriile opinii despre setarea fișierului robots.txt WordPress. Unii recomandă să nu adăugați un fișier robots.txt în WordPress. În timp ce, în opinia mea, ar trebui să adăugați și să nu permiteți / wp-admin / folder. Fișierul Robots.txt este public. Puteți găsi un fișier robots.txt al oricărui site web accesând www.example.com/robots.txt.
Am terminat cu un fișier robots.txt în WordPress. Dacă aveți întrebări despre setarea fișierului robots.txt, nu ezitați să întrebați în secțiunea de comentarii de mai jos.
Încheiem!
După cum puteți vedea, fișierul robots.txt este un instrument interesant pentru SEO. Face posibil să se indice către roboții motorului de căutare ce să indexeze și ce să nu indexeze. Dar trebuie tratată cu grijă. O configurație greșită poate duce la o dezindexare totală a site-ului dvs. web (exemplu: dacă utilizați Disallow: /). Asa ca fii atent!
Acum e rândul tău. Spuneți-mi dacă utilizați acest tip de fișier și cum îl configurați. Distribuiți-mi comentariile și feedback-ul dvs. în comentarii.
Q1. Ce este robots.txt?
Robotul.txt este un fișier text plasat la rădăcina site-ului dvs. web. Acest fișier este destinat să interzică roboților motoarelor de căutare să indexeze anumite zone ale site-ului dvs. web. Fișierul robots.txt este unul dintre primele fișiere scanate de păianjeni (roboți).
Q2. De ce este utilizat un fișier robots.txt?
Fișierul robots.txt oferă instrucțiuni roboților motorului de căutare care analizează site-ul dvs. web, este un protocol de excludere pentru roboți. Datorită acestui fișier, puteți interzice explorarea și indexarea site-ului dvs. la niște roboți (numiți și „crawler” sau „păianjeni”).
