SEO için Robots.txt (SEO Temelleri)

Yayınlanan: 2022-04-09

Robots.txt dosyaları, web sitelerinizde atmak istemediğiniz öğelerdir. Web sitenizin içeriğini "gizlemeye" çalışan istenmeyen bot ziyaretçilerinin girişine izin verir ve engeller.

Bu, robots.txt dosyalarını tanımlamanın aşağı yukarı basit bir yoludur.

Bu yazıda, SEO temelleri için robots.txt dosyasına gireceğim.

Öğreneceksin:

Onları ne zaman kullanmalısın
nasıl uygulanır
Kaçınılması gereken hatalar

Arama motorları tarafından kullanılan botlar, internetin her yerinden web sitesi içeriğini dizine eklemek için web'i tarayan örümceklerdir. Bu bilgi, arama motorlarının web sayfalarındaki içerik hakkında bilgi edinmesini ve böylece gerektiğinde geri alınabilmesini sağlar.

Web tarama sürecini anladıktan sonra, robots.txt dosyalarının web siteniz için neden faydalı olduğunu da anlayacaksınız. Sizi etrafta dolanan ziyaretçilerden korumak için buradalar. Yalnızca siteniz hakkında göstermek istediğiniz bilgileri verirler.

Robots.txt dosyalarını daha iyi anlamak için, bunların ne olduğuna ve nasıl bir araya geldiklerine daha yakından bakalım.

Robots.txt Dosyaları Nedir?

Robots.txt. Robots Hariç Tutma Protokolü olarak da bilinen dosyalar, web sitenizin tamamına veya belirli bölümlerine erişim verilmesine veya reddedilmesine ilişkin kurallar içeren arama motorları tarafından okunan dosyalardır. Google veya Bing gibi arama motorları, web sitenize erişmeleri ve içeriğinizin arama sonuçlarında görünmesi için kullanabilecekleri bilgileri toplamaları için web tarayıcıları gönderir.

robot.txt dosyalarının nasıl çalıştığını hayal etmek için, bilgi aramak için web sitenizde gezinen botları veya küçük örümcekleri hayal edin. Bir milyon robot örümceği, sahtekarın varlığına dair en küçük olası kanıtları bile bulmak için yeri taradığında ve etrafta dolaştığında Bilimkurgu filmlerini düşünün.

GIPHY aracılığıyla

Bu basit metin dosyaları, arama motorlarına bir sayfanın taranıp taranmayacağını gösteren botları indeksleyen komutlar vererek SEO için kullanılır. Robots.txt dosyaları öncelikle web tarayıcılarının bütçesini yönetmek için kullanılır ve bu tarayıcıların sitenizin bir bölümüne erişmesini istemediğinizde kullanışlı olur.

Robots.txt. dosyalar çok önemlidir çünkü arama motorlarının nerede taramalarına izin verildiğini bilmelerini sağlarlar. Temel olarak yaptıkları şey, web sitenizi kısmen veya tamamen engellemek veya web sitenizi indekslemektir. Başka bir deyişle, web sitenizin arama motorları tarafından keşfedilmesine izin vermenin bir yoludur.

İş Yerinde Tarama Süreci

Web sitelerini içerik için tarama işlemi, örümcek ağı olarak bilinir. Arama motorlarının ana görevi, milyonlarca bağlantıyı takip ederek içeriği keşfetmek ve dizine eklemek için web'i taramaktır. Bir robot bir siteye eriştiğinde, yaptıkları ilk şey robots.txt dosyalarını aramak ve ne kadar "snooping" yapabileceklerini öğrenmektir.

Arama motorları, robots.txt dosyalarınızda belirlenen kurallara uyar. Robot.txt dosyası yoksa veya web sitesinde yasaklanmış bir etkinlik yoksa, botlar tüm bilgileri tarar. Ancak, Google gibi bazı arama motorları verilen tüm yönergeleri desteklememektedir ve bunu daha ayrıntılı olarak ele alacağız.

Robots.txt Dosyalarını Neden Kullanmalı?

Robots.txt dosyaları, web sitelerinin aşağıdakiler gibi birkaç şey yapmasına izin verir:

Tüm siteye erişimi engelle
Sitenin bir bölümüne erişimi engelle
Bir URL'ye veya belirli URL parametrelerine erişimi engelle
Tüm dizine erişimi engelle
Joker karakterlerin ayarlanmasına izin verir

Robots.txt dosyaları, belirli alanlara erişmelerine izin vererek tarayıcının sitenizdeki etkinliğini kontrol eder. Google'a veya diğer arama motorlarına web sitenizin belirli bölümlerine erişim izni vermemenizin her zaman nedenleri vardır. Bunlardan biri, web sitenizi geliştirmeye devam ediyor olmanız veya gizli bilgileri korumak istemeniz olabilir.

Web siteleri robots.txt dosyası olmadan çalışabilse de, bunları kullanmanın birkaç avantajını hatırlamak önemlidir:

Arama motorlarının özel klasörler veya alt alanlar arasında gezinmesini önleyin
Yinelenen içeriğin taranmasını ve önemsiz olduğunu düşündüğünüz sayfaları ziyaret etmeyi önleyin
Sitenizdeki bazı resimlerin dizine eklenmesini önleyin
Sunucu aşırı yüklenmesini önleyin ve yönetin
Web sitesinin yavaşlamasını önleme

Botlara bir sayfayı taramamalarını söylemenin, sayfanın dizine eklenmeyeceği anlamına gelmediğini unutmayın. URL, arama motorunda görünecek, ancak bir meta açıklama olmadan görünecektir.

Robots.txt Dosyaları Nasıl Bulunur, Oluşturulur ve Test Edilir?

robots.txt her zaman web sitesinin kök etki alanında bulunur. Örneğin https://www.example.com/robots.txt olarak bulabilirsiniz. Düzenlemek isterseniz, ana bilgisayarın CPanel'indeki Dosya Yöneticisine erişebilirsiniz.

Web sitenizde bir robots.txt dosyası yoksa, bir metin düzenleyicide oluşturulmuş temel bir metin dosyası olduğundan, bir tane oluşturmak oldukça basittir. Boş bir .txt belgesi açın ve yönergelerinizi ekleyin. Bitirdiğinizde, dosyayı "robots.txt" olarak kaydedin ve işte karşınızda.

Genelde yazarken çok fazla hata yapıyorsanız, SEO felaketlerini önlemek ve sözdizimi hatalarını en aza indirmek için bir robots.txt oluşturucu kullanmak akıllıca olabilir. Unutulmamalıdır ki, bir harf veya rakamın eksik olması veya eklenmesi gibi en ufak bir hata bile sorun yaratabilir.

robots.txt dosyası oluşturulduktan sonra, onu uygun etki alanı kök dizinine koyun. Geçerli olduğundan emin olmak için canlı yayına geçmeden önce dosyayı test ettiğinizden emin olun. Bunu yapmak için Google Destek sayfasına gitmeniz ve "robots.txt test cihazını aç" düğmesini tıklamanız gerekir. Ne yazık ki, bu test seçeneği yalnızca Google Search Console'un eski sürümünde mevcuttur.

Test etmek istediğiniz özelliği seçin, kutuda olabilecek her şeyi kaldırın ve robots.txt dosyanızı yapıştırın. Dosyanız OK alırsa, tamamen işlevsel bir robots.txt dosyanız olur. Değilse, geri dönüp hatayı aramanız gerekir.

Tarama Yönergelerini Uygulama

Her robots.txt dosyası, arama motorlarının bilgilere erişmesini sağlayan yönergelerden oluşur. Her yönerge, kullanıcı aracısını belirleyerek ve ardından bu kullanıcı aracısı için kuralları belirleyerek başlar. Aşağıda iki liste derledik; biri, kullanıcı aracıları tarafından desteklenen yönergeleri ve diğer desteklenmeyen yönergeleri içerir.

Desteklenen Yönergeler

Kullanıcı aracısı - belirli botları hedeflemek için kullanılan bir yönerge. Arama motorları, kullanıcı aracılarını ve bunlara uyan blokları arar. Her arama motorunun bir kullanıcı aracısı işareti vardır. Büyük/küçük harf duyarlılığı nedeniyle, kullanıcı aracılarının doğru formunu girdiğinizden emin olun.

Örneğin:
Kullanıcı aracısı: Googlebot
Kullanıcı aracısı: Bingbot

İzin Verme - arama motorlarının web sitesinin belirli alanlarını taramasını engellemek istiyorsanız bu yönergeyi kullanın. Aşağıdakileri yapabilirsiniz:

tüm kullanıcı aracıları için bir dizine erişimi bir bütün olarak engelle:
kullanıcı aracısı: *
izin verme: /
Özellikle tüm kullanıcı aracıları için belirli bir dizini engelle
kullanıcı aracısı: *
İzin verme: /portfolio
Tüm kullanıcı aracıları için PDF'ye veya diğer dosyalara erişimi engelleyin. Sadece uygun dosya uzantısını kullanın.
kullanıcı aracısı: *
İzin verme: *.pdf$

İzin Ver - Bu yönerge, arama motorlarının sayfayı veya dizini taramasına izin verir. Hatırlanması gereken iyi bir not, izin verilmeyen bir yönergeyi geçersiz kılabileceğinizdir. Arama motorlarının bir portföy dizinini taramasını istemediğinizi, ancak belirli bir dizine erişmelerine izin vereceğinizi varsayalım.

kullanıcı aracısı: *
İzin verme: /portfolio
İzin ver: /portfolio/izin verilen portföy

Site Haritası - arama motorlarına site haritası konumunu vermek, onları taramalarını kolaylaştırır.

Desteklenmeyen Yönergeler

Tarama Gecikmesi - bu, botların yavaşlamasını ve sunucularınızı bunaltmamak için taramalar arasında gecikmesini istediğinizde kullanmak için iyi bir yönergedir. Bu yönerge, büyük web sitelerinden ziyade küçük web siteleri için oldukça yararlıdır. Yalnızca, tarama gecikme yönergesinin artık Google ve Baidu tarafından desteklenmediğini, ancak Yandex ve Bing'in hala desteklediğini unutmayın.
Noindex - bir web sitesini veya bir dosyayı arama motorlarından çıkarmak için kullanılan bir yönerge. Bu komut hiçbir zaman Google tarafından desteklenmedi. Yani arama motorlarından uzak durmak istiyorsanız x-robots HTTP header veya meta tag robots kullanmanız gerekiyor.
Nofollow - Google tarafından hiçbir zaman desteklenmeyen ve arama motorlarına sayfalardaki bağlantıları takip etmemeleri için komut vermek için kullanılan başka bir yönerge. Tüm bağlantılarda nofollow yönergesini kullanmak için x-robots başlık veya meta etiket robotlarını kullanın.
Host yönergesi - www'yi göstermek isteyip istemediğinize karar vermek için kullanılır. bir URL'den önce ( example.com veya www.example.com ). Bu yönerge şu anda yalnızca Yandex tarafından desteklenmektedir, bu nedenle ona güvenmemeniz önerilir.

Joker Karakterlerin Kullanımı

Joker karakterler, robots.txt talimatlarını basitleştirmek için kullanılan karakterlerdir. Joker karakterler, yönergeleri tüm kullanıcı aracılarına adreslemek ve uygulamak veya belirli kullanıcı aracılarını ayrı ayrı ele almak için kullanılabilir. Yaygın olarak kullanılan joker karakterler şunlardır:

Asterix (*) - direktiflerde, "tüm kullanıcı aracılarına uygula" anlamına gelir. Ayrıca "URL kalıplarını veya herhangi bir karakter dizisini eşleştirmek" için de kullanılabilir. Aynı kalıbı takip eden URL'leriniz varsa, bu hayatınızı çok daha kolaylaştıracaktır.
Bir URL'nin sonunu işaretlemek için dolar işareti ($) - kullanılır.

Bunun bir örnekte nasıl görüneceğini görelim. Tüm arama motorlarının PDF dosyalarınıza erişimi olmaması gerektiğine karar verirseniz, robots.txt dosyası şöyle görünmelidir:
kullanıcı aracısı: *
İzin verme: /*.pdf$

Yani .pdf ile biten URL'lere erişilemez. Ancak, URL'nizin .pdf sonundan sonra ek metni varsa, o URL'ye erişilebileceğini unutmayın. Bu nedenle robots.txt dosyalarınızı yazarken tüm yönleri dikkate aldığınızdan emin olun.

Kaçınılması Gereken Hatalar

robot.txt dosyalarını kullanmak faydalıdır ve bunları çalıştırmanın birçok yolu vardır. Ancak daha derine inelim ve robots.txt dosyasını kullanırken kaçınılması gereken hataların üzerinden geçelim.

Yararları çok büyük, ancak robot.txt dosyaları doğru şekilde kullanılmazsa yapılabilecek çok fazla zarar da var.

Yeni satır - arama motorlarını karıştırmamak için her yönerge için yeni bir satır kullanın
Büyük/küçük harf duyarlılığına dikkat edin - robots.txt dosyalarını büyük/küçük harf duyarlı oldukları için düzgün bir şekilde oluşturun. Buna çok dikkat edin yoksa işe yaramazlar
İçeriği engellemekten kaçının - SEO sonuçlarına zarar verebileceklerinden izin vermeme ve noindex etiketlerinin üzerinden birkaç kez geçtiğinizden emin olun. Herkese açık olarak sunulması gereken iyi içeriği engellememeye dikkat edin
Özel verileri koruyun - özel bilgileri güvence altına almak için ziyaretçilerden oturum açmalarını istemek akıllıca olacaktır. Bu şekilde PDF'lerin veya diğer dosyaların güvende olacağından emin olacaksınız.
Tarama gecikmesinin aşırı kullanımı - iyi bir tavsiye, herhangi bir yönergeyi, özellikle tarama gecikmesini aşırı kullanmamaktır. Büyük bir web sitesi işletiyorsanız, bu yönergenin kullanımı ters etki yapabilir. Botların taramasını günde maksimum URL sayısıyla sınırlayacaksınız, ki bu tavsiye edilmez.

Yinelenen İçerik

Sitenizin yinelenen içerik içermesinin birkaç nedeni olabilir. Yazıcı dostu bir sürüm, birden çok URL'den erişilebilen bir sayfa veya benzer içeriğe sahip farklı sayfalar olabilir. Arama motorları, bunun kopya bir sürüm olup olmadığını anlayamaz.

Bu gibi durumlarda, kullanıcının URL'yi standart olarak işaretlemesi gerekir. Bu etiket, arama motoruna kopyanın orijinal konumunun ne olduğunu bildirmek için kullanılır. Kullanıcı bunu yapmazsa, kullanıcı aracısı hangisinin kurallı olduğunu veya daha da kötüsü, her iki içeriği de kurallı olarak etiketleyebilir. Bundan kaçınmanın başka bir yolu da içeriği yeniden yazmaktır.

Emekleyen Gözler İndeksine İzin Ver

Arama motorları web sitenizde tarama veya örümcek taraması yaptığında, dizine eklemek için web sitesindeki tüm içeriği gözden geçirirler. Bu işlem, taranan web sitelerinin arama motorlarının sonuçlar bölümünde görünmesini sağlar.

robots.txt kullanarak, arama motorlarına nerede erişimleri olup olmadığını söylersiniz. Temel olarak uygun kurallar belirleyerek onları sınırlandırıyorsunuz. robots.txt'nin kullanımı oldukça basit ve kullanışlıdır. Direktifleri atamanın kurallarını öğrendikten sonra, web sitenizle yapabileceğiniz birçok şey var.

Doğru ayarlandığından ve kodlandığı gibi çalıştığından emin olmak için robots.txt dosyalarınıza göz kulak olmanız önerilir. Herhangi bir arıza fark ederseniz, felaketlerden kaçınmak için hızlı tepki verin.

Robots.txt dosyalarını, web sitenizin dizine eklenmesini başarılı bir şekilde kontrol etmek için gerekli bir araç olarak düşünün.