Robots.txt untuk SEO (Dasar-dasar SEO)

Diterbitkan: 2022-04-09
Robots.txt untuk SEO


File robots.txt adalah elemen di situs web Anda yang tidak ingin Anda buang. Mereka mengizinkan dan memblokir pintu masuk ke pengunjung bot yang tidak diinginkan yang mencoba "mengintip" melalui konten situs web Anda.

Ini kurang lebih cara sederhana untuk mendefinisikan file robots.txt.

Dalam posting ini, saya akan masuk ke robots.txt untuk dasar-dasar SEO .

Anda akan belajar:
  • Kapan Anda harus menggunakannya?
  • Bagaimana menerapkannya?
  • Kesalahan yang harus dihindari

Bot yang digunakan oleh mesin pencari adalah spider yang merayapi web untuk mengindeks konten situs web dari seluruh internet. Informasi ini memungkinkan mesin pencari mempelajari konten di halaman web sehingga dapat diambil kembali saat dibutuhkan.

Setelah Anda memahami proses perayapan web, Anda juga akan memahami mengapa file robots.txt bermanfaat bagi situs web Anda. Mereka ada di sini untuk melindungi Anda dari pengunjung yang mengintip. Mereka hanya akan memberikan informasi yang ingin Anda tampilkan tentang situs Anda.

Untuk lebih memahami file robots.txt, mari kita lihat lebih dekat apa itu dan bagaimana semuanya menyatu.





Apa Itu File Robots.txt?



Robots.txt. file, juga dikenal sebagai Protokol Pengecualian Robot, adalah file yang dibaca oleh mesin pencari yang berisi aturan tentang pemberian atau penolakan akses ke semua atau bagian tertentu dari situs web Anda. Mesin pencari seperti Google atau Bing mengirim perayap web untuk mengakses situs web Anda dan mengumpulkan informasi yang dapat mereka gunakan sehingga konten Anda dapat muncul di hasil pencarian.

Untuk membayangkan cara kerja file robot.txt, coba bayangkan bot atau laba-laba kecil merayapi situs web Anda untuk mencari informasi. Renungkan film-film Fiksi Ilmiah itu ketika sejuta robot laba-laba merayapi tempat itu dan mengintai untuk menemukan bukti sekecil apa pun tentang keberadaan si penipu.

melalui GIPHY

File teks sederhana ini digunakan untuk SEO dengan mengeluarkan perintah ke mesin pencari yang mengindeks bot bahwa halaman mungkin atau mungkin tidak dirayapi. File robots.txt terutama digunakan untuk mengelola anggaran perayap web dan berguna saat Anda tidak ingin perayap ini mengakses bagian dari situs Anda.

Robots.txt. file sangat penting karena mereka memberi tahu mesin pencari di mana mereka diizinkan untuk dirayapi. Pada dasarnya, apa yang mereka lakukan adalah memblokir situs web Anda sebagian atau seluruhnya, atau mereka mengindeks situs web Anda. Dengan kata lain, ini adalah cara untuk memungkinkan situs web Anda ditemukan oleh mesin pencari.





Proses Merangkak di Tempat Kerja



Proses perayapan situs web untuk konten dikenal sebagai spidering. Tugas utama mesin pencari adalah merayapi web untuk menemukan dan mengindeks konten dengan mengikuti jutaan tautan. Ketika robot mengakses sebuah situs, hal pertama yang mereka lakukan adalah mencari file robots.txt untuk mendapatkan informasi seberapa banyak "snooping" yang bisa mereka lakukan.

Mesin pencari mematuhi aturan yang ditetapkan dalam file robots.txt Anda. Jika tidak ada file robot.txt atau situs web tidak memiliki aktivitas terlarang, bot akan merayapi semua informasi. Namun, beberapa mesin pencari seperti Google tidak mendukung semua arahan yang diberikan dan kami akan menguraikannya lebih lanjut.





Mengapa Menggunakan File Robots.txt?



File robots.txt memungkinkan situs web melakukan beberapa hal seperti:
  • Blokir akses ke seluruh situs
  • Blokir akses ke sebagian situs
  • Blokir akses ke satu URL atau parameter URL tertentu
  • Blokir akses ke seluruh direktori
  • Memungkinkan pengaturan wildcard

File robots.txt mengontrol aktivitas perayap di situs Anda dengan mengizinkan mereka mengakses area tertentu. Selalu ada alasan mengapa Anda tidak memberikan akses kepada Google atau mesin telusur lainnya ke bagian tertentu dari situs web Anda. Salah satunya bisa jadi Anda masih mengembangkan situs web Anda atau Anda ingin melindungi informasi rahasia.

Meskipun situs web dapat berfungsi tanpa file robots.txt, penting untuk mengingat beberapa manfaat menggunakannya:
  • Cegah mesin telusur merayapi folder atau subdomain pribadi
  • Cegah perayapan konten duplikat dan kunjungi halaman yang Anda anggap tidak penting
  • Cegah pengindeksan beberapa gambar di situs Anda
  • Mencegah dan mengelola kelebihan server
  • Mencegah memperlambat situs web


Perhatikan bahwa memberi tahu bot untuk tidak merayapi halaman tidak berarti itu tidak akan diindeks. URL akan muncul di mesin pencari, tetapi akan muncul tanpa deskripsi meta.





Bagaimana Menemukan, Membuat, dan Menguji File Robots.txt?



Robots.txt selalu ditemukan di domain root situs web. Misalnya, Anda dapat menemukannya sebagai https://www.example.com/robots.txt. Jika Anda ingin mengeditnya, Anda dapat mengakses File Manager di CPanel host.

Jika situs web Anda tidak memiliki file robots.txt, membuatnya cukup mudah karena ini adalah file teks dasar yang dibuat di editor teks. Cukup buka dokumen .txt kosong dan masukkan arahan Anda. Setelah selesai, simpan saja file sebagai "robots.txt'' dan di sana Anda memilikinya.

Jika Anda biasanya membuat banyak kesalahan pengetikan, mungkin bijaksana untuk menggunakan generator robots.txt untuk menghindari bencana SEO dan meminimalkan kesalahan sintaks. Ingatlah bahwa kesalahan sekecil apa pun dengan menghilangkan atau menambahkan satu huruf atau angka dapat menimbulkan masalah.

Setelah file robots.txt dibuat, letakkan di direktori root domain yang sesuai. Pastikan untuk menguji file sebelum ditayangkan untuk memastikan keabsahannya. Untuk melakukan ini, Anda harus membuka halaman Dukungan Google dan mengklik tombol "buka penguji robots.txt". Sayangnya, opsi pengujian ini hanya tersedia di Google Search Console versi lama.

Pilih properti yang ingin Anda uji, hapus apa pun yang mungkin ada di dalam kotak, dan tempel file robots.txt Anda. Jika file Anda menerima OK, maka Anda memiliki file robots.txt yang berfungsi penuh. Jika tidak, Anda harus kembali dan mencari kesalahan.





Menerapkan Arahan Perayapan



Setiap file robots.txt terdiri dari arahan, memberikan mesin pencari akses ke informasi. Setiap direktif dimulai dengan menentukan agen pengguna dan kemudian menetapkan aturan untuk agen pengguna tersebut. Di bawah ini kami telah menyusun dua daftar; satu berisi arahan yang didukung dan arahan lain yang tidak didukung oleh agen pengguna.



Arahan yang Didukung



  • User-agent - arahan yang digunakan untuk menargetkan bot tertentu. Mesin pencari mencari agen pengguna dan blok yang berlaku untuk mereka. Setiap mesin pencari memiliki tanda agen pengguna. Karena sensitivitas huruf besar-kecil, pastikan Anda memasukkan formulir agen pengguna yang benar.
    Sebagai contoh:
    Agen-pengguna: Googlebot
    Agen-pengguna: Bingbot

    • Larang - gunakan arahan ini jika Anda ingin mesin pencari tidak merayapi area tertentu di situs web. Anda dapat melakukan hal berikut:
    memblokir akses ke direktori secara keseluruhan untuk semua agen pengguna:
    Agen pengguna: *
    Larang: /
    Blokir direktori tertentu khususnya untuk semua agen pengguna
    Agen pengguna: *
    Larang: /portofolio
    Blokir akses ke PDF atau file lain untuk semua agen pengguna. Cukup gunakan ekstensi file yang sesuai.
    Agen pengguna: *
    Larang: *.pdf$

    • Izinkan - Arahan ini memungkinkan mesin telusur merayapi halaman atau direktori. Catatan yang baik untuk diingat adalah bahwa Anda dapat mengganti direktif yang tidak diizinkan. Katakanlah Anda tidak ingin mesin telusur merayapi direktori portofolio, tetapi Anda mengizinkan mereka mengakses direktori tertentu.
    Agen pengguna: *
    Larang: /portofolio
    Izinkan: /portfolio/allowed-portfolio

    • Peta Situs - memberi mesin telusur lokasi peta situs memudahkan mereka untuk merayapinya.



    Arahan yang tidak didukung



    • Penundaan Perayapan - ini adalah arahan yang baik untuk digunakan saat Anda ingin bot melambat dan menunda antar perayapan agar tidak membebani server Anda. Arahan ini cukup membantu untuk situs web kecil daripada yang besar. Perlu diketahui bahwa arahan penundaan perayapan tidak lagi didukung oleh Google dan Baidu, tetapi Yandex dan Bing masih mendukungnya.
    • Noindex - arahan yang digunakan untuk mengecualikan situs web atau file dari mesin pencari. Perintah ini tidak pernah didukung oleh Google. Jadi, jika Anda ingin menghindari mesin pencari, Anda perlu menggunakan x-robots HTTP header atau meta tag robots.
    • Nofollow - arahan lain yang tidak pernah didukung oleh Google dan digunakan untuk memerintahkan mesin pencari untuk tidak mengikuti tautan di halaman. Gunakan header x-robots atau robot meta tag untuk menggunakan arahan nofollow di semua tautan.
    • Direktif host - digunakan untuk memutuskan apakah Anda ingin menampilkan www. sebelum URL ( example.com atau www.example.com ). Arahan ini saat ini hanya didukung oleh Yandex, jadi disarankan untuk tidak bergantung padanya.



    Penggunaan Wildcard



    Karakter pengganti adalah karakter yang digunakan untuk menyederhanakan instruksi robots.txt. Wildcard dapat digunakan untuk menangani dan menerapkan arahan ke semua agen pengguna atau untuk menangani agen pengguna tertentu secara individual. Berikut adalah wildcard yang biasa digunakan:

    • Asterix (*) - dalam arahan, ini sesuai dengan "berlaku untuk semua agen pengguna". Ini juga dapat digunakan untuk menyesuaikan dengan "pola URL yang cocok atau urutan karakter apa pun". Jika Anda memiliki URL yang mengikuti pola yang sama, maka ini akan membuat hidup Anda lebih mudah.
    • Tanda dolar ($) - digunakan untuk menandai akhir URL.

    Mari kita lihat bagaimana ini akan terlihat dalam sebuah contoh. Jika Anda memutuskan bahwa semua mesin pencari seharusnya tidak memiliki akses ke file PDF Anda, maka robots.txt akan terlihat seperti ini:
    Agen pengguna: *
    Larang: /*.pdf$

    Jadi URL yang diakhiri dengan .pdf tidak akan dapat diakses. Namun perhatikan bahwa jika URL Anda memiliki teks tambahan setelah akhiran .pdf, maka URL tersebut akan dapat diakses. Jadi, saat menulis file robots.txt Anda, pastikan Anda telah mempertimbangkan semua aspek.





    Kesalahan Yang Harus Dihindari



    Menggunakan file robot.txt berguna dan ada banyak cara untuk mengoperasikannya. Tapi mari selami lebih dalam dan melalui kesalahan yang perlu dihindari saat menggunakan file robots.txt.

    Manfaatnya sangat besar, tetapi ada juga banyak kerusakan yang mungkin terjadi jika file robot.txt tidak digunakan dengan cara yang benar.

    • Baris baru - gunakan baris baru untuk setiap arahan agar tidak membingungkan mesin pencari
    • Perhatikan sensitivitas huruf besar-kecil - buat file robots.txt dengan benar karena peka huruf besar/kecil. Perhatikan baik-baik ini atau mereka tidak akan berhasil
    • Hindari memblokir konten - Pastikan untuk melewati tag disallow dan noindex beberapa kali karena dapat merusak hasil SEO. Berhati-hatilah untuk tidak memblokir konten bagus yang harus disajikan secara publik
    • Lindungi data pribadi - untuk mengamankan informasi pribadi, sebaiknya minta pengunjung untuk masuk. Dengan cara ini Anda akan yakin bahwa PDF atau file lain akan aman
    • Terlalu sering menggunakan penundaan perayapan - sedikit saran bagus adalah jangan terlalu sering menggunakan arahan apa pun, terutama penundaan perayapan. Jika Anda menjalankan situs web besar, penggunaan arahan ini mungkin kontraproduktif. Anda akan membatasi perayapan bot ke jumlah maksimum URL per hari, yang tidak disarankan.



    Konten Duplikat



    Ada beberapa alasan mengapa situs Anda mungkin berisi konten duplikat. Ini mungkin versi ramah printer, halaman yang dapat diakses dari beberapa URL, atau halaman berbeda yang memiliki konten serupa. Mesin pencari tidak dapat mengenali apakah itu versi duplikat atau tidak.

    Dalam kasus seperti ini, pengguna perlu menandai URL sebagai kanonik. Tag ini digunakan untuk memberi tahu mesin pencari tentang lokasi asli duplikat. Jika pengguna tidak melakukan ini, maka agen pengguna akan memilih mana yang kanonik, atau yang lebih buruk, mereka mungkin memberi label kedua konten sebagai kanonik. Cara lain untuk menghindari ini adalah dengan menulis ulang konten.





    Biarkan Indeks Mata Merangkak



    Ketika mesin pencari melakukan penjelajahan web atau spidering situs web Anda, mereka menelusuri semua konten di situs web untuk mengindeksnya. Proses ini memungkinkan situs web yang dirayapi muncul di bagian hasil mesin pencari.

    Dengan menggunakan robots.txt, Anda memberi tahu mesin telusur di mana mereka memiliki atau tidak memiliki akses. Anda pada dasarnya membatasi mereka dengan menetapkan aturan yang sesuai. Penggunaan robots.txt agak sederhana dan berguna. Setelah Anda mempelajari aturan menetapkan arahan, maka ada banyak hal yang dapat Anda lakukan dengan situs web Anda.

    Anda disarankan untuk mengawasi file robots.txt untuk memastikan bahwa file tersebut disiapkan dengan benar dan berfungsi sesuai kode. Jika Anda melihat adanya kerusakan, segera tanggapi untuk menghindari bencana.

    Pertimbangkan file robots.txt sebagai alat penting untuk berhasil mengontrol pengindeksan situs web Anda.