Mengapa log server penting untuk SEO

Diterbitkan: 2022-01-11

Mayoritas operator situs web tidak menyadari pentingnya log server web. Mereka tidak merekam, apalagi menganalisis log server situs web mereka. Merek besar, khususnya, gagal memanfaatkan analisis log server dan kehilangan data log server yang tidak dapat dipulihkan.

Organisasi yang memilih untuk menggunakan analisis log server sebagai bagian dari upaya SEO berkelanjutan mereka sering kali unggul di Google Penelusuran. Jika situs web Anda terdiri dari 100.000 halaman atau lebih dan Anda ingin mengetahui bagaimana dan mengapa log server memberikan peluang pertumbuhan yang luar biasa, teruslah membaca.

Mengapa log server penting?

Setiap kali bot meminta URL yang dihosting di server web, entri catatan log dibuat secara otomatis yang mencerminkan pertukaran informasi dalam proses. Saat mencakup periode waktu yang diperpanjang, log server menjadi perwakilan dari riwayat permintaan yang diterima dan tanggapan yang dikembalikan.

Informasi yang disimpan dalam file log server biasanya mencakup alamat IP klien, tanggal dan waktu permintaan, URL halaman yang diminta, kode respons HTTP, volume byte yang disajikan serta agen pengguna dan perujuk.

Sementara log server dibuat setiap kali halaman web diminta, termasuk permintaan browser pengguna, optimisasi mesin pencari berfokus secara eksklusif pada penggunaan data log server bot. Ini relevan dengan pertimbangan hukum yang menyentuh kerangka kerja perlindungan data seperti GDPR/CCPA/DSGVO. Karena tidak ada data pengguna yang pernah disertakan untuk tujuan SEO, analisis log server web mentah yang dianonimkan tetap tidak terbebani oleh peraturan hukum yang berpotensi berlaku.

Perlu disebutkan bahwa, sampai batas tertentu, wawasan serupa dimungkinkan berdasarkan statistik Perayapan Google Search Console. Namun, sampel ini terbatas dalam volume dan rentang waktu yang dicakup. Tidak seperti Google Search Console dengan datanya yang hanya mencerminkan beberapa bulan terakhir, ini adalah file log server eksklusif yang memberikan gambaran besar yang jelas yang menguraikan tren SEO jangka panjang.

Data berharga dalam log server

Setiap kali bot meminta halaman yang dihosting di server, instance log dibuat untuk merekam sejumlah titik data, termasuk:

  • Alamat IP dari klien yang meminta.
  • Waktu permintaan yang tepat, sering kali didasarkan pada jam internal server.
  • URL yang diminta.
  • HTTP digunakan untuk permintaan.
  • Kode status respons dikembalikan (misalnya, 200, 301, 404, 500 atau lainnya).
  • String agen pengguna dari entitas yang meminta (misalnya, nama bot mesin telusur seperti Googlebot/2.1).

Contoh catatan log server tipikal mungkin terlihat seperti ini:

150.174.193.196 - - [15/Dec/2021:11:25:14 +0100] "GET /index.html HTTP/1.0" 200 1050 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)" "www.example.ai"

Dalam contoh ini:

  • 150.174.193.196 adalah IP dari entitas yang meminta.
  • [15/Dec/2021:11:25:14 +0100] adalah zona waktu serta waktu permintaan.
  • "GET /index.html HTTP/1.0" adalah metode HTTP yang digunakan (GET), file yang diminta (index.html) dan versi protokol HTTP yang digunakan.
  • 200 adalah respons kode status HTTP server yang dikembalikan.
  • 1050 adalah ukuran byte dari respons server.
  • "Googlebot/2.1 (+http://www.google.com/bot.html)" adalah agen pengguna dari entitas yang meminta.
  • "www.example.ai" adalah URL rujukan.

Cara menggunakan log server

Dari perspektif SEO, ada tiga alasan utama mengapa log server web memberikan wawasan yang tak tertandingi:

  1. Membantu menyaring lalu lintas bot yang tidak diinginkan tanpa signifikansi SEO dari lalu lintas bot mesin pencari yang diinginkan yang berasal dari bot yang sah seperti Googlebot, Bingbot atau YandexBot.
  2. Memberikan wawasan SEO tentang prioritas perayapan dan dengan demikian memungkinkan tim SEO dengan kesempatan untuk secara proaktif mengubah dan menyempurnakan manajemen anggaran perayapan mereka.
  3. Memungkinkan untuk memantau dan memberikan rekam jejak tanggapan server yang dikirim ke mesin pencari.

Bot mesin pencari palsu dapat mengganggu, tetapi jarang mempengaruhi situs web. Ada sejumlah penyedia layanan khusus seperti Cloudflare dan AWS Shield yang dapat membantu mengelola lalu lintas bot yang tidak diinginkan. Dalam proses menganalisis log server web, bot mesin telusur palsu cenderung memainkan peran bawahan.

Untuk mengukur secara akurat bagian mana dari situs web yang diprioritaskan selain mesin pencari utama, lalu lintas bot harus difilter saat melakukan analisis log. Bergantung pada pasar yang ditargetkan, fokusnya bisa pada bot mesin pencari seperti Google, Apple, Bing, Yandex, atau lainnya.

Khusus untuk situs web di mana kesegaran konten adalah kuncinya, seberapa sering situs tersebut dirayapi ulang dapat sangat memengaruhi kegunaannya bagi pengguna. Dengan kata lain, jika perubahan konten tidak diambil dengan cukup cepat, sinyal pengalaman pengguna dan peringkat pencarian organik tidak mungkin mencapai potensi penuhnya.

Grafik dengan tiga logo mesin telusur, yang mewakili perayap web masing-masing.
Hanya melalui pemfilteran log server, lalu lintas bot mesin telusur yang relevan dapat diukur secara akurat.

Meskipun Google cenderung untuk merayapi semua informasi yang tersedia dan merayapi ulang pola URL yang sudah diketahui secara teratur, sumber daya perayapannya tidak terbatas. Itu sebabnya, untuk situs web besar yang terdiri dari ratusan ribu halaman arahan, siklus perayapan ulang bergantung pada algoritme alokasi prioritas perayapan Google.

Alokasi tersebut dapat dirangsang secara positif dengan layanan web up-time yang andal dan sangat responsif, dioptimalkan secara khusus untuk pengalaman yang cepat. Langkah-langkah ini saja sudah kondusif untuk SEO. Namun, hanya dengan menganalisis log server lengkap yang mencakup periode waktu yang lama, dimungkinkan untuk mengidentifikasi tingkat tumpang tindih antara volume total semua halaman arahan yang dapat dirayapi, jumlah halaman arahan SEO yang relevan, dioptimalkan, dan dapat diindeks biasanya lebih kecil yang diwakili dalam peta situs dan apa yang secara teratur diprioritaskan oleh Google untuk perayapan, pengindeksan, dan peringkat.

Analisis log seperti itu sebagai bagian integral dari audit SEO teknis dan satu-satunya metode untuk mengungkap tingkat pemborosan anggaran perayapan. Dan apakah pemfilteran yang dapat dirayapi, placeholder atau halaman konten ramping, server pementasan terbuka atau bagian usang lainnya dari situs web terus merusak perayapan dan akhirnya peringkat. Dalam keadaan tertentu, seperti migrasi terencana, khususnya wawasan yang diperoleh melalui audit SEO, termasuk analisis log server, yang sering membuat perbedaan antara keberhasilan dan kegagalan migrasi.

Selain itu, analisis log menawarkan wawasan SEO kritis situs web besar. Ini dapat memberikan jawaban berapa lama Google perlu meng-crawl ulang seluruh situs web . Jika jawaban itu ternyata sangat panjang — berbulan-bulan atau lebih lama — tindakan mungkin diperlukan untuk memastikan halaman arahan SEO yang dapat diindeks dirayapi. Jika tidak, ada risiko besar bahwa setiap peningkatan SEO ke situs web tidak diketahui oleh mesin pencari selama berbulan-bulan setelah rilis, yang pada gilirannya merupakan resep untuk peringkat yang buruk.

Diagram Venn tiga bagian menunjukkan tumpang tindih antara apa yang dirayapi google, peta situs XML Anda, dan halaman arahan SEO Anda.
Tingkat tumpang tindih yang tinggi antara halaman arahan SEO yang dapat diindeks dan apa yang dirayapi Google secara teratur adalah KPI SEO yang positif.

Respons server sangat penting untuk visibilitas Google Penelusuran yang luar biasa. Meskipun Google Search Console memang menawarkan gambaran penting tentang respons server terbaru, data apa pun yang ditawarkan Google Search Console kepada operator situs web harus dianggap sebagai sampel yang representatif, namun terbatas. Meskipun ini dapat berguna untuk mengidentifikasi masalah yang serius, dengan analisis log server, Anda dapat menganalisis dan mengidentifikasi semua respons HTTP, termasuk respons OK non-200 yang relevan secara kuantitatif yang dapat membahayakan peringkat. Kemungkinan tanggapan alternatif dapat menjadi indikasi masalah kinerja (misalnya, waktu henti terjadwal 503 Layanan Tidak Tersedia) jika berlebihan.

Grafik abstrak yang menunjukkan 503 dan 200 kode status.
Respons server OK non-200 yang berlebihan berdampak negatif pada visibilitas penelusuran organik.

Di mana untuk memulai?

Terlepas dari potensi yang ditawarkan analisis log server, sebagian besar operator situs web tidak memanfaatkan peluang yang disajikan. Log server tidak direkam sama sekali atau sering ditimpa atau tidak lengkap. Sebagian besar situs web tidak menyimpan data log server untuk jangka waktu yang berarti. Ini adalah kabar baik bagi setiap operator yang bersedia, tidak seperti pesaing mereka, mengumpulkan dan memanfaatkan file log server untuk pengoptimalan mesin telusur.

Saat merencanakan pengumpulan data log server, perlu diperhatikan bidang data mana yang minimal harus disimpan dalam file log server agar data dapat digunakan. Daftar berikut dapat dianggap sebagai pedoman:

  • alamat IP jarak jauh dari entitas yang meminta.
  • string agen pengguna dari entitas yang meminta.
  • skema permintaan (misalnya, apakah permintaan HTTP untuk http atau https atau wss atau yang lainnya).
  • meminta nama host (misalnya, subdomain atau domain mana yang menjadi permintaan HTTP).
  • jalur permintaan, seringkali ini adalah jalur file di server sebagai URL relatif.
  • parameter permintaan, yang dapat menjadi bagian dari jalur permintaan.
  • meminta waktu, termasuk tanggal, waktu, dan zona waktu.
  • metode permintaan.
  • respon kode status http.
  • waktu respons.

Jika jalur permintaan adalah URL relatif, bidang yang sering diabaikan dalam file log server adalah rekaman nama host dan skema permintaan. Inilah sebabnya mengapa penting untuk memeriksa dengan departemen TI Anda jika jalur permintaan adalah URL relatif sehingga nama host dan skema juga dicatat dalam file log server. Solusi mudahnya adalah dengan merekam seluruh URL permintaan sebagai satu bidang, yang mencakup skema, nama host, jalur, dan parameter dalam satu string.

Saat mengumpulkan file log server, penting juga untuk menyertakan log yang berasal dari CDN dan layanan pihak ketiga lainnya yang mungkin digunakan situs web. Periksa dengan layanan pihak ketiga ini tentang cara mengekstrak dan menyimpan file log secara teratur.

Mengatasi hambatan untuk analisis log server

Seringkali, dua kendala utama diajukan untuk mengatasi kebutuhan mendesak untuk menyimpan data log server: masalah biaya dan hukum. Sementara kedua faktor tersebut pada akhirnya ditentukan oleh keadaan individu, seperti penganggaran dan yurisdiksi hukum, keduanya tidak harus menjadi penghalang jalan yang serius.

Penyimpanan cloud dapat menjadi opsi jangka panjang dan penyimpanan perangkat keras fisik juga cenderung membatasi biaya. Dengan harga eceran untuk hard drive sekitar 20 TB di bawah $600 USD, biaya perangkat keras dapat diabaikan. Mengingat bahwa harga perangkat keras penyimpanan telah menurun selama bertahun-tahun, pada akhirnya biaya penyimpanan tidak mungkin menjadi tantangan serius bagi perekaman log server.

Selain itu, akan ada biaya yang terkait dengan perangkat lunak analisis log atau dengan penyedia audit SEO yang memberikan layanan. Meskipun biaya ini harus diperhitungkan dalam anggaran, sekali lagi mudah untuk membenarkannya berdasarkan keuntungan yang ditawarkan oleh analisis log server.

Meskipun artikel ini dimaksudkan untuk menguraikan manfaat yang melekat dari analisis log server untuk SEO, artikel ini tidak boleh dianggap sebagai rekomendasi hukum. Nasihat hukum tersebut hanya dapat diberikan oleh seorang pengacara yang memenuhi syarat dalam konteks kerangka hukum dan yurisdiksi yang relevan. Sejumlah undang-undang dan peraturan seperti GDPR/CCPA/DSGVO dapat diterapkan dalam konteks ini. Terutama ketika beroperasi dari UE, privasi menjadi perhatian utama. Namun, untuk tujuan analisis log server untuk SEO, semua data terkait pengguna tidak relevan. Catatan apa pun yang tidak dapat diverifikasi secara meyakinkan berdasarkan alamat IP harus diabaikan.

Berkenaan dengan masalah privasi, data log apa pun yang tidak memvalidasi dan bukan bot mesin pencari yang dikonfirmasi tidak boleh digunakan dan sebagai gantinya dapat dihapus atau dianonimkan setelah jangka waktu tertentu berdasarkan rekomendasi hukum yang relevan. Pendekatan yang dicoba dan diuji ini diterapkan oleh beberapa operator situs web terbesar secara teratur.

Kapan harus memulai?

Pertanyaan utama yang tersisa adalah kapan harus mulai mengumpulkan data log server. Jawabannya adalah sekarang!

Data log server hanya dapat diterapkan dengan cara yang berarti dan mengarah pada saran yang dapat ditindaklanjuti jika tersedia dalam volume yang memadai. Massa kritis kegunaan log server untuk audit SEO biasanya berkisar antara enam dan tiga puluh enam bulan, tergantung pada seberapa besar situs web dan sinyal prioritas perayapannya.

Penting untuk dicatat bahwa log server yang tidak direkam tidak dapat diperoleh pada tahap selanjutnya. Kemungkinannya adalah bahwa segala upaya untuk mempertahankan dan melestarikan log server yang dimulai hari ini akan membuahkan hasil pada awal tahun berikutnya. Oleh karena itu, pengumpulan data log server harus dimulai sedini mungkin dan terus berlanjut tanpa gangguan selama situs web beroperasi dan bertujuan untuk berkinerja baik dalam pencarian organik.


Pendapat yang diungkapkan dalam artikel ini adalah dari penulis tamu dan belum tentu Search Engine Land. Penulis staf tercantum di sini.