Robots.txt لـ SEO (أساسيات تحسين محركات البحث)

نشرت: 2022-04-09
Robots.txt لتحسين محركات البحث


ملفات Robots.txt هي عناصر على مواقع الويب الخاصة بك لا تريد التخلص منها. أنها تسمح وتحظر دخول زوار الروبوت غير المرغوب فيهم الذين يحاولون "التطفل" من خلال محتوى موقع الويب الخاص بك.

هذه طريقة بسيطة إلى حد ما لتعريف ملفات robots.txt.

في هذا المنشور ، سأدخل إلى ملف robots.txt لأساسيات تحسين محركات البحث .

ستعرف:
  • متى يجب عليك استخدامها
  • كيفية تنفيذها
  • يجب تجنب الأخطاء

الروبوتات التي تستخدمها محركات البحث هي عناكب تزحف إلى الويب لفهرسة محتوى موقع الويب من جميع أنحاء الإنترنت. تتيح هذه المعلومات لمحركات البحث التعرف على المحتوى الموجود على صفحات الويب بحيث يمكن استردادها عند الحاجة.

بمجرد فهمك لعملية الزحف على الويب ، ستفهم أيضًا سبب فائدة ملفات robots.txt لموقعك على الويب. إنهم هنا لحمايتك من الزوار المتلصصين. سوف يعطون فقط المعلومات التي ترغب في إظهارها حول موقعك.

لفهم ملفات robots.txt بشكل أفضل ، دعنا نلقي نظرة فاحصة على ماهيتها وكيفية اندماجها جميعًا معًا.





ما المقصود بملفات Robots.txt؟



ملف robots.txt. الملفات ، المعروفة أيضًا باسم بروتوكول استبعاد الروبوتات ، هي ملفات تقرأها محركات البحث وتحتوي على قواعد بشأن منح أو رفض الوصول إلى كل أو أجزاء معينة من موقع الويب الخاص بك. ترسل محركات البحث مثل Google أو Bing برامج زحف الويب للوصول إلى موقع الويب الخاص بك وجمع المعلومات التي يمكنهم استخدامها حتى يظهر المحتوى الخاص بك في نتائج البحث.

لتصور كيفية عمل ملفات robot.txt ، حاول تخيل برامج الروبوت أو العناكب الصغيرة التي تزحف عبر موقع الويب الخاص بك بحثًا عن المعلومات. فكر في أفلام الخيال العلمي تلك عندما يزحف مليون عنكبوت آلي إلى المكان ويتطفل حوله للعثور حتى على أدنى دليل ممكن على وجود المحتال.

عبر GIPHY

تُستخدم هذه الملفات النصية البسيطة لتحسين محركات البحث عن طريق إصدار أوامر لمحركات البحث لفهرسة برامج الروبوت التي قد يتم الزحف إليها أو لا يتم الزحف إليها. تُستخدم ملفات Robots.txt بشكل أساسي لإدارة ميزانية برامج زحف الويب وتكون مفيدة عندما لا ترغب في وصول برامج الزحف هذه إلى جزء من موقعك.

ملف robots.txt. تعتبر الملفات مهمة جدًا لأنها تتيح لمحركات البحث معرفة المكان الذي يُسمح لها بالزحف إليه. في الأساس ، ما يفعلونه هو حظر موقع الويب الخاص بك جزئيًا أو كليًا ، أو يقومون بفهرسة موقع الويب الخاص بك. بمعنى آخر ، إنها طريقة للسماح لمحركات البحث باكتشاف موقع الويب الخاص بك.





عملية الزحف في العمل



تُعرف عملية الزحف إلى مواقع الويب بحثًا عن المحتوى باسم spidering. تتمثل المهمة الرئيسية لمحركات البحث في الزحف إلى الويب لاكتشاف المحتوى وفهرسته باتباع ملايين الروابط. عندما يصل الروبوت إلى موقع ما ، فإن أول شيء يفعله هو البحث عن ملفات robots.txt للحصول على معلومات حول مقدار "التطفل" الذي يمكنه القيام به.

تلتزم محركات البحث بالقواعد المحددة في ملفات robots.txt الخاصة بك. إذا لم يكن هناك ملف robot.txt أو إذا لم يكن للموقع أي نشاط محظور ، فستقوم برامج الروبوت بالزحف إلى جميع المعلومات. ومع ذلك ، فإن بعض محركات البحث مثل Google لا تدعم جميع التوجيهات المقدمة وسنقوم بتوضيح ذلك بشكل أكبر.





لماذا نستخدم ملفات Robots.txt؟



تسمح ملفات Robots.txt لمواقع الويب بالقيام بعدة أشياء مثل:
  • منع الوصول إلى الموقع بأكمله
  • منع الوصول إلى جزء من الموقع
  • منع الوصول إلى عنوان URL واحد أو معلمات URL محددة
  • منع الوصول إلى دليل كامل
  • يسمح بإعداد أحرف البدل

تتحكم ملفات Robots.txt في نشاط الزاحف على موقعك من خلال السماح لهم بالوصول إلى مناطق معينة. هناك دائمًا أسباب لعدم منح Google أو محركات البحث الأخرى حق الوصول إلى أجزاء معينة من موقع الويب الخاص بك. قد يكون أحدها أنك لا تزال تطور موقع الويب الخاص بك أو ترغب في حماية المعلومات السرية.

على الرغم من أن مواقع الويب يمكن أن تعمل بدون ملف robots.txt ، فمن المهم تذكر بعض فوائد استخدامها:
  • منع محركات البحث من الزحف عبر المجلدات الخاصة أو المجالات الفرعية
  • امنع الزحف إلى المحتوى المكرر وزيارة الصفحات التي تعتبرها غير مهمة
  • منع فهرسة بعض الصور على موقعك
  • منع وإدارة التحميل الزائد للخادم
  • منع تباطؤ الموقع


لاحظ أن إخبار برامج الروبوت بعدم الزحف إلى صفحة لا يعني أنها لن تتم فهرستها. سيظهر عنوان URL في محرك البحث ، لكنه سيظهر بدون وصف تعريفي.





كيفية البحث عن ملفات Robots.txt وإنشاؤها واختبارها؟



يوجد ملف robots.txt دائمًا في مجال جذر موقع الويب. على سبيل المثال ، يمكنك العثور عليه على هذا النحو https://www.example.com/robots.txt. إذا كنت ترغب في تعديله ، يمكنك الوصول إلى مدير الملفات في لوحة التحكم الخاصة بالمضيف.

إذا لم يكن موقع الويب الخاص بك يحتوي على ملف robots.txt ، فإن إنشاء واحد يكون بسيطًا إلى حد ما لأنه ملف نصي أساسي تم إنشاؤه في محرر نصي. ما عليك سوى فتح مستند .txt فارغ وإدخال توجيهاتك. عند الانتهاء ، ما عليك سوى حفظ الملف باسم "robots.txt" ويوجد لديك.

إذا كنت ترتكب الكثير من الأخطاء في الكتابة بشكل عام ، فربما يكون من الحكمة استخدام منشئ robots.txt لتجنب كوارث تحسين محركات البحث وتقليل أخطاء بناء الجملة. تذكر أنه حتى أدنى خطأ مفقود أو إضافة حرف أو رقم واحد يمكن أن يسبب مشكلة.

بمجرد إنشاء ملف robots.txt ، ضعه في دليل جذر المجال المناسب. تأكد من اختبار الملف قبل البث المباشر للتأكد من صلاحيته. للقيام بذلك ، تحتاج إلى الانتقال إلى صفحة دعم Google والنقر فوق الزر "فتح اختبار ملف robots.txt". للأسف ، لا يتوفر خيار الاختبار هذا إلا في الإصدار القديم من Google Search Console.

حدد الخاصية التي ترغب في اختبارها ، وقم بإزالة أي شيء قد يكون في المربع ، والصق ملف robots.txt الخاص بك. إذا تلقى ملفك الموافقة ، فهذا يعني أنه لديك ملف robots.txt يعمل بكامل طاقته. إذا لم يكن الأمر كذلك ، فأنت بحاجة إلى العودة والبحث عن الخطأ.





تنفيذ توجيهات الزحف



يتكون كل ملف robots.txt من توجيهات ، مما يمنح محركات البحث إمكانية الوصول إلى المعلومات. يبدأ كل توجيه بتحديد وكيل المستخدم ثم تعيين القواعد لوكيل المستخدم هذا. أدناه قمنا بتجميع قائمتين ؛ يحتوي أحدهما على توجيهات مدعومة والأخرى غير مدعومة من قبل وكلاء المستخدم.



التوجيهات المدعومة



  • وكيل المستخدم - توجيه يستخدم لاستهداف روبوتات معينة. تبحث محركات البحث عن وكلاء المستخدم والكتل التي تنطبق عليهم. كل محرك بحث له علامة وكيل مستخدم. نظرًا لحساسية حالة الأحرف ، تأكد من إدخال الشكل الصحيح لوكلاء المستخدم.
    علي سبيل المثال:
    وكيل المستخدم: Googlebot
    وكيل المستخدم: Bingbot

    • عدم السماح - استخدم هذا التوجيه إذا كنت تريد منع محركات البحث من الزحف إلى مناطق معينة من موقع الويب. يمكنك القيام بما يلي:
    منع الوصول إلى الدليل ككل لجميع وكلاء المستخدم:
    وكيل المستخدم: *
    عدم السماح: /
    حظر دليل معين على وجه الخصوص لجميع وكلاء المستخدم
    وكيل المستخدم: *
    Disallow: / المحفظة
    حظر الوصول إلى PDF أو أي ملفات أخرى لجميع وكلاء المستخدم. فقط استخدم امتداد الملف المناسب.
    وكيل المستخدم: *
    Disallow: * .pdf $

    • سماح - يسمح هذا التوجيه لمحركات البحث بالزحف إلى الصفحة أو الدليل. ملاحظة جيدة يجب تذكرها وهي أنه يمكنك تجاوز أمر غير مسموح به. لنفترض أنك لا تريد أن تزحف محركات البحث إلى دليل محفظة ، لكنك ستسمح لها بالوصول إلى دليل محدد.
    وكيل المستخدم: *
    Disallow: / المحفظة
    سماح: / حافظة / سمح-حافظة

    • خريطة الموقع - يؤدي إعطاء محركات البحث إلى موقع خريطة الموقع إلى تسهيل الزحف إليها.



    التوجيهات غير المدعومة



    • تأخير الزحف - يعد هذا توجيهًا جيدًا لاستخدامه عندما تريد أن تبطئ الروبوتات وتتأخر بين عمليات الزحف حتى لا تربك الخوادم الخاصة بك. هذا التوجيه مفيد جدًا للمواقع الصغيرة بدلاً من المواقع الكبيرة. لاحظ فقط أن توجيه تأخير الزحف لم يعد مدعومًا من قبل Google و Baidu ، لكن Yandex و Bing لا يزالان يدعمانه.
    • Noindex - توجيه يستخدم لاستبعاد موقع ويب أو ملف من محركات البحث. لم يتم دعم هذا الأمر من قبل Google. لذلك ، إذا كنت ترغب في تجنب محركات البحث ، فأنت بحاجة إلى استخدام رأس x-robots HTTP أو روبوتات العلامات الوصفية.
    • Nofollow - توجيه آخر لم يدعمه Google مطلقًا ويستخدم لإصدار أمر لمحركات البحث بعدم اتباع الروابط الموجودة على الصفحات. استخدم رأس x-robots أو روبوتات العلامات الوصفية لاستخدام التوجيه nofollow على جميع الروابط.
    • توجيه المضيف - يُستخدم لتحديد ما إذا كنت ترغب في إظهار www. قبل عنوان URL ( example.com أو www.example.com ). هذا التوجيه مدعوم حاليًا بواسطة Yandex فقط ، لذا يُنصح بعدم الاعتماد عليه.



    استخدام أحرف البدل



    أحرف البدل هي أحرف تُستخدم لتبسيط تعليمات ملف robots.txt. يمكن استخدام أحرف البدل لمعالجة وتطبيق التوجيهات على جميع وكلاء المستخدم أو لمعالجة وكلاء مستخدم معينين بشكل فردي. فيما يلي أحرف البدل شائعة الاستخدام:

    • Asterix (*) - في التعليمات ، يتوافق مع "تنطبق على جميع وكلاء المستخدم". ويمكن استخدامه أيضًا للتوافق مع "أنماط عنوان URL المطابقة أو أي تسلسل من الأحرف". إذا كانت لديك عناوين URL تتبع نفس النمط ، فهذا سيجعل حياتك أسهل كثيرًا.
    • علامة الدولار ($) - تُستخدم لتحديد نهاية عنوان URL.

    دعونا نرى كيف سيبدو هذا في مثال. إذا قررت أن جميع محركات البحث يجب ألا يكون لديها وصول إلى ملفات PDF الخاصة بك ، فيجب أن يبدو ملف robots.txt على النحو التالي:
    وكيل المستخدم: *
    Disallow: /*.pdf$

    لذلك لن يمكن الوصول إلى عناوين URL التي تنتهي بـ pdf. لكن لاحظ أنه إذا كان عنوان URL الخاص بك يحتوي على نص إضافي بعد انتهاء .pdf ، فسيكون عنوان URL هذا يمكن الوصول إليه. وبالتالي ، عند كتابة ملفات robots.txt الخاصة بك ، تأكد من مراعاة جميع الجوانب.





    يجب تجنب الأخطاء



    يعد استخدام ملفات robot.txt مفيدًا وهناك العديد من الطرق لتشغيلها. ولكن دعونا نتعمق أكثر ونستعرض الأخطاء التي يجب تجنبها عند استخدام ملف robots.txt.

    الفوائد هائلة ، ولكن هناك أيضًا الكثير من الضرر الذي قد يحدث إذا لم يتم استخدام ملفات robot.txt بالطريقة الصحيحة.

    • سطر جديد - استخدم سطرًا جديدًا لكل توجيه حتى لا تربك محركات البحث
    • انتبه لحساسية حالة الأحرف - أنشئ ملفات robots.txt بشكل صحيح لأنها حساسة لحالة الأحرف. انتبه جيدًا لهذا وإلا فلن يعملوا
    • تجنب حظر المحتوى - تأكد من تجاوز علامات disallow و noindex عدة مرات لأنها قد تضر بنتائج تحسين محركات البحث. احرص على عدم حظر المحتوى الجيد الذي يجب تقديمه للجمهور
    • حماية البيانات الخاصة - لتأمين المعلومات الخاصة ، من الحكمة أن تطلب من الزائرين تسجيل الدخول. وبهذه الطريقة ستتأكد من أن ملفات PDF أو الملفات الأخرى ستكون آمنة
    • الإفراط في استخدام تأخير الزحف - قليل من النصائح الجيدة هي عدم الإفراط في استخدام أي توجيه ، لا سيما تأخير الزحف. إذا كنت تدير موقعًا إلكترونيًا كبيرًا ، فقد يؤدي استخدام هذا التوجيه إلى نتائج عكسية. ستحد من زحف الروبوتات إلى الحد الأقصى لعدد عناوين URL في اليوم ، وهو أمر غير مستحسن.



    محتوى مكرر



    هناك عدة أسباب وراء احتواء موقعك على محتوى مكرر. قد تكون نسخة قابلة للطباعة ، أو صفحة يمكن الوصول إليها من عناوين URL متعددة ، أو صفحات مختلفة لها محتوى مشابه. محركات البحث غير قادرة على التعرف على ما إذا كانت هذه نسخة مكررة أم لا.

    في مثل هذه الحالات ، يحتاج المستخدم إلى تمييز عنوان URL على أنه أساسي. تُستخدم هذه العلامة لإعلام محرك البحث بالموقع الأصلي للنسخة المكررة. إذا لم يقم المستخدم بذلك ، فسيختار وكيل المستخدم أيهما أساسي ، أو ما هو أسوأ ، فقد يصنف كلا المحتوىين على أنهما أساسي. هناك طريقة أخرى لتجنب ذلك وهي إعادة كتابة المحتوى.





    دع مؤشر العيون الزاحفة



    عندما تقوم محركات البحث بالزحف على الويب أو تجسس موقع الويب الخاص بك ، فإنها تمر عبر كل المحتوى الموجود على موقع الويب لفهرسته. تسمح هذه العملية لمواقع الويب التي تم الزحف إليها بالظهور في قسم النتائج بمحركات البحث.

    باستخدام ملف robots.txt ، فأنت تخبر محركات البحث بالأماكن التي لديها حق الوصول أو التي لا يمكنها الوصول إليها. أنت تقيدهم بشكل أساسي من خلال وضع القواعد المناسبة. يعد استخدام ملف robots.txt بسيطًا ومفيدًا إلى حد ما. بمجرد أن تتعلم قواعد تعيين التوجيهات ، فهناك العديد من الأشياء التي يمكنك القيام بها مع موقع الويب الخاص بك.

    يوصى بمراقبة ملفات robots.txt الخاصة بك للتأكد من إعدادها بشكل صحيح وعملها كمشفرة. إذا لاحظت أي عطل ، فتفاعل بسرعة لتجنب الكوارث.

    اعتبر ملفات robots.txt أداة أساسية للتحكم بنجاح في فهرسة موقع الويب الخاص بك.