البحث الدلالي مع المتجهات

نشرت: 2022-11-01

إذا كنت تتابع آخر الأخبار في البحث ، فمن المحتمل أنك سمعت عن البحث المتجه.

وربما تكون قد بدأت في البحث في الموضوع لمحاولة معرفة المزيد عنه ، فقط لتخرج من الطرف الآخر مرتبكًا. ألم تترك هذه الرياضيات مرة أخرى في الكلية؟

بناء البحث المتجه صعب. فهم الأمر لا يجب أن يكون كذلك.

وفهم أن البحث المتجه ليس هو المستقبل ، فإن البحث المختلط مهم بنفس القدر.

ما هي النواقل؟

عندما نتحدث عن المتجهات في سياق التعلم الآلي ، فإننا نعني هذا: المتجهات هي مجموعات من الأرقام التي تمثل شيئًا ما.

يمكن أن يكون هذا الشيء صورة أو كلمة أو أي شيء تقريبًا.

الأسئلة ، بالطبع ، هي لماذا هذه النواقل مفيدة وكيف يتم إنشاؤها.

لننظر أولاً إلى مصدر هذه المتجهات. الجواب المختصر: التعلم الآلي.

ربما يكون لدى Jay Alammar أفضل منشور مدونة على الإطلاق حول ماهية المتجهات .

كملخص ، على الرغم من ذلك ، تقوم نماذج التعلم الآلي بإدخال العناصر (دعنا نفترض مجرد كلمات من الآن فصاعدًا) ومحاولة اكتشاف أفضل الصيغ للتنبؤ بشيء آخر.

على سبيل المثال ، قد يكون لديك نموذج يأخذ كلمة "نحلة" ، ويحاول اكتشاف أفضل الصيغ التي ستتنبأ بدقة بأن "النحل" يُنظر إليه في سياقات مماثلة مثل "الحشرات" و "الدبابير".

بمجرد أن يحتوي هذا النموذج على أفضل صيغة ، يمكنه تحويل كلمة "نحلة" إلى مجموعة من الأرقام التي تتشابه تمامًا مع مجموعة أرقام "الحشرات" و "الدبابير".

لماذا النواقل قوية

المتجهات قوية حقًا لهذا السبب: نماذج اللغة الكبيرة مثل Generative Pre-المدرب Transformer 3 (GPT-3) أو تلك من Google تأخذ في الاعتبار مليارات الكلمات والجمل ، حتى يتمكنوا من البدء في إنشاء هذه الروابط ويصبحوا أذكياء حقًا.

من السهل أن نفهم سبب تحمس الناس لتطبيق هذه الذكاء في البحث.

حتى أن البعض يقول أن البحث المتجه سيحل محل البحث عن الكلمات الرئيسية التي عرفناها وأحببناها منذ عقود.

ومع ذلك ، فإن الشيء هو أن البحث المتجه لا يحل محل البحث عن الكلمات الرئيسية بالكامل. إن الاعتقاد بأن البحث عن الكلمات الرئيسية لن يحتفظ بقيمة هائلة يضع الكثير من التفاؤل في الجديد واللامع.

لكل من عمليات البحث في المتجهات والبحث بالكلمات الرئيسية نقاط قوتها الخاصة ، وتعمل بشكل أفضل عندما تعمل معًا.

متجه البحث عن استعلامات طويلة الذيل

إذا كنت تعمل في مجال البحث ، فمن المحتمل أن تكون على دراية وثيقة بالذيل الطويل من الاستعلامات.

هذا المفهوم ، الذي شاعه كريس أندرسون لوصف المحتوى الرقمي ، يقول إن هناك بعض العناصر (لاستعلامات البحث) التي تحظى بشعبية أكبر من أي شيء آخر ، ولكن هناك الكثير من العناصر الفردية التي لا يزال شخص ما يريدها.

هذا هو الحال مع البحث.

يتم البحث كثيرًا عن بعض الاستعلامات (تسمى أيضًا استعلامات "الرأس") ، ولكن يتم البحث في الغالبية العظمى من الاستعلامات قليلاً جدًا - ربما حتى مرة واحدة فقط.

ستختلف الأرقام من موقع إلى آخر ، ولكن في موقع متوسط ​​، قد يأتي حوالي ثلث إجمالي عمليات البحث من بضع عشرات من الاستعلامات فقط ، بينما يأتي ما يقرب من نصف حجم البحث من الاستعلامات التي تقع خارج 1000 الأكثر شيوعًا.

تميل طلبات البحث الطويلة إلى أن تكون أطول ، وقد تكون استعلامات لغة طبيعية.

أظهر بحث من شركتي Algolia أن 75٪ من طلبات البحث تتكون من كلمتين أو أقل. 90٪ من الاستعلامات تتكون من أربع كلمات أو أقل. ثم ، للوصول إلى 99٪ من الاستفسارات ، تحتاج إلى 13 كلمة!

ومع ذلك ، فهي ليست طويلة دائمًا ، بل يمكن أن تكون غامضة. بالنسبة إلى موقع ويب للأزياء النسائية ، يمكن أن يكون "فستان البنفسجي" استعلامًا طويلاً لأن الناس لا يطلبون هذا اللون كثيرًا. قد يكون "Wristlet" أيضًا استعلامًا نادرًا ما تتم رؤيته ، حتى لو كان موقع الويب يحتوي على أساور للبيع.

بشكل عام ، يعمل البحث المتجه بشكل رائع مع الاستعلامات الطويلة. يمكن أن يفهم أن الأساور تشبه الأساور ، وأن الأساور تظهر على السطح حتى بدون إعداد المرادفات. يمكن أن تظهر فساتين وردية أو أرجوانية عندما يبحث شخص ما عن شيء باللون البنفسجي.

يمكن أن يعمل البحث المتجه جيدًا لتلك الاستعلامات الطويلة أو اللغوية الطبيعية. "شيء ما يحافظ على مشروباتي باردة" سيؤدي إلى ظهور الثلاجات في بحث متجه مضبوط جيدًا ، بينما مع البحث عن الكلمات الرئيسية ، من الأفضل أن تأمل أن يكون النص في مكان ما في وصف المنتج.

بمعنى آخر ، يزيد البحث المتجه من استدعاء نتائج البحث ، أو عدد النتائج التي تم العثور عليها.

كيف يعمل بحث المتجهات

يقوم البحث المتجه بذلك عن طريق أخذ مجموعات الأرقام التي وصفناها أعلاه وجعل محرك البحث المتجه يسأل ، "إذا كنت سأرسم هذه المجموعات من الأرقام كخطوط ، أيهما سيكون الأقرب معًا؟"

طريقة سهلة لتصور هذا هو التفكير في مجموعات تتكون من رقمين فقط. ستكون المجموعة [1،2] أقرب إلى المجموعة [2،2] مما ستكون عليه للمجموعة [2500].

(بالطبع ، نظرًا لأن المتجهات تحتوي على عشرات الأرقام بداخلها ، يتم "رسمها" في عشرات الأبعاد ، وهو أمر ليس من السهل تخيله.)

هذا النهج لتحديد التشابه قوي لأن المتجهات التي تمثل كلمات مثل "طبيب" و "طب" ستكون "رسومية" أكثر تشابهًا بكثير من الكلمات "طبيب" و "روك".

سلبيات ناقلات البحث

ومع ذلك ، هناك جوانب سلبية للبحث المتجه.

الأول هو التكلفة. كل هذا التعلم الآلي الذي ناقشناه أعلاه؟ لها تكاليف.

يعد تخزين المتجهات أكثر تكلفة من تخزين فهرس بحث قائم على الكلمات الرئيسية ، لشيء واحد. البحث في هذه المتجهات يكون أيضًا أبطأ من البحث بالكلمة الرئيسية في معظم الحالات.

الآن ، يمكن للتجزئة التخفيف من هاتين المشكلتين.

نعم ، نحن نقدم المزيد من المفاهيم التقنية ، ولكن هذا مفهوم آخر بسيط إلى حد ما لفهم الأساسيات.

تقوم التجزئة بسلسلة من الخطوات لتحويل جزء من المعلومات (مثل سلسلة أو رقم) إلى رقم ، والذي يشغل ذاكرة أقل من المعلومات الأصلية.

اتضح أنه يمكننا أيضًا استخدام التجزئة لتقليل أحجام المتجهات مع الاستمرار في الحفاظ على ما يجعل المتجهات مفيدة: قدرتها على مطابقة العناصر المتشابهة من الناحية المفاهيمية.

من خلال استخدام التجزئة ، يمكننا جعل عمليات البحث في المتجهات أسرع بكثير وجعل المتجهات تستخدم مساحة أقل بشكل عام.

التفاصيل تقنية للغاية ، ولكن المهم هو فهم أنها ممكنة.

استمرار فائدة البحث بالكلمة المفتاحية

هذا لا يعني أن البحث عن الكلمات الرئيسية لا يزال غير مفيد! البحث عن الكلمات الرئيسية أسرع بشكل عام من البحث المتجه.

بالإضافة إلى ذلك ، من الأسهل فهم سبب ترتيب النتائج على هذا النحو.

خذ مثال طلب البحث "texas" و "tejano" و "state" كمطابقات محتملة للكلمة. من الواضح أن "tejano" أقرب إذا نظرنا إلى المقارنة من منظور بحث بالكلمات الرئيسية فقط. ومع ذلك ، ليس من السهل معرفة أيهما أقرب إلى نهج البحث المتجه.

يتفهم البحث المستند إلى الكلمات الرئيسية "texas" على أنها أكثر تشابهًا مع "tejano" لأنها تستخدم نهجًا نصيًا للعثور على السجلات.

إذا كانت السجلات تحتوي على كلمات مطابقة تمامًا لما هو موجود في الاستعلام (أو ضمن مستوى معين من الاختلاف لحساب الأخطاء الإملائية) ، فسيتم اعتبار السجل ذا صلة ويعود في مجموعات النتائج.

بمعنى آخر ، يركز البحث بالكلمة الأساسية على دقة نتائج البحث ، أو التأكد من أن السجلات التي تعود ذات صلة ، حتى لو كان هناك عدد أقل منها.

البحث عن الكلمات الرئيسية مفيد لطلبات البحث الرئيسية

لهذا السبب ، يؤدي البحث عن الكلمات الرئيسية أداءً جيدًا حقًا لاستعلامات الرأس: تلك الاستعلامات الأكثر شيوعًا.

تميل الاستعلامات الرئيسية إلى أن تكون أقصر ، كما يسهل تحسينها. هذا يعني أنه إذا كانت الكلمة الرئيسية ، لأي سبب من الأسباب ، لا تتطابق مع النص الصحيح داخل السجل ، فغالبًا ما يتم اكتشافها من خلال التحليلات ، ويمكنك إضافة مرادف .

نظرًا لأن البحث عن الكلمات الأساسية يعمل بشكل أفضل مع استعلامات الرأس وأن البحث المتجه يعمل بشكل أفضل مع الاستعلامات الطويلة ، فإن كلاهما يعملان بشكل أفضل في الحفل.

يُعرف هذا بالبحث الهجين.

البحث المختلط هو عندما يستخدم محرك البحث كلاً من الكلمات الرئيسية والبحث المتجه لاستعلام واحد ويقوم بترتيب السجلات بشكل صحيح ، بغض النظر عن طريقة البحث التي جلبتها.

ترتيب السجلات عبر مصادر البحث

ترتيب السجلات التي تأتي من مصدرين مختلفين ليس بالأمر السهل.

كلا النهجين ، بحكم طبيعتهما ، طرق مختلفة لتسجيل السجلات.

سيعود البحث المتجه إلى نتيجة ، في حين أن بعض المحركات القائمة على الكلمات الرئيسية لن تفعل ذلك. حتى إذا كانت المحركات التي تعتمد على الكلمات الرئيسية تعيد النتيجة ، فليس هناك ما يضمن أن النتيجتين متساويتان.

إذا لم تكن الدرجات متكافئة ، فلا يمكنك القول أن النتيجة 0.8 من محرك الكلمات الرئيسية أكثر صلة من درجة 0.79 من محرك المتجه.

قد يكون البديل الآخر هو تشغيل جميع النتائج من خلال تسجيل النقاط إما لمحرك المتجه أو محرك الكلمات الرئيسية.

هذا له فائدة الحصول على استدعاء إضافي من المحرك المتجه ، ولكن له بعض العيوب أيضًا. لن يتم تصنيف تلك النتائج الإضافية التي يتم استرجاعها والتي تأتي من محرك المتجه على أنها ذات صلة من درجة الكلمات الرئيسية ، وإلا لكانت قد ظهرت في مجموعة النتائج بالفعل.

يمكنك بدلاً من ذلك تشغيل جميع النتائج - كلمة رئيسية أو غير ذلك - من خلال تسجيل المتجه ، لكن هذا بطيء ومكلف.

بحث المتجهات باعتباره احتياطيًا

هذا هو السبب في أن بعض محركات البحث لا تحاول حتى دمج الاثنين ، ولكن بدلاً من ذلك ستعرض دائمًا نتائج الكلمات الرئيسية أولاً ، ثم نتائج المتجه ثانيًا.

التفكير هنا هو أنه إذا لم يُرجع البحث أي نتائج أو نتائج قليلة ، فيمكنك الرجوع إلى نتائج المتجه.

تذكر أن البحث المتجه موجه نحو تحسين الاسترجاع أو العثور على المزيد من النتائج ، وبالتالي قد يجد نتائج ذات صلة لم يتم العثور عليها في البحث باستخدام الكلمات الرئيسية.

هذه فجوة مؤقتة جيدة ولكنها ليست مستقبل البحث المختلط الحقيقي.

سيعمل البحث الهجين الحقيقي على ترتيب عدة مصادر بحث مختلفة في نفس مجموعة النتائج عن طريق إنشاء درجة قابلة للمقارنة عبر مصادر مختلفة.

هناك الكثير من الأبحاث حول هذا النهج اليوم ، لكن القليل منهم يفعل ذلك جيدًا ويقدم محركه للجمهور.

فماذا يعني هذا بالنسبة لك؟

في الوقت الحالي ، أفضل شيء يمكنك القيام به هو على الأرجح الجلوس بصرامة والبقاء على اطلاع دائم بما يحدث في الصناعة.

سيأتي البحث المختلط المستند إلى المتجهات والكلمات الرئيسية في السنوات القادمة ، وسيكون متاحًا للأشخاص الذين ليس لديهم فرق علوم البيانات.

في غضون ذلك ، لا يزال البحث عن الكلمات الرئيسية ذا قيمة ولن يتم تحسينه إلا عندما يتم إدخال البحث المتجه لاحقًا.

المزيد من الموارد:

  • البحث الدلالي: كيف يعمل ومن هو
  • كيف تعمل البرمجة اللغوية العصبية و NLU للبحث الدلالي
  • كيف تعمل محركات البحث

الصورة المميزة: pluie_r / Shutterstock