2024208494886170954365459073536587125329324600425355324472245929212525005525530030271027810172575929800065427858557245242200073127892960531555

الاثنين، 29 يونيو 2020

استرجاع البيانات IR حساب درجة التشابة على نموذج المحوري Similarity Measure Vector Space Model - الدرس السابع والأخير



في الدرس السابق تعلمنا كيفيه استخراج درجه القرب بين الوثائق وإستعلام المستخدم على محركات البحث بنموذج الثنائي Binary Model  وهو الذي يقتصر أوزانه على الرقمين (1، 0) فقط.
الأن سوف نستكمل حساب درجة التشابة Similarity على نموذج المحوري الذي تحتوي أوزانه على جميع الأرقام الطبيعية وحسب الجدول في الدرس الرابع خطوه 2 :


علما ان Di هو وزن الكلمة i في الوثيقة بينما Qi هو وزن الكلمة i في الإستعلام  وكلما كانت نتيجة التشابة Similarity قريبة من 1.0 كانت اللإستعلام اقرب لهذه الوثيقة  بينما اذا اقتربت النتيجة من 0.0 تكون بعيده عن الارتباط والتشابة مع الوثيقة  كما في مثال الدرس الخامس:



القانون الأول Inner Product 


وبناءا عليه نقيس نسبه التشابه Similarity نقوم بجمع حاصل وزن الكلمة في الوثيقه * وزنها في الإستعلام  :
وبناءا عليه فإن اقرب وثيقة لإستعلام المستخدم هي الوثيقه رقم 2 ثم الوثيقه رقم 3 ثم الوثيقه رقم 1
0.4884  ˃ 0.0648 ˃ 0.0324

القانون الثاني Cosine

نقوم ايضا بحساب نسبه التشابة بين كل من الوثائق والإستعلام عن طريق القانون:
بالتالي علينا ان نوجد Inner في المقام ثم في البسط نقوم بايجاد المجموع التربيعي لأوزان الكلمات في كل من الوثيقه والإستعلام ونقوم بضرب النتيجة تحت الجذر ومثال ذلك:

القانون الثالث Dice

نقوم ايضا بحساب نسبه التشابة بين كل من الوثائق والإستعلام كما عن طريق القانون:


بالتالي علينا ان نوجد Inner في المقام ونضربه في 2 ثم في البسط نقوم بايجاد المجموع التربيعي لأوزان الكلمات في كل من الوثيقه والإستعلام ونقوم بعملية الجمع ومثال ذلك:


القانون الرابع Jaccard

نقوم ايضا بحساب نسبة التشابة بين كل من الوثائق والإستعلام عن طريق القانون:
بالتالي علينا ان نوجد Inner في المقام ثم في البسط نقوم بايجاد المجموع التربيعي لأوزان الكلمات في كل من الوثيقة والإستعلام ونقوم بعملية الجمع ثم طرح Inner مره اخرى ومثال ذلك:
بالطبع يمكننا اختيار اي من هذه القوانين الأربعة لحساب التشابه Similarity بين جميع الوثائق الموجوده في محرك البحث والإستعلام الذي قام المستخدم بطلبه 
فمثلا إذا قررت ان تستخدم القانون الثالث Dice عليك ان تحتسب لكل من الوثيقة الاولى والثانية والثالثة ثم تقارن أيهم كان الأكبر فسيكون ترتيبه الأول ثم يليه الأقل فالأقل.

هذه نبذه عن اّلية عمل محركات البحث التي تحوي بلاين الوثائق وكيفية مقربتها مع إستعلام البحاث عن موضوع معين وكيفيه ترتيب الموقع أو الوثائق بناءا على درجة قربها من طلب الباحث.
ولن ننسى ان هناك تفاصيل أخرى مثل المواقع التي تقوم بالدفع لمحركات البحث لحصولها على ترتيب اعلى وما الى ذلك من مستجدات تطوير محركات البحث لكن الثابت هنا في هذا العلم هو الخوازميات والنماذج الأساسية التي يقوم عليها علم استرجاع المعلومات Information Retrieval.

اشكركم على وقتكم الذي خصصتموه لهذه الدورة والى لقاء اخر في دورة جديدة في عالم الحوسبة على موقعكم رعد التقني ... بالتوفيق





----------------------------------------------------------------------------------------------------------------------------------------- -----------------------------------------------------------------------------------------------------------------------------------------

كافة الحقوق محفوظة لـ مدونة رعد: لإثراء المعرفة التقنية 2019