في الدرس السابق شرحنا قوانين حساب الاوزان في نموذج Vector Space Model وكيفيه معرفه وزن الكلمات داخل الوثائق
وكذلك الإستعلام Query الان سوف نتعلم كيفيه عمل مقارنات بين درجه تقارب الكلمة في الإستعلام
والوثائق الموجوده على محرك البحث لمعرفه ما هي الوثيقه الأقرب لطلب المستخدم الإستعلام
Query وهذا ما يسمى وحدات قياس
التشابه Similarity
Measure فإذن وحدات قياس التشابه هي اقترانات رياضية تحسب درجة التشابه بين محورين هما (الوثائق والاستعلام الذي طلبه المستخدم) سواء
كانت الاوزان محتسبه بنموذج الثنائي Binary Model كما في الدرس الثالث أو
نموذج المحوري Vector
Space Model.
هنالك اربع طرق لحساب درجة التشابه
للنموذجين يمكنك اختيار منهم وهي :
1-
Inner Product
2-
Cosine
3-
Jaccard
4-
Dice
وتتلخص قوانينها للنموذجين الثنائي والمحوري في الجدول التالي:
راجع الدرس الرابع خطوه رقم 2
حيث أن :
القيمه المطلقه لـ X هي عدد الكلمات في الوثيقة
والقيمه المطلقه لـY هي عدد الكلمات في الاستعلام
اما تقاطعهما شرط وجود الكلمة في كل من الوثيقة والإستعلام كما هو موضح في المثال التالي:
الوثيقه الاولى X1: ( لعب، رياضة، كرة القدم، سباحة، جامعة،خاصة)
الوثيقه الثانية X2 : (وزارة)
الإستعلام Y : (لعب، كرة قدم، خاصة،وزارة)
حسب الدرس الثاني ستكون الاوزان في نموذج Binary Model الكلمة ان وجدت في الوثيقه يكون وزنها 1 وإن لم تكن موجوده يكون وزنها 0 لان نموذج Binary لا يحتوي الا رقمين للاوزان هي 0 و 1 كما هو موضح وكذلك الحال في الإستعلام اما في حاله التقاطع فيجب ان يكون وزنها في كل من الوثيقة والإستعلام يساوي 1 لتاخذ الوزن 1 غير ذلك فسيكون وزنها يساوي 0 كما هو موضح في الجدول التالي:
وبالتالي عند حساب على قوانين Similarity Measure
فأن :
بالتالي درجه قرب الوثيقه الأولى من الإستعلام أكبر من الوثيقة الثانية لنكمل بقيه القوانين لحساب درجة قرب الوثيقة الاولى مع الإستعلام:
هكذا نكون قد انهينا القسم الاولى من الجدول:
وفي الدرس التالي سوف نستكمل بقية حسابات
درجة التشابه بين الوثائق وإستعلام المستخدم لكن باستخدام أوزان طبيعية على نموذج
المحوري Vector
Space Model.