2024208494886170954365459073536587125329324600425355324472245929212525005525530030271027810172575929800065427858557245242200073127892960531555

الجمعة، 26 يونيو 2020

استرجاع البيانات IR حساب درجة التشابة على نموذج الثنائي Similarity Measure Binary Model - الدرس السادس

 حساب درجة التشابة على نموذج الثنائي Similarity Measure Binary Model - الدرس السادس

في الدرس السابق شرحنا قوانين حساب الاوزان في نموذج  Vector Space Model وكيفيه معرفه وزن الكلمات داخل الوثائق وكذلك الإستعلام Query الان سوف نتعلم كيفيه عمل مقارنات بين درجه تقارب الكلمة في الإستعلام والوثائق الموجوده على محرك البحث لمعرفه ما هي الوثيقه الأقرب لطلب المستخدم الإستعلام  Query وهذا ما يسمى وحدات قياس التشابه Similarity Measure فإذن وحدات قياس التشابه هي اقترانات رياضية تحسب درجة التشابه بين محورين هما (الوثائق والاستعلام الذي طلبه المستخدم) سواء كانت الاوزان محتسبه بنموذج الثنائي Binary Model كما في الدرس الثالث أو نموذج المحوري Vector Space Model.

هنالك اربع طرق لحساب درجة التشابه  للنموذجين يمكنك اختيار منهم وهي :

1-         Inner Product
2-         Cosine
3-         Jaccard
4-         Dice
وتتلخص قوانينها للنموذجين الثنائي والمحوري في الجدول التالي:


راجع الدرس الرابع خطوه رقم 2
حيث أن :

القيمه المطلقه لـ X هي عدد الكلمات في الوثيقة

والقيمه المطلقه لـY هي عدد الكلمات في الاستعلام

اما تقاطعهما شرط وجود الكلمة في كل من الوثيقة والإستعلام كما هو موضح في المثال التالي:

 الوثيقه الاولى X1: ( لعب، رياضة، كرة القدم، سباحة، جامعة،خاصة)

الوثيقه الثانية X2  : (وزارة)

 الإستعلام  Y      : (لعب، كرة قدم، خاصة،وزارة)

حسب الدرس الثاني ستكون الاوزان في نموذج   Binary Model الكلمة ان وجدت في الوثيقه يكون وزنها 1 وإن لم تكن موجوده يكون وزنها 0 لان نموذج Binary لا يحتوي الا رقمين للاوزان هي 0 و 1 كما هو موضح  وكذلك الحال في الإستعلام اما في حاله التقاطع فيجب ان يكون وزنها في كل من الوثيقة والإستعلام يساوي 1  لتاخذ الوزن 1 غير ذلك فسيكون وزنها يساوي 0 كما هو موضح في الجدول التالي:



وبالتالي عند حساب على قوانين Similarity Measure فأن :



بالتالي درجه قرب الوثيقه الأولى من الإستعلام أكبر من الوثيقة الثانية لنكمل بقيه القوانين لحساب درجة قرب الوثيقة الاولى مع الإستعلام:


هكذا نكون قد انهينا القسم الاولى من الجدول:



وفي الدرس التالي سوف نستكمل بقية حسابات درجة التشابه بين الوثائق وإستعلام المستخدم لكن باستخدام أوزان طبيعية على نموذج المحوري Vector Space Model.


----------------------------------------------------------------------------------------------------------------------------------------- -----------------------------------------------------------------------------------------------------------------------------------------

كافة الحقوق محفوظة لـ مدونة رعد: لإثراء المعرفة التقنية 2019