2024208494886170954365459073536587125329324600425355324472245929212525005525530030271027810172575929800065427858557245242200073127892960531555

الاثنين، 2 سبتمبر 2019

استرجاع البيانات IR الإسقاط المحوري VSM النموذج الثاني -الدرس الرابع


في  الدرس السابق تعلمنا ماهو نموذج Boolean Model وكيفيه حساب الاوزان (1و0) والتعبير عن لالإستعلام باستخدام (and,or, not) وقد علمنا أن هذا النموذج يقوم بارجاع قيم متطابقه كلياً او لا يرجع شيىء وبالتالي هو نموذج يصلح في المجال التجاري مثل الاسواق والمحال التجارية حيث يكون طلب الباحث اما موجود بشكل متطابق تماماً او لن يكون موجود ابداً
اليوم سوف نتعلم نموذج أخر من نماذج Classic IR Model وهو:


نموذج اسقاط الكلمات على محاورVector Space Model (VSM)  

هو نموذج يعتمد الجبر الخطي وهو وجود اكثر من محور ومحاوله إيجاد النقاط المشتركه بين المحور السيني والصادي هذا النموذج يقوم بحساب الاوزان لكل من الوثائق المحفوظه على محرك البحث والاستعلام الذي كتبه الباحث علماً ان هذا الإستعلام يُكتب بالتعابير الطبيعية للغة الإنسان وليس باستخدام (and, or ,not)  وبالتالي النتئج تعتمد على التطابق الجزئي وليس الكلي كما في النموذج السابق  Boolean Modelو الجدول التالي يمثل الفروقات بين النموذج الأول والثاني:


الفرق
Boolean
VSM
اوزان الكلمات في كل من الوثائق والاستعلام
0 و 1
الارقام الطبيعية كاملة
تعبير عن الاستعلام query
And,or,not
اللغة الطبيعيه كاملاً
التطابق بين الوثائق والاستعلام
كلي: يجب ان يكون التطابق كلي بين الوثيقه وإستعلام الباحث حتى ترجع هذ الوثيقة في النتائج لمحرك البحث
جزي : اي تشابه في الازوزان بين طلب المستعل واي وثيقه يقوم بارجاعها النظام ولكن بترتيب الاقرب فالاقرب لطب الباحث بشكل تنازلي
استخدمات النموذج
في الأنظمة التجارية
في جميع الأنظمة

 

طريقة عمل VSM:

1- إعطاء اوزان لكل الكلمات في الوثائق وكذلك الإستعلام اي عمل محورين للإوزان سيني الوثائق وصادي الاستعلام -علما ان الكلمات هنا المقصود بها الكلمات الداله Index Term- ويعتمد حساب الاوزان على قانون يحتوي ثلاثه عناصر سنشرحها لاحقا والقانون هو:
2- مقارنة الأوزان باستخدام وحدات قياس خاصة تسمى وحدات قياس التشابة Similarity Methods وهي وحدات تقوم بقياس درجه التشابة بين أوزان الكلمات الداله في الوثيقه وبين طلب المستعلمquery  وهي (Inner Product,Cosine,Dice,Jaccard)
وهذا الوحدات لكل منها قانون خاص ويمكننا اختيار اي من هذا القوانين لحساب درجه التشابة بين الوثيقه والاستعلام سواء كان الاوزان تُحسب بالارقام الطبيقه او حتى في نظام Boolean وهي 0 و1 والجدول التالي يبين القوانين الخاصة بكل وحدة قياس وسنقوم بالدروس التالية شرحها بالتفصيل:




3- في النهاية يقوم النموذج بترتيب النتائج الأقرب فالأقرب.

في الدرس التالي سوف نقوم بشرح الخطوات بالتفصيل مع اعطاء امثلة على ذلك انتظرونا ولا تقلقوا من كثرة الرموز الرياضيه في القوانين سندرسها معا ونبسطها اكثر لكم.

----------------------------------------------------------------------------------------------------------------------------------------- -----------------------------------------------------------------------------------------------------------------------------------------

كافة الحقوق محفوظة لـ مدونة رعد: لإثراء المعرفة التقنية 2019