أخر الاخبار

استرجاع البيانات IR حساب الأوزان في نموذج استرجاع البيانات الثاني VSM - الدرس الخامس



في الدرس السابق شرحنا الخطوط العريضه للنوع الثاني من أنواع نماذج Classic Model ما هو قانون حساب الأوزان فيه وما الفرق بين تعابيره وتعابير Boolean Model وما هو مدى الأرقام المسموح لنا التعامل بيها داخل Vector Space Model سنتكلم معكم في هذا الدرس عن تفاصيل قانون حساب الاوزان في نموذج VSM.

عناصر قانون الأوزان لنموذج VSM

لنستذكر معا ما هو القانون :


نلاحظ هنا ان الوزن   وهو الرمز W يساوي حاصل ضرب الرمز TFمع الرمز IDF  علما ان IDF تساوي

كما هو مُلاحظ في السطر الثاني للقانون
اذا على ماذا تدل كل هذه الرموز وما هو المقصود بالحروف الصغيره ij التي تتبع الرموز

i: هنا هي حرف يدل على الكلمة الدالة التي يحاول محرك البحث ايجاد وزنها لنفترض انها كلمه س
بينما j: هنا هي الوثيقه التي نريد ان نحسب وزن الكلمة المعيارية فيها لنفترض انها الوثيقة ص
وعلى ذلك فان  Wij  تعني وزن كلمة س داخل وثيقه ص مثلا ومن هنا جاءت تسمية هذا الرموز بالنموذج المحوري VSM.

لنستكمل بقيه الرموز:

TF: هو اختصار لـ Term Frequency تردد الكلمة وبالتالي
TFij: تعني كم عدد المرات التي  وردت الكلمة س في الوثيقه ص
مثال لو اننا نبحث عن كلمه (طالب) في الوثيقه التي تحوي مجموعة الجملة التالية : {اذا اردنا ان يكون الطالب مجتهدا فعلى أهل الطالب ومعلم الطالب العمل معا }
هنا TFij  اي عدد مرات التي ذكرت فيها كلمة طالب في الوثيقه تساوي 3 مرات
IDF : وهو اختصار لـ INVERSE DOCUMENT FREQUENCY اي درجه التميز لكلمة معينه  وهو يساوي   

 حيث ان:
N: عدد الوثائق في النظام ككل
DFi: اختصار لـ Document Frequency اي عدد الوثائق التي ذُكرت فيها الكلمه i.
ملاحظه  10 logهي اللوغ التلقائي في الالات الحاسبة وهو ذاته شارة log فقط
بالتالي لو ان عدد  الوثائق ككل في النظام هي 10 والوثائق التي ذكرت كلمه الطالب هي 2 فان :

ولو اردنا حساب وزن كلمه الطالب في الوثيقه التي ذكرنا محتوياتها سابقا: { اذا اردنا ان يكون الطالب مجتهدا فعلى اهل الطالب ومعلم الطالب العمل معا } ستكون النتيجة:

لكن لو كان عدد الوثائق ككل 10 والوثائق التي ذكرت فيها كلمة الطالب ايضا 10 بالتالي

هنا لاحظنا ان الكلمة التي وردت في كل وثيقة اصبحت  وحده قياس التميزIDF لها تساوي صفر الي انها لم تعد مهمة لتميز وزن الكلمة فهيه لم تجعل الكلمة هذه مميزه في وثيقة معينه لنعيدها للباحث عند وضع استعلامة.

مثال كبير على نموذج VSM

سوف نعطي الان مثال كبير للنطبق عليه قانون حساب الأوزان في نموذج VSM ولان نموذج VSM هو نموذج محوري سيقوم بحساب الاوزان للكلمات داخل كل الوثائق وايضا داخل الاستعلام query الذي طلبه الباحث كما اننا سنستخدم اللغه الطبيعية وعليه علينا ان نقوم بمرحه ما قبل المعالجه وهي:
1- حذف كلمات Stop Words مثل حروف الجر بالعربية مثلا.
2- عدم ارجاع الكلمات الى جذورها.
3- حساب الاوزان للكلمات في كل من الوثائق والاستعلامات.


مثال:
اذا كان محرك البحث يحوي ثلاث وثائق هي:
وثيقه 1 (شحنة الذهب تدمرت في الحريق)
وثيقة 2 (توصيل الفضه ستكون على  شاحنة الفضه)
وثيقة 3 (شحنة الذهب ستكون في الشاحنة)
ثم قام الباحث بالبحث عن الاستعلام التالي: ( شاحنة الذهب والفضه)
فما هي الوثائق الراجعه واذا كانت اكثر من وثيقه فما هو ترتيبها حسب مبداء الاقرب فالاقرب

الحل:
 اولا علينا ان نقوم بمرحلة ما قبل المعالجه وهي حذف الكلمات Stop words وهي هنا الـ التعريف مثل الذهب يتصبح ذهب وكذلك في وعلى  وهي حروف جر وكذلك لن نرجع اي كلمة الى جذرها مثل توصيل لن تصبح وصل ستبقا كما هي ثم نبدأ حساب الأوزان حسب القانون ولنسهل ذلك سندرج عناصر الأوزان مع الكلمات في الجدول: 





TFi

هنا لاحظنا ان كلمة شحنه كانت TFi لها اي تكرارها في كل وثيقه وكل استعلام  كما يلي: الوثيقه الاولى وردت مره والوثيقة الثانية لم ترد الثالثه مره واحده واما الاستعلام فلم ترد .

DFi

اما بالنسبه لـDFi عدد الوثائق فقط دون الاستعلامات التي وردت فيها كلمه شحنة هي 2 اما في الاستعلام لن نقوم باحتسابه داخل DF كما سنلاحظ في نتيجة كلمة ذهب لاحقا.

IDF

وبالتالي حاصل قسمه N  على DFi علما ان عدد الوثائق N  هنا هي 3 بالتالي حاصل قسمتها على DF ستكون 3/2 ويساوي 1.5
وعند حساب درجه التميز IDF سيكون log1.5 والنتيجة التقريبة هي 0.18

Wij

الان بقي علينا تجيمع هذه العناصر في قانون الوزن لكل من الوثائق والإستعلام
فنبداء:
 الوثيقه الاولى TFi=1 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0.18
الوثيقه الثانيه TFi=0 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0
الوثيقه الثالثة  TFi=1 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0.18
الاستعلام TFi TFi=0 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0
ولو طلب السؤال استعلام ثاني او ثالث ايضا سنقوم بنفس العملية

الان سنكمل بقيه النتائج في الجدول التالي :



لاحظ: عند كلمة فضة رغم ان TF لها في الوثيقه الثانية كانت تساوي 2 الا ان عدد الوثائق التي وردت فيها كلمة فضه DF كانت 1 لانها لم ترد الى في الوثيقة الثانية فقط وإن كانت قد وردت مرتين في نفس الوثيقه تحتسب لها DF مره واحده فقط.


الى الان تعلمنا كيف نحتسب اوزان الكلمات في النظام لكن ما هي الوثائق الراجعه لبحث المستعلم  هنا يجب علينا ان تسخدم قوانين حساب التشابة Similarity Measure وهذا ما سنقوم بشرحه في الدرس القادم.

تعليقات
ليست هناك تعليقات
إرسال تعليق



    وضع القراءة :
    حجم الخط
    +
    16
    -
    تباعد السطور
    +
    2
    -