في الدرس السابق شرحنا الخطوط العريضه للنوع الثاني من أنواع نماذج Classic Model ما هو قانون حساب الأوزان فيه وما الفرق بين تعابيره وتعابير Boolean Model وما هو مدى الأرقام المسموح لنا التعامل بيها داخل Vector Space Model سنتكلم معكم في هذا الدرس عن تفاصيل قانون حساب الاوزان في نموذج VSM.
عناصر قانون الأوزان لنموذج VSM
لنستذكر معا ما هو القانون :
نلاحظ هنا ان الوزن وهو
الرمز W يساوي حاصل ضرب الرمز TFمع الرمز IDF علما ان IDF تساوي
كما
هو مُلاحظ في السطر الثاني للقانون
اذا على ماذا تدل كل هذه الرموز وما
هو المقصود بالحروف الصغيره ij التي تتبع
الرموز
i: هنا هي حرف يدل على الكلمة الدالة التي يحاول
محرك البحث ايجاد وزنها لنفترض انها كلمه س
بينما j: هنا
هي الوثيقه التي نريد ان نحسب وزن الكلمة المعيارية فيها لنفترض انها الوثيقة ص
وعلى ذلك فان Wij تعني وزن كلمة س داخل وثيقه ص
مثلا ومن هنا جاءت تسمية هذا الرموز بالنموذج المحوري VSM.
لنستكمل بقيه الرموز:
TF: هو اختصار لـ Term Frequency تردد
الكلمة وبالتالي
TFij: تعني كم عدد المرات التي وردت الكلمة س في الوثيقه ص
مثال لو اننا نبحث عن كلمه (طالب) في
الوثيقه التي تحوي مجموعة الجملة التالية : {اذا اردنا
ان يكون الطالب مجتهدا فعلى أهل الطالب ومعلم الطالب العمل معا }
هنا TFij اي عدد مرات التي ذكرت فيها
كلمة طالب في الوثيقه تساوي 3 مرات
IDF : وهو اختصار لـ INVERSE DOCUMENT FREQUENCY
اي درجه التميز لكلمة معينه وهو يساوي
حيث ان:
N: عدد الوثائق في النظام ككل
DFi: اختصار لـ Document Frequency
اي عدد الوثائق التي ذُكرت فيها الكلمه i.
ملاحظه 10 logهي
اللوغ التلقائي في الالات الحاسبة وهو ذاته شارة log فقط
بالتالي لو ان عدد الوثائق ككل في النظام هي 10 والوثائق التي
ذكرت كلمه الطالب هي 2 فان :
ولو اردنا حساب وزن كلمه الطالب في
الوثيقه التي ذكرنا محتوياتها سابقا: { اذا اردنا
ان يكون الطالب مجتهدا فعلى اهل الطالب ومعلم الطالب العمل معا } ستكون
النتيجة:
لكن لو كان عدد الوثائق ككل 10
والوثائق التي ذكرت فيها كلمة الطالب ايضا 10 بالتالي
هنا لاحظنا ان الكلمة التي وردت في كل
وثيقة اصبحت وحده قياس التميزIDF لها تساوي صفر الي انها لم
تعد مهمة لتميز وزن الكلمة فهيه لم تجعل الكلمة هذه مميزه في وثيقة معينه لنعيدها
للباحث عند وضع استعلامة.
مثال كبير على نموذج VSM
سوف نعطي الان مثال كبير للنطبق عليه
قانون حساب الأوزان في نموذج VSM ولان نموذج VSM هو
نموذج محوري سيقوم بحساب الاوزان للكلمات داخل كل الوثائق وايضا داخل الاستعلام query الذي
طلبه الباحث كما اننا سنستخدم اللغه الطبيعية وعليه علينا ان نقوم بمرحه ما قبل
المعالجه وهي:
1- حذف كلمات Stop Words مثل
حروف الجر بالعربية مثلا.
2- عدم ارجاع الكلمات الى جذورها.
3- حساب الاوزان للكلمات في كل من الوثائق
والاستعلامات.
مثال:
اذا
كان محرك البحث يحوي ثلاث وثائق هي:
وثيقه
1 (شحنة الذهب تدمرت في الحريق)
وثيقة
2 (توصيل الفضه ستكون على شاحنة الفضه)
وثيقة
3 (شحنة الذهب ستكون في الشاحنة)
ثم
قام الباحث بالبحث عن الاستعلام التالي: ( شاحنة الذهب والفضه)
فما
هي الوثائق الراجعه واذا كانت اكثر من وثيقه فما هو ترتيبها حسب مبداء الاقرب
فالاقرب
الحل:
اولا علينا ان نقوم بمرحلة ما قبل المعالجه
وهي حذف الكلمات Stop words وهي هنا الـ التعريف مثل الذهب يتصبح ذهب وكذلك في وعلى وهي حروف جر وكذلك لن نرجع اي كلمة الى جذرها
مثل توصيل لن تصبح وصل ستبقا كما هي ثم نبدأ حساب الأوزان حسب القانون ولنسهل ذلك
سندرج عناصر الأوزان مع الكلمات في الجدول:
TFi
هنا
لاحظنا ان كلمة شحنه كانت TFi لها اي تكرارها في كل وثيقه وكل
استعلام كما يلي: الوثيقه الاولى وردت
مره والوثيقة الثانية لم ترد الثالثه مره واحده واما الاستعلام فلم ترد
.
DFi
اما
بالنسبه لـDFi عدد الوثائق فقط دون الاستعلامات التي وردت فيها كلمه شحنة هي 2 اما
في الاستعلام لن نقوم باحتسابه داخل DF كما سنلاحظ في نتيجة كلمة ذهب لاحقا.
IDF
وبالتالي
حاصل قسمه N على DFi علما ان عدد الوثائق N هنا
هي 3 بالتالي حاصل قسمتها على DF ستكون 3/2 ويساوي 1.5
وعند
حساب درجه التميز IDF
سيكون log1.5 والنتيجة التقريبة هي 0.18
Wij
الان
بقي علينا تجيمع هذه العناصر في قانون الوزن لكل من الوثائق والإستعلام
فنبداء:
الوثيقه الاولى TFi=1 وIDF=0.18
حاصل ضربهم حسب قانون الوزن يساوي 0.18
الوثيقه
الثانيه TFi=0 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0
الوثيقه
الثالثة TFi=1 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0.18
الاستعلام
TFi TFi=0 وIDF=0.18 حاصل ضربهم حسب قانون الوزن يساوي 0
ولو
طلب السؤال استعلام ثاني او ثالث ايضا سنقوم بنفس العملية
الان سنكمل بقيه النتائج في الجدول
التالي :
لاحظ: عند كلمة فضة رغم ان TF
لها في الوثيقه الثانية كانت تساوي 2 الا ان عدد الوثائق التي وردت فيها كلمة فضه DF
كانت 1 لانها لم ترد الى في الوثيقة الثانية فقط وإن كانت قد وردت مرتين في نفس
الوثيقه تحتسب لها DF مره واحده فقط.
الى الان تعلمنا كيف نحتسب اوزان
الكلمات في النظام لكن ما هي الوثائق الراجعه لبحث المستعلم هنا يجب علينا ان تسخدم قوانين حساب التشابة Similarity Measure
وهذا ما سنقوم بشرحه في الدرس القادم.