2024208494886170954365459073536587125329324600425355324472245929212525005525530030271027810172575929800065427858557245242200073127892960531555

الثلاثاء، 20 أغسطس 2019

استرجاع البيانات IR أنواع النماذج في أنظمة استرجاع البيانات -الدرس الثاني


في الدرس السابق شرحنا ما هي انظمة استرجاع البيانات وكيف يأثر الباحث في نتائج البحث ومدى صحتها وما الفرق بين انظمه استرجاع البيانات وقواعد البيانات وعلمنا ان لهذه الانظمة عمليات معالجة تتضمن الكثير من الخطوات بعضها يعتمد على المستعلم والاخر على نماذج وخوازميات خاصة لكل محرك بحث وكذلك على الكلمات المعيارية Index في كل وثيقة على هذا المحرك


ما هي أنواع النماذج في أنظمة استرجاع البيانات Information Retrieval Models


يمكننا تقسيم النماذج الى عدة فئات هي:


IR Models
 Browsing Models
Structured Models
Classic Models
- Flat
- Structures
- Hypertext
- Non-Overlapping lists
proximate - Node
- Boolean
- Vector
- Probabilistic

ما هي Classic Models وعلى ماذا تعتمد في حساباتها اذا ما كانت هذه الوثيقه مناسب لبحث المستعلم ام لا؟

قبل ذلك لابد ان نعلم ما هو تقسيم الكلمة Term
ينقسم Term  الى نوعين كلمات مفيدة Useful و كلمات غير مغيدة unuseful  ويتميز كل منها بعدة مميزات كما في الجدول:

الكلمة Term
مفيدة Useful
غيرمفيده unuseful
هي الكلمات الممثلة للوثيقة داله ومفتاحية لها Representative

وكذلك الكلمات التي تلخص هذه الوثيقة Summarize وغالبا تكون هذه الكلمات اسماء Nouns
الصفات والظروف وادوات الربط
(Adjectives, Adverbs and Connectives)
هذه الكلمات لا تعتبر مفيدة في البحث عن الوثاق وكذلك الكلمات التي ترد كثيرا Very Frequent
لانها في هذه الحال تتكرر كثيرا لغايات اللغة وليس لانها معبره او ملخصة لجوهر الوثيقة
ايظا تعتبر الكلمات التي بالكاد ترد Very Infrequent term
تعتبر غير دالة على المراد من وجود هذه الوثيقه لذلك تعتبر غير مفيده وتستثنى من عمليات البحث

اذا انحصرت الكلمات المفيده في الاسماء المعبره والملخصه للوثيقه وتعتبر هذه الكلمات هي Index Term وهذه الكلمات تعطى قيمه رقميه تدعى الوزن Wight.

اّلية العمل في النماذج الكلاكسيكه Classic IR Models هي اعطاء اوزان لكل كلمة تعتبر Index في الوثيقه  هذا الاوزان تزيد بمقدار الاهمية والقرب من طلب المستعلم وهذا يعتمد على الانوع المنبثقة من نماذج الكلاسيكية كما هو موضح في الجدول الأول.

اول نموذج منبثق هو Boolean Model:

أنواع النماذج في أنظمة استرجاع البيانات -الدرس الثاني


هذا النموذج يعتمد على نظرية Binary Decision  وهي اعطاء الاوزان قيمة رقميه اما 1 او 0 بينما يعبر عن الاستعلام بالربط بين الكلمات بادوات (and, or , not) وغالبا يستخدم هذا النموذج في البرامج التجارية مثل المحال التجارية والمولات  الى اخره وبناءاً عليه فان هذا النموذج هو من النماذج البسيطه السهلة التي تُرجع قيمه متطابقه تماماً او لن ترجع شيء اطلاقاً وهذه احدى سلبيات هذا النموذج لانه يعتمد على الطابق التام ستكون القيم الراجعه كثيره في حال كانت نتيجه الاستعلام ايجابية true وإلا لن يرجع اي نتيجة في حال كانت نتيجة الاستعلام سلبية false، اما السلبية الثانية للنموذج فهي تكمن في حصر المستعلم باستخدام التعبيرات المنطقية (and, or , not) عند بناء إستعلامة او query request
 لنفهم هذا النموذج علينا ان نتعلم الاختصارات للتعبيرات المنطقية والعملياتالخاصه به اي:
 (Boolean Expression symbol,Boolean operation)


وهذا ما سوف نتعلمة في الدرس التالي بالامثلة والتطبيق العملي على نموذج Boolean Model.

----------------------------------------------------------------------------------------------------------------------------------------- -----------------------------------------------------------------------------------------------------------------------------------------

كافة الحقوق محفوظة لـ مدونة رعد: لإثراء المعرفة التقنية 2019