2024208494886170954365459073536587125329324600425355324472245929212525005525530030271027810172575929800065427858557245242200073127892960531555

الجمعة، 16 أغسطس 2019

استرجاع البيانات IR -الدرس الأول

في هذه الدوره التدريبة سنقدم لكم سلسلة دروس تختص في علم استرجاع البيانات IR

استرجاع البيانات IR -الدرس الأول

ما هي أنظمة أسترجاع البيانات وكيف تعمل وما أهميتها في زمننا الحالي وهل يحدث المستخدم العادي منا اي فرق في انجاح نتائج هذه الأنظمة.




انظمة استرجاع البيانات

هي انظمه تقوم على ايجاد وثائق و بيانات للإجابة عن بحث المستعلم باستخدام خوارزميات خاصة، وجدت هذه الانظمه لان الوثاق على الشبكه العنكبوتيه اصبحت كثيره ويصعب البحث عنها بالطرق التقليدية،

عملية Indexing 

تعتمد الخوارزميات في انظمه استرجاع البيانات على عملية Indexing وهو ان نجعل لكل وثيقه على الانترنت سواء كانت صفحات ويب تحمل نصوص او وسائط متعدده او مواقع جغرافية على الخارطه الى اخره؛ يكون لهذه الوثائق كلمات مرجعيه تدل على محتويات تصب في صلب موضوع الوثيقة ومعبره عنها فتقوم انظمه الاسترجاع بالمطابقه بين كلمات المعبره Index في الوثائق الموجوده على الشبكه العنكبوتيه وبين كلمات البحث التي طلبها المستعلم او الباحث وبالتالي تختصر هذه العملية Indexing على انظمه البحث الوقت والجهد فلا يضيع الوقت في المطابقه بين كلمات الباحث وكل كلمه في كل وثيقه على كل صفحات الموجودة على الشبكه العنكبوتيه.


ترتيب النتائج 

ثم تقوم انظمه الاسترجاع بترتيب البيانات "الراجعة" Retrieved Documents الاقرب فالاقرب "للمفيده" لطلب المستعلم او الباحث Relevant Documents

وهذه الخطوة هي اههم خطوه في عمليات البحث IR Processing وتدعى Ranking ولها خوارزميات خاصه لترتيب البيانات الراجعه

فكلما كانت الوثائق ("المفيدة "الراجع") اكبر كلما نجحت عملية البحث بصوره افضل


ويعتمد نجاح العملية البحثية على امرين:

1-المفاتيح البحثيه التي يضعها المستعلم او الباحث set of keywords وهي ان تكون الكلمات التي يضعها الباحث في دال على المراد الوصول اليه.


2- ترتيب العبارات والجمل ككل وليس فقط اختيرا الكلمات والمصطلحات يجب ان يضعها الباحث بحيث تكون اقرب للمطلوب خصوصا ان هذه العباره سوف يقوم نظام الاسترجاع بتحويلها من لغة الانسان الى لغته البرمجيه الخاصة بهquery language.

ومن ذلك نستنتج ان نجاح عمليه البحث يعتمد بشكل كبير على ذكاء الباحث واسلوب بحثه.

عمليات المعالجه لأنظمة الاسترجاع

1- كل محرك بحث له مجموعة من الصفحات التي يقوم بحجزها والبحث من خلالها عن وثائق متطابقه لطلب المستعلم.

2-ياخذ المحرك هذه الصفحات الخاصه ويقوم بتوحيد لغتها جميعا.

3- يقوم محرك البحث باختيار نموذج للعمل Text Model
وهي نماذج كثيره في عالم محركات البحث تعتمد كل منها على اسلوب خاص لوضع تاكيب للنصوص Text Structure وكذلك تحديد ما هي عناصر النصوص التي يمكن ارجاعها في عمليات البحث.

4-بناء جدول في النموذج يحتوي الكلمات المفيده او المرجعية في الوثية Building Index in the Model

5-يقوم المستعلم بوضع كلمات وجمل البحث التي يريد الاستعلام عنها بلغتة البشرية Request in Natural language

6-تقوم محركات البحث بعمليه ما قبل المعالجه للطلب المستعلم بحيث:

- تقسم او تقطع الجملة البحثية word separation.
- تحول الحروف الى شكل واحد في حال وجود حروف كبيرع او صغيره كما في اللغة الانجليزية وفي هذه الحاله عادا يقوم المحرك بتحويلها الى lowercase.
- حذف الكلمات التي ليس لها قيمة stop-words كحروف الجر باللغة العربية.
- ارجاع الكلمات الى جذورها مثل كلمه يكتب جذرها كتب.

7- استرجاع الوثائق ذات العلاقه باستعلام الباحث بعد عمليه ما قبل المعالجه.

8- عملية الترتيب Ranking الاقرب فالاقرب حسب وحدات قياس للوثائق ذات الصله بمطلب الباحث، من المعرةف ان هناك بعض صفحات تقوم بالظفع لمحركات البحث ليكون ترتيبها في الصداره دائما وهذا يرفع من قيمة مشاهدات هذه الصفحات.

9- الخطوة الاخيره هي اختبار وتجريب الباحث للوثائق الراجعة له من عمليه البحث وتاكد بنفسه ان كانت مطابقة لما يبحث عنه ام لا.
هذه هي عمليات المعالجة في انظمه استرجاع البيانات

الفرق بين Information retrieved and Data base retrieved 

في انظمه استرجاع البيانات يعتمد على نصوص غير مهيكلة وبلغات الانسان واسترجا البيانات يتعمد على عمليات التفسير كل كلمه بحثيه يقوم محرك البحث بارجاع نتائج ما يتعلق بهذه الكلمة وما يفسرها وليس المطابق لها تمام وبشكل حرفي فقط.

بينما قواعد البيانات فهي تعتمد على بيانات مهيكلة Structure Data وتكون بحاجة الى لغات برمجة واالاستعلام عن اي معلومه وارجاعها للباحث يعتمد على SQL Statement والنتائج تكون مطابقه حرفيا للكلمات الباحث وبالتالي اي خطئ ولو كان املائي في كلماتوالباحث سيؤدي الى فشل في عمليه البحث كاملة.

هذه نبذه عن محركات البحث وكيف تعمل وما هو المؤثر في تحسين نتائج البحث وما الفرق بينها وبين قواعد البايانات
----------------------------------------------------------------------------------------------------------------------------------------- -----------------------------------------------------------------------------------------------------------------------------------------

كافة الحقوق محفوظة لـ مدونة رعد: لإثراء المعرفة التقنية 2019