استخراج وتحليل المعلومات لبيانات نصيّة غير مهيكلة اسم الباحث: المهندس مجد ادمون طنوس اسم المشرف: الدكتور مهند رجب – الدكتور وسيم رمضان العنوان: استخراج وتحليل المعلومات لبيانات نصيّة غير مهيكلة العنوان باللغة الإنكليزية: Information Extraction and Analysis of Unstructured Textual Data العام:2024 القسم:هندسة البرمجيات ونظم المعلومات الملخص: مع التزايد الهائل في حجم البيانات النصية غير المهيكلة المتاحة إلكترونياً، والتي تشكل نحو 80% من البيانات النصية على الإنترنت، بات ضرورياً تطوير تقنيات فعّالة من أجل استغلالها ومعالجتها حاسوبياً بكفاءة. تحتوي هذه النصوص ثروة كبيرة من المعلومات التي لا يمكن الاستفادة منها بشكلها الخام، لذا تُستخدم تقنيات استخراج المعلومات من أجل معالجة البيانات النصيّة غير المهيكلة، واستخلاص معلومات مفيدة منها وهيكلتها. يُتيح ذلك إمكانية الاستفادة من هذه المعلومات من قِبل البرامج الحاسوبية وتحليلها وتوظيفها في صنع القرار. يواجه استخراج المعلومات من البيانات النصية غير المهيكلة تحدياتٍ عديدة، تتمثل بصعوبة معالجة كميات ضخمة منها يدوياً، بالإضافة إلى غموض اللغات الطبيعية وتنوع صياغتها وصعوبة تفسيرها وتحليلها حاسوبياً. من جهة أخرى، تواجه الطرائق الحالية لاستخراج المعلومات معوقات عدّة تتبع لأسباب مختلفة مثل استخراج المعلومات من كامل الوثيقة أو اتباع أسلوب التصنيف لاستخراج معلومات محددة فقط، بالإضافة إلى عدم استغلال الإمكانيات الفائقة لنماذج المحولات من قِبل العديد من الدراسات. تهدف هذه الدراسة إلى استخراج مقاطع الوثيقة وهيكلتها بكفاءة، في سبيل تحسين دقة وأداء استخراج المعلومات بالاستفادة من المقاطع المستخرجة، مع استغلال إمكانيات نماذج المحولات. يؤدي ذلك إلى هيكلة المعلومات المستخرجة بفعالية وجعلها سهلة الاستخدام من قِبل البرامج التطبيقية والتحليل الإحصائي. تُقدّم هذه الدراسة طريقة فعّالة لتطوير آلية استخراج المعلومات بالاستفادة من الإجابة عن الأسئلة القائم على الاستخراج النصي. تم تطوير خوارزمية TSHD لاستخراج مقاطع الوثيقة وموضوعاتها وهيكلتها بكفاءة، ومن ثم استخراج المعلومات بواسطة نماذج المحولات من المقاطع ذات الصلة تبعاً لموضوع المقطع عوضاً عن الوثيقة كاملةً. تم استخدام ثلاثة نماذج محولات تتبع لهيكليات Roberta، DistilBert، وLongformer. أسهمت هذه الطريقة في تحسين دقة وأداء نماذج استخراج المعلومات، يمكن توظيفها أيضاً في تحليل المعلومات المستخرجة وصنع القرار. حققت الطريقة المقترحة تحسناً في نتائج تقييم مجموعة من نماذج استخراج المعلومات، تبعاً لكل من squad 1.1 وsquad 2. ارتفعت قيمة مقياس F1-score بنسبة زيادة وصلت إلى 7.8% تبعاً لـ squad 1.1، كما ارتفعت أيضاً بنسبة زيادة وصلت إلى 14.1% تبعاً لـ squad2. بالإضافة إلى ذلك، تم تسريع عملية استخراج المعلومات من خلال الوصول المباشر للمعلومات من ضمن المقاطع ذات الصلة. يمكن لهذا العمل فتح آفاق بحث مستقبلية مهمة، إذ يمكن أن تسهم الطريقة المقترحة في تحسين فعالية استخراج المعلومات ضمن مجالات نصية متعددة ومكتوبة بلغات مختلفة. بالإضافة إلى ما سبق، يمكن الاستفادة من خوارزمية تقطيع TSHD في تحسين جودة العديد من تطبيقات معالجة اللغات الطبيعية الأخرى، مثل استرجاع المعلومات والتلخيص وغيرها. الكلمات المفتاحية: معالجة اللغات الطبيعية، استخراج المعلومات النصية، التعلم العميق، نماذج المحولات، التقطيع. تحميل البحث