الرئيسية / تحسين التنبؤ باستخدام طرائق تحليل المشاعر

تحسين التنبؤ باستخدام طرائق تحليل المشاعر

اسم الباحث: ريم جمال ناصر

المشرف : د. كمال السلوم   –  د. ناصر أبو صالح

العنوان : تحسين التنبؤ باستخدام طرائق تحليل المشاعر

العنوان باللغة الانكليزية : Improving Prediction Using Sentiment Analysis Methods

العام : 2022

القسم : هندسة البرمجيات ونظم المعلومات        

الملخص :

يُعد تحليل المشاعر من المجالات البحثية التي نالت اهتماماً كبيراً في عصرنا الحالي، وذلك لأنه يركّز على التنقيب في الآراء والتجارب التي يُعبّر عنها المستخدمون على شكل نصوص عبر الانترنت وبالتالي يمكن للشركات أن تعرف بدقة رأي جمهورها المُستهدف وتفهم ديناميكيات السوق بل وتتعرف على مكانتها في السوق بين المستخدمين النهائيين.

يوجد العديد من التقنيات المستخدمة في أبحاث تحليل المشاعر من أجل اللغة الانكليزية إلا أنّ اللغة العربية لا تزال تعاني من قلة الأبحاث والمصادر بسبب غناها وتعدد لهجاتها، إذ إنّ هذه التقنيات تواجه مجموعة من الصعوبات التي تحدّ من القدرة على تحسين أدائها.

تتلخص المساهمة المُقدَّمة ضمن هذا البحث في اتجاهاتٍ عدة: الاتجاه الأول، استخدام القواميس على مجموعتين من البيانات المكتوبة باللغة العربية بهدف تحديد المجذّع الأفضل لاستخدامه ضمن مرحلة معالجة البيانات النصية إضافةً لتحديد القاموس الأفضل على كل مجموعة بيانات، وتوصلت الدراسة إلى أنّ المجذع Tashaphyne كان الأفضل. الاتجاه الثاني، تحديد خوارزمية التصنيف الأفضل من بين الخوارزميات الأكثر شيوعاً لكل مجموعة بيانات على حدى، حيث توصلت الدراسة إلى أنّ الدقة الأفضل نتجت عن استخدام آلة شعاع الدعم SVM. الاتجاه الثالث، تحديد بنية التعلم العميق الأفضل من مجموعة الخوارزميات والبنى التي تم اختيارها، فقد توصلت الدراسة إلى أنّ البنية LSTM-CNN المستخدمة أعطت الدقة الأعلى. الاتجاه الرابع، بناء منهجية متكاملة تعتمد على نتائج الاتجاهات السابقة حيث تستخدم بنية التعلم العميق الأفضل وخوارزمية التصنيف التي أعطت الدقة الأعلى لتقوم بمهمة التصنيف والخوارزمية الجينية لاختيار قيم المعاملات الفائقة التي تعطي النتائج الأفضل( الدقة الأعلى).

تعتمد المنهجية المقترحة على تقنية تضمين الكلمات Aravec وذلك لتمثيل الكلمات على شكل أشعة، وتتمتع هذه المنهجية بقدرتها على استخراج الميزات بشكل كبير باستخدام كل من LSTM التي تقوم بتحويل شعاع الدخل إلى شعاع آخر يهتم بتسلسل الكلمات في النص (تهتم بالتقاط التبعيات الزمنية) و CNN التي تستخرج الميزات المحلية بشكل فعلي ثم تستخدم المصنف SVM لتصنيف المراجعات إلى قطبيات مختلفة، وتستخدم الخوارزمية الجينية لاختيار قيم البارمترات الفائقة التي تجعل المنهجية قادرة على إعطاء الدقة الأعلى. كما استطاعت المنهجية المقترحة التفوق على المنهجيات المستخدمة سابقاً على مجموعة البيانات الأولى وذلك بدقة قدرها 93.1% عند توليد 30 جيل في الخوارزمية الجينية ومن أجل القيم التالية للبارمترات التي تم اختيارها: حجم الدفعة Batch size يساوي 60 ، عدد  الحقب epoch يساوي 55 ، خوارزمية التحسين Adam، ومعدل التسريب 0.3 ، أيضاً استطاعت المنهجية المقترحة تحقيق دقة قدرها 92.87% على مجموعة البيانات الثانية وذلك عند توليد 30 جيل في الخوارزمية الجينية ومن أجل القيم التالية للبارمترات التي تم اختيارها: حجم الدفعة Batch size يساوي 59 ، عدد  الحقب epoch يساوي 75 ، خوارزمية التحسين Adamax، ومعدل التسريب 0.45

الكلمات المفتاحية: تحليل المشاعر، تحليل الآراء، اللغة العربية، استخراج الميزات، معالجة اللغات الطبيعية، المجذعات، إعادة الكلمات إلى أصلها، القواميس، تعلم الآلة، التعلم العميق، الخوارزمية الجينية، البارمترات الفائقة.

تحميل البحث