اكتشاف الموضوع في بيانات مواقع التواصل الاجتماعي النصية المكتوبة باللغة العربية (اللهجة المحكية في سورية)

  • م. عذاب أحمد

الملخص

تشغل مواقع التواصل الاجتماعي الحيز الأكبر من وقت المستخدمين في السنوات الأخيرة سواءً للحصول على معلومات أو للترفيه؛ فكان من الضروري إيجاد طريقة باستخدام تقنيات التصنيف لاختصار وقت مستخدمي هذه المواقع من خلال تجنيبهم تصفح منشورات لا تقع ضمن دائرة اهتماماتهم، وباعتبار مصادر بيانات اللغة العربية لاسيما اللهجات المحكية منها لا تزال قليلة مقارنة بلغات أخرى؛ قدَّمنا في هذا البحث مجموعة بياناتArabic Topic Detection Dataset for Syrian Dialect (ATDSy)   خاصة بمهمة تصنيف الموضوع باللغة العربية -اللهجة المحكية السورية- تتضمن 6000 منشور فيسبوك موزعة على ستة أصناف. تم استخدام نموذج fine-tuned AraBERT كنموذج أساسي baseline في تقييم مجموعة البيانات من أجل عملية التصنيف، ومقارنة أدائه مع أداء مجموعة من خوارزميات التعلم الآلي التقليدية، وقد تفوق fine-tuned AraBERT على الخوارزميات الأخرى بمعدلات  f1-score, accuracyبمقدار .99%

منشور
2023-08-09
القسم
سلسلة العلوم الهندسية الميكانيكية و الكهربائية و المعلوماتية