معالجة مشكلة الملفات الصغيرة في هادوب

  • طالب الدراسات العليا: عمار العلي

الملخص

إن نظام ملفات هادوب الموزع (HDFS) هو تحقيق مفتوح المصدر لأباتشي مخصص لتخزين الملفات الكبيرة، ولكن عند الحاجة لتخزين عدد كبير من الملفات الصغيرة، يواجه HDFS بعض المشكلات حيث تتم إدارة الملفات جميعها في HDFS من قبل عقدة واحدة تسمى السيد (Master) (NameNode)، التي تتعامل مع البيانات الوصفية لعدد كبير من العقد تسمى العبيد (Slaves) (DataNodes). تخزن عقدة NameNode جميع البيانات الوصفية في ذاكرة الوصول العشوائي الخاصة بها. لذلك، عند التعامل مع عدد كبير من الملفات الصغيرة، وبما أن كل ملف صغير يستهلك كتلة على نحو فردي مما يؤدي إلى زيادة متطلبات الذاكرة لعقدة NameNode وغالباً ما تصبح عقدة NameNode عنق زجاجة ل HDFS لأنها قد تنفد من الذاكرة.
في هذه الدراسة تمت معالجة مشكلة الملفات الصغيرة في هادوب عن طريق تحسين
(HPF (Hadoop Perfect File، وهو نظام أرشفة جديد قائم على الفهرسة لتحقيق أداء أفضل، وتم تحسين (ileHadoop Perfect F( HPF عن طريق الاستفادة من ذاكرة الوصول العشوائي (RAM) لعقدة (Client) في عمليات التخزين المؤقت والجلب المسبق للملفات الصغيرة بدلاً من الاعتماد دائماً على الأقراص للقراءة، وتم اقتراح خوارزمية للمحافظة على الملفات المطلوبة مؤخراً في ذاكرة العميل مما خفض من زمن الوصول للملفات وحسن الأداء. 

منشور
2023-08-17
القسم
سلسلة العلوم الهندسية الميكانيكية و الكهربائية و المعلوماتية